Distributed web page scraper (preferably on EC2)

終了済み 投稿 Aug 26, 2010 着払い
終了済み 着払い

As input to your script, I have a list of about 1M URLs. I want these URLs scraped, and inserted into a database. You do NOT need to recursively crawl the URLs. You just need to retrieve them.

I want a distributed scraper. In particular, I want to give a parameter N, and have the script automatically provision N scrapers, maybe N different Amazon EC2 instances, or some other cloud service. The N instances should avoid doing the same work.

I don't care you write a wrapper script around Scrapy, or another existing web scraper implementation. You can do this if you already know Scrapy or Bixo and want to use it.

The script should really require very little configuration. It should be convenient and one-click if possible. That way, the next time I have a batch of 1M URLs, I can easily run your script.

アマゾンウェブサービス エンジニアリング Java Linux プロジェクト管理 Python スクリプトインストール シェルスクリプト ソフトウェアアーキテクチャ ソフトウェアテスト

プロジェクトID: #3680209

プロジェクトについて

13個の提案 リモートプロジェクト アクティブ Dec 16, 2010

13人のフリーランサーが、平均$217 で、この仕事に入札しています。

ddemidenko

See private message.

$255 USD 14日以内
(72件のレビュー)
6.1
johnweavervw

See private message.

$170 USD 14日以内
(55件のレビュー)
5.3
mlys

See private message.

$254.15 USD 14日以内
(31件のレビュー)
5.4
happytron

See private message.

$212.5 USD 14日以内
(9件のレビュー)
4.8
happydotnet

See private message.

$235.45 USD 14日以内
(17件のレビュー)
4.3
app2technologies

See private message.

$255 USD 14日以内
(16件のレビュー)
3.9
readyfacts

See private message.

$212.5 USD 14日以内
(32件のレビュー)
4.2
kwovw

See private message.

$254.15 USD 14日以内
(2件のレビュー)
3.9
quintonwebz

See private message.

$204 USD 14日以内
(6件のレビュー)
3.6
napoleonmr

See private message.

$255 USD 14日以内
(2件のレビュー)
2.8
richmondcd

See private message.

$127.5 USD 14日以内
(2件のレビュー)
0.7
woolee

See private message.

$170 USD 14日以内
(0件のレビュー)
0.0
bryano

See private message.

$212.5 USD 14日以内
(0件のレビュー)
0.0