平臺論壇博客文庫

› 論壇 › 程序設(shè)計 › Python › 抓取豆瓣數(shù)據(jù)及被封簡要分析

抓取豆瓣數(shù)據(jù)及被封簡要分析 [復(fù)制鏈接]

muyufan

白手起家

論壇徽章:: 0

電梯直達(dá)

1樓 [收藏(0)] [報告]

發(fā)表于 2009-05-21 16:54 |只看該作者 |倒序瀏覽

原文地址：http://www.douban.com/note/34135060/

抓取豆瓣數(shù)據(jù)分析：

抓取條數(shù)指下載html并提取出書音影信息并保存到指定文件
所測網(wǎng)址為：www.dou封.com/subject/xxxxxxx/

并發(fā)數(shù) 抓取間隔    一小時抓取條數(shù)

1          10秒間隔    360 條
1          1秒          3450條
1          2秒          1705條
1          無間隔       13497條    平均3.7/秒    1 小時后被封
8          無間隔       303*360條平均30.3/秒 10秒后被封

(被封五小時后會自動解封,也可重啟路由器解封)

1 個并發(fā)+抓取間隔測試：
10秒間隔抓取  正常          注：白天
2 秒間隔抓取  正常          注：半夜+白天
1 秒間隔抓取  十幾分鐘后被封  注：白天
無間隔測試：
1 個并發(fā)抓取  一小時后被封注：半夜
8 個并發(fā)抓取  十秒后被封    注：白天
結(jié)論：
豆瓣自動檢測用戶訪問的頻率目前看來最低的正常值是單并發(fā)兩秒間隔 (2秒到1秒之間我沒測)，從1個并發(fā)1秒間隔十分鐘被封和1并發(fā)無間隔1小時被封來看,似乎白天比黑夜要嚴(yán)格的多。

ps1: 音樂試聽信息可能因為商業(yè)合作無法抓取估計是之后js調(diào)用生成的
ps2：抓取被封后瀏覽器瀏覽豆瓣網(wǎng)依然正常，本人使用adsl，被封后重啟路由器更換ip后抓取正常。難道是同時使用ip和cookie?定位訪問者？
終極ps：本測試初衷是學(xué)習(xí)python正則表達(dá)式的應(yīng)用要想抓取豆瓣270萬的書音影信息那還是得考慮分布式抓取否則耗時太久

[ 本帖最后由 muyufan 于 2009-5-21 22:51 編輯 ]