- 論壇徽章:
- 0
|
原文地址:http://www.douban.com/note/34135060/
抓取豆瓣數(shù)據(jù)分析:
抓取條數(shù)指下載html并提取出書音影信息并保存到指定文件
所測網(wǎng)址為:www.dou封.com/subject/xxxxxxx/
并發(fā)數(shù) 抓取間隔 一小時抓取條數(shù)
1 10秒間隔 360 條
1 1秒 3450條
1 2秒 1705條
1 無間隔 13497條 平均3.7/秒 1 小時后被封
8 無間隔 303*360條 平均30.3/秒 10秒后被封
(被封五小時后會自動解封,也可重啟路由器解封)
1 個并發(fā)+抓取間隔測試:
10秒間隔抓取 正常 注:白天
2 秒間隔抓取 正常 注:半夜+白天
1 秒間隔抓取 十幾分鐘后被封 注:白天
無間隔測試:
1 個并發(fā)抓取 一小時后被封 注:半夜
8 個并發(fā)抓取 十秒后被封 注:白天
結(jié)論:
豆瓣自動檢測用戶訪問的頻率 目前看來最低的正常值是 單并發(fā)兩秒間隔 (2秒到1秒之間我沒測),從1個并發(fā)1秒間隔十分鐘被封和1并發(fā)無間隔1小時被封來看,似乎白天比黑夜要嚴(yán)格的多。
ps1: 音樂試聽信息可能因為商業(yè)合作 無法抓取 估計是之后js調(diào)用生成的
ps2:抓取被封后瀏覽器瀏覽豆瓣網(wǎng)依然正常,本人使用adsl,被封后重啟路由器更換ip后抓取正常。難道是同時使用ip和cookie?定位訪問者?
終極ps:本測試初衷是學(xué)習(xí)python正則表達(dá)式的應(yīng)用 要想抓取豆瓣270萬的書音影信息 那還是得考慮分布式抓取 否則耗時太久
[ 本帖最后由 muyufan 于 2009-5-21 22:51 編輯 ] |
|