亚洲av成人无遮挡网站在线观看,少妇性bbb搡bbb爽爽爽,亚洲av日韩精品久久久久久,兔费看少妇性l交大片免费,无码少妇一区二区三区

  免費注冊 查看新帖 |

Chinaunix

  平臺 論壇 博客 文庫
最近訪問板塊 發(fā)新帖
查看: 6053 | 回復(fù): 2
打印 上一主題 下一主題

抓取豆瓣數(shù)據(jù)及被封簡要分析 [復(fù)制鏈接]

論壇徽章:
0
跳轉(zhuǎn)到指定樓層
1 [收藏(0)] [報告]
發(fā)表于 2009-05-21 16:54 |只看該作者 |倒序瀏覽
原文地址:http://www.douban.com/note/34135060/

抓取豆瓣數(shù)據(jù)分析:


    抓取條數(shù)指下載html并提取出書音影信息并保存到指定文件
    所測網(wǎng)址為:www.dou封.com/subject/xxxxxxx/

并發(fā)數(shù)    抓取間隔      一小時抓取條數(shù)

1            10秒間隔       360 條
1            1秒            3450條
1            2秒            1705條
1            無間隔         13497條     平均3.7/秒     1 小時后被封
8            無間隔         303*360條   平均30.3/秒    10秒后被封

(被封五小時后會自動解封,也可重啟路由器解封)

1 個并發(fā)+抓取間隔測試:
    10秒間隔抓取  正常            注:白天
    2 秒間隔抓取  正常            注:半夜+白天
    1 秒間隔抓取  十幾分鐘后被封  注:白天
無間隔測試:
    1 個并發(fā)抓取  一小時后被封    注:半夜
    8 個并發(fā)抓取  十秒后被封      注:白天
結(jié)論:
    豆瓣自動檢測用戶訪問的頻率 目前看來最低的正常值是 單并發(fā)兩秒間隔 (2秒到1秒之間我沒測),從1個并發(fā)1秒間隔十分鐘被封和1并發(fā)無間隔1小時被封來看,似乎白天比黑夜要嚴(yán)格的多。


   ps1: 音樂試聽信息可能因為商業(yè)合作 無法抓取 估計是之后js調(diào)用生成的
   ps2:抓取被封后瀏覽器瀏覽豆瓣網(wǎng)依然正常,本人使用adsl,被封后重啟路由器更換ip后抓取正常。難道是同時使用ip和cookie?定位訪問者?
終極ps:本測試初衷是學(xué)習(xí)python正則表達(dá)式的應(yīng)用 要想抓取豆瓣270萬的書音影信息 那還是得考慮分布式抓取 否則耗時太久

[ 本帖最后由 muyufan 于 2009-5-21 22:51 編輯 ]

論壇徽章:
0
2 [報告]
發(fā)表于 2009-05-22 08:16 |只看該作者
啥叫分布式抓?是多幾臺機器?

另外,帖這個有什么想法?

論壇徽章:
0
3 [報告]
發(fā)表于 2009-05-29 10:34 |只看該作者
代碼帖上來學(xué)習(xí)一下啊
您需要登錄后才可以回帖 登錄 | 注冊

本版積分規(guī)則 發(fā)表回復(fù)

  

北京盛拓優(yōu)訊信息技術(shù)有限公司. 版權(quán)所有 京ICP備16024965號-6 北京市公安局海淀分局網(wǎng)監(jiān)中心備案編號:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年舉報專區(qū)
中國互聯(lián)網(wǎng)協(xié)會會員  聯(lián)系我們:huangweiwei@itpub.net
感謝所有關(guān)心和支持過ChinaUnix的朋友們 轉(zhuǎn)載本站內(nèi)容請注明原作者名及出處

清除 Cookies - ChinaUnix - Archiver - WAP - TOP