亚洲av成人无遮挡网站在线观看,少妇性bbb搡bbb爽爽爽,亚洲av日韩精品久久久久久,兔费看少妇性l交大片免费,无码少妇一区二区三区

  免費(fèi)注冊 查看新帖 |

Chinaunix

  平臺 論壇 博客 文庫
12下一頁
最近訪問板塊 發(fā)新帖
查看: 6342 | 回復(fù): 11
打印 上一主題 下一主題

如何拒絕這些爬蟲? [復(fù)制鏈接]

論壇徽章:
0
跳轉(zhuǎn)到指定樓層
1 [收藏(0)] [報(bào)告]
發(fā)表于 2006-04-21 11:41 |只看該作者 |倒序?yàn)g覽
如何拒絕這些爬蟲?
可以告訴一下嗎?


tcp        1      0 210.*.184.*:http          lj9112.inktomisearch.:36828 CLOSE_WAIT  
tcp        1      0 210.*.184.*:http          lj2210.inktomisearch.:39662 CLOSE_WAIT  
tcp        0      0 210.*.184.*:http          pc68.broad.dynamic.fz:16674 ESTABLISHED
tcp        1      0 210.*.184.*:http          lj2155.inktomisearch.:55243 CLOSE_WAIT  
tcp        1      0 210.*.184.*:http          lj9112.inktomisearch.:43435 CLOSE_WAIT  
tcp        0      0 210.*.184.*:http          lj9085.inktomisearch.:43123 ESTABLISHED
tcp        1      0 210.*.184.*:http          lj2216.inktomisearch.:44291 CLOSE_WAIT  
tcp        1      0 210.*.184.*:http          lj9110.inktomisearch.:57126 CLOSE_WAIT  
tcp        1      0 210.*.184.*:http          lj2352.inktomisearch.:34411 CLOSE_WAIT  
tcp        0      0 210.*.184.*:http          34.153.89.222.in-addr.:1356 ESTABLISHED
tcp        1      0 210.*.184.*:http          lj2080.inktomisearch.:39330 CLOSE_WAIT  
tcp        1      0 210.*.184.*:http          crawl-66-249-72-161.g:33485 CLOSE_WAIT  
tcp        0      0 210.*.184.*:http          crawl-66-249-72-161.g:37106 ESTABLISHED
tcp        1      0 210.*.184.*:http          lj2229.inktomisearch.:46900 CLOSE_WAIT  
tcp        0      0 210.*.184.*:http          lj9109.inktomisearch.:53567 ESTABLISHED
tcp        0      0 210.*.184.*:http          lj9055.inktomisearch.:55555 TIME_WAIT


-----------------------------------------

YAHOO 的解決辦法

http://misc.yahoo.com.cn/help.html#q10

robots.txt

User-agent: Slurp
Crawl-delay: 20


解釋
由于增加了訪問過濾,那么就需要告訴網(wǎng)絡(luò)爬蟲爬行的速度不要太快,還好這個(gè)問題比較好解決,在robots.txt中增加:
Robot-version: 2.0
Crawl-delay: 10
Request-rate: 60/1m
Visit-time: 0000-0800

由于這個(gè)還沒有完全的標(biāo)準(zhǔn),兩種都用了,Crawl-delay是每秒訪問的網(wǎng)頁數(shù),而Request-rate是頁面數(shù)/時(shí)間段,可以設(shè)置為比較小的值,Visit-time為允許訪問的時(shí)間段。
完整的規(guī)范可以看看:http://www.conman.org/people/spc ... ctives.request-rate

[ 本帖最后由 浪子雄心 于 2006-4-23 09:39 編輯 ]

論壇徽章:
0
2 [報(bào)告]
發(fā)表于 2006-04-21 12:54 |只看該作者
我記得可以主動(dòng)關(guān)閉連接
具體就不知道了

論壇徽章:
0
3 [報(bào)告]
發(fā)表于 2006-04-21 13:07 |只看該作者
你的web服務(wù)器么?

是不是某些搜索引擎在掃描你的內(nèi)容?

用防火墻停掉他的tcp就行

論壇徽章:
0
4 [報(bào)告]
發(fā)表于 2006-04-21 13:25 |只看該作者
我的服務(wù)器 是 Linux Apache php mysql 現(xiàn)在這些爬蟲讓數(shù)據(jù)庫受不了


但是 如何通過 lj9055.inktomisearch.

取得對方的IP地 自動(dòng)加入到 防火墻的控制里?

論壇徽章:
0
5 [報(bào)告]
發(fā)表于 2006-04-21 13:48 |只看該作者
如果是網(wǎng)絡(luò)爬蟲的話,一般訪問都有明顯標(biāo)示,要么在瀏覽器標(biāo)示字段,要么在refer字段,看一下你的apache的訪問日志即可知道,在通過apache本身的訪問控制功能即可很容易的拒絕掉,從防火墻層次來入手反而比較復(fù)雜。
簡單舉個(gè)例子,例如baidu爬蟲,它特征是瀏覽器標(biāo)示為:Baiduspider+(+http://www.baidu.com/search/spider.htm)

所以可以這樣標(biāo)示:
   BrowserMatch "^Baidu" baidu
然后合適的地方加入訪問控制語句
   Allow from all
    Deny from env=baidu

這樣這個(gè)爬蟲訪問過來都會(huì)變成403,也就無法到達(dá)數(shù)據(jù)庫,目的基本就達(dá)到了。


另外其實(shí)如果是設(shè)計(jì)好的爬蟲都會(huì)遵循Robots.txt語義的,你可以通過這個(gè)文件設(shè)置來控制爬蟲行為。

論壇徽章:
0
6 [報(bào)告]
發(fā)表于 2006-04-21 16:28 |只看該作者
爬蟲我記得有一個(gè)標(biāo)準(zhǔn)文件robot.txt放到你的根目錄下面。文件里面定義你要拒絕的爬蟲的標(biāo)志就可以了``這樣爬蟲在訪問你的時(shí)候查看這個(gè)文件知道你禁止它來訪問就可以了。

論壇徽章:
0
7 [報(bào)告]
發(fā)表于 2006-04-21 17:07 |只看該作者
謝謝各位

inktomisearch  來自中文 YAHOO 。

也太照顧我的網(wǎng)站了 爬上來了 幾十條。

慶幸中的 無奈 ! 只好全拒了

論壇徽章:
0
8 [報(bào)告]
發(fā)表于 2006-04-21 21:22 |只看該作者
學(xué)習(xí)中。。。

論壇徽章:
0
9 [報(bào)告]
發(fā)表于 2006-04-22 11:03 |只看該作者
YAHOO 的解決辦法

http://misc.yahoo.com.cn/help.html#q10

robots.txt

User-agent: Slurp
Crawl-delay: 20


-----------------------------------------
解釋
由于增加了訪問過濾,那么就需要告訴網(wǎng)絡(luò)爬蟲爬行的速度不要太快,還好這個(gè)問題比較好解決,在robots.txt中增加:
Robot-version: 2.0
Crawl-delay: 10
Request-rate: 60/1m
Visit-time: 0000-0800

由于這個(gè)還沒有完全的標(biāo)準(zhǔn),兩種都用了,Crawl-delay是每秒訪問的網(wǎng)頁數(shù),而Request-rate是頁面數(shù)/時(shí)間段,可以設(shè)置為比較小的值,Visit-time為允許訪問的時(shí)間段。
完整的規(guī)范可以看看:http://www.conman.org/people/spc ... ctives.request-rate

[ 本帖最后由 浪子雄心 于 2006-4-23 09:38 編輯 ]

論壇徽章:
0
10 [報(bào)告]
發(fā)表于 2010-05-06 12:37 |只看該作者
回復(fù) 1# 浪子雄心


   收藏先,多謝
您需要登錄后才可以回帖 登錄 | 注冊

本版積分規(guī)則 發(fā)表回復(fù)

  

北京盛拓優(yōu)訊信息技術(shù)有限公司. 版權(quán)所有 京ICP備16024965號-6 北京市公安局海淀分局網(wǎng)監(jiān)中心備案編號:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年舉報(bào)專區(qū)
中國互聯(lián)網(wǎng)協(xié)會(huì)會(huì)員  聯(lián)系我們:huangweiwei@itpub.net
感謝所有關(guān)心和支持過ChinaUnix的朋友們 轉(zhuǎn)載本站內(nèi)容請注明原作者名及出處

清除 Cookies - ChinaUnix - Archiver - WAP - TOP