亚洲av成人无遮挡网站在线观看,少妇性bbb搡bbb爽爽爽,亚洲av日韩精品久久久久久,兔费看少妇性l交大片免费,无码少妇一区二区三区

  免費注冊 查看新帖 |

Chinaunix

  平臺 論壇 博客 文庫
最近訪問板塊 發(fā)新帖
樓主: zhoulifa
打印 上一主題 下一主題

[原創(chuàng)] 用 C 語言編寫一個網(wǎng)絡蜘蛛來搜索網(wǎng)上出現(xiàn)的電子郵件地址 [復制鏈接]

論壇徽章:
0
41 [報告]
發(fā)表于 2006-09-08 18:16 |只看該作者
原帖由 goldeagle 于 2006-9-7 22:43 發(fā)表
辛苦了,不過,恩…… why not nutch?


不交流不知道,上面 cmzhubill 介紹了larbin,這里又來了個nutch,其它這方面成熟的軟件還真不少,可惜以前不知道。
想請教一下cmzhubill 和 goldeagle ,你們是怎么知道這樣的好軟件的呢?
怎樣才能方便快捷地發(fā)現(xiàn)好軟件呢?

論壇徽章:
0
42 [報告]
發(fā)表于 2006-09-08 22:41 |只看該作者
給樓主一個建議

樓主可以把mail分析加入larbin的協(xié)議處理里,然后看能否提到larbin project中

另:我的建議是樓主最好是去作wap處理,而不是mail處理,在larbin中加入wap的協(xié)議處理也許更有價值,也許還有商業(yè)價值

論壇徽章:
0
43 [報告]
發(fā)表于 2006-09-08 23:43 |只看該作者
建議樓主在檢查是否已經(jīng)爬取過的網(wǎng)站的時候可以采用hash的方法,larbin是這樣做的,我覺得那樣更簡單高效.

論壇徽章:
0
44 [報告]
發(fā)表于 2006-09-09 01:35 |只看該作者
感謝樓主分享!!

論壇徽章:
0
45 [報告]
發(fā)表于 2006-09-09 11:27 |只看該作者

支持

寫的很好,正在仔細研究

論壇徽章:
0
46 [報告]
發(fā)表于 2006-09-09 12:47 |只看該作者
強烈支持!

論壇徽章:
0
47 [報告]
發(fā)表于 2006-09-10 08:40 |只看該作者
[root@aleph1602-linux root]# gcc mailaddrsearch.c -o mailsearcher -Wall -g
mailaddrsearch.c: In function `main':
mailaddrsearch.c:301: warning: passing arg 1 of `GetHost' from incompatible pointer type
mailaddrsearch.c:302: warning: char format, pointer arg (arg 3)
[root@aleph1602-linux root]# ./mailsearcher http://www.xxx.xxx.cn/index.php
GetHost error from '????

注:
操作系統(tǒng)RedHat AS3
[root@aleph1602-linux root]# uname -a
Linux aleph1602-linux 2.4.21-4.ELsmp #1 SMP Fri Oct 3 17:31:21 EDT 2003 i686 athlon i386 GNU/Linux
[root@aleph1602-linux root]# gcc --version
gcc (GCC) 3.2.3 20030502 (Red Hat Linux 3.2.3-20)
Copyright (C) 2002 Free Software Foundation, Inc.
This is free software; see the source for copying conditions.  There is NO
warranty; not even for MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.

論壇徽章:
0
48 [報告]
發(fā)表于 2006-09-10 12:28 |只看該作者
不懂,明知道有[i]標記還不放到[code][/code]里去。

論壇徽章:
0
49 [報告]
發(fā)表于 2006-09-10 13:56 |只看該作者
GNM , zhumao :
我這里實在找不到一個類似你們所說的版本,太久不用Red Hat的東西了,而下載速度又不快。我剛才在一個Red Hat版本里做過實驗,這是我的Red Hat版本:
[root@sunny ~]# uname -a
Linux sunny 2.6.9-5.EL #1 Wed Jan 5 19:22:18 EST 2005 i686 i686 i386 GNU/Linux
[root@sunny ~]# gcc -v
Reading specs from /usr/lib/gcc/i386-redhat-linux/3.4.3/specs
Configured with: ../configure --prefix=/usr --mandir=/usr/share/man --infodir=/usr/share/info --enable-shared --enable-threads=posix --disable-checking --with-system-zlib --enable-__cxa_atexit --disable-libunwind-exceptions --enable-java-awt=gtk --host=i386-redhat-linux
Thread model: posix
gcc version 3.4.3 20041212 (Red Hat 3.4.3-9.EL4)


我實驗結(jié)果也是沒問題的,輸出內(nèi)容是:

  1. [root@sunny ~]# gcc -Wall -g mailsearch.c
  2. [root@sunny ~]# ./a.out "http://bn.sina.com.cn/pv/index.html"

  3. Display.    1:
  4.         bn.sina.com.cn:80/pv/index.html => file00000.html 0
  5.         Request.1 is:
  6. GET /pv/index.html HTTP/1.0
  7. Host: bn.sina.com.cn
  8. User-Agent: Wget/1.10.2
  9. Accept: */*
  10. Connection: keep-alive


  11.         Request.1 115 bytes send OK!

  12.         The following is the response header:
  13. HTTP/1.1 200 OK
  14. Date: Sun, 10 Sep 2006 05:39:53 GMT
  15. Server: Apache/1.3.27 (Unix)
  16. Last-Modified: Sun, 10 Sep 2006 05:32:00 GMT
  17. ETag: "1d7652-13296-4503a350"
  18. Accept-Ranges: bytes
  19. Content-Length: 78486
  20. Keep-Alive: timeout=15, max=10000
  21. Connection: Keep-Alive
  22. Content-Type: text/html


  23. Display.   56:
  24.         bn.sina.com.cn:80/pv/index.html => file00000.html 1

  25.         bn.sina.com.cn:80/bbs/p/2006/0906/16121295.html => file00001.html 0
  26.         bn.sina.com.cn:80/bbs/p/2006/0906/14121292.html => file00002.html 0
  27.         bn.sina.com.cn:80/bbs/p/2006/0905/15431284.html => file00003.html 0
  28.         bn.sina.com.cn:80/bbs/p/2006/0901/14251263.html => file00004.html 0
  29.         bn.sina.com.cn:80/bbs/p/2006/0901/14131261.html => file00005.html 0
  30.         bn.sina.com.cn:80/bbs/p/2006/0901/14151262.html => file00006.html 0
  31.         bn.sina.com.cn:80/bbs/p/2006/0830/15271245.html => file00007.html 0
  32.         bn.sina.com.cn:80/bbs/p/2006/0904/15471273.html => file00008.html 0
  33.         bn.sina.com.cn:80/bbs/p/2006/0904/16091275.html => file00009.html 0
  34.         bn.sina.com.cn:80/bbs/p/2006/0905/15151283.html => file00010.html 0
  35.         bn.sina.com.cn:80/dv/mmx.html => file00011.html 0
  36.         bn.sina.com.cn:80/dv/flashgame.html => file00012.html 0
  37.         bn.sina.com.cn:80/dv/flashgame.htm => file00013.html 0
  38.         bn.sina.com.cn:80/pv/# => file00014.html 0
  39.         bn.sina.com.cn:80/dv/eryueyatou.html => file00015.html 0
  40.         bn.sina.com.cn:80/bbs/2006/0427/1452523.html => file00016.html 0
  41.         bn.sina.com.cn:80/bbs/2006/0330/1831383.html => file00017.html 0
  42.         bn.sina.com.cn:80/pv/moshu.html => file00018.html 0
  43.         bn.sina.com.cn:80/dv/streetmagicians.html => file00019.html 0
  44.         bn.sina.com.cn:80/blog/index.html => file00020.html 0
  45.         bn.sina.com.cn:80/dv/huwai/index.shtml => file00021.html 0
  46.         bn.sina.com.cn:80/bbs/p/2006/0719/1651999.html => file00022.html 0
  47.         bn.sina.com.cn:80/bbs/p/2006/0717/1534979.html => file00023.html 0
  48.         bn.sina.com.cn:80/bbs/p/2006/0712/1839950.html => file00024.html 0
  49.         bn.sina.com.cn:80/bbs/p/2006/0605/1124684.html => file00025.html 0
  50.         bn.sina.com.cn:80/bbs/p/2006/0524/1623620.html => file00026.html 0
  51.         bn.sina.com.cn:80/bbs/p/2006/0607/1835714.html => file00027.html 0
  52.         bn.sina.com.cn:80/bbs/p/2006/0511/1435560.html => file00028.html 0
  53.         bn.sina.com.cn:80/bbs/p/2006/0517/1633575.html => file00029.html 0
  54.         bn.sina.com.cn:80/bbs/2006/0406/1110426.html => file00030.html 0
  55.         bn.sina.com.cn:80/dv/funny/index.shtml => file00031.html 0
  56.         bn.sina.com.cn:80/dv/love2006.html => file00032.html 0
  57.         auto.sina.com.cn:80/z/shipin/index.shtml => file00033.html 0
  58.         www.22film.com:80/ => file00034.html 0
  59.         www.streetballa.com:80/ => file00035.html 0
  60.         www.dvchina.cn:80/ => file00036.html 0
  61.         new.dvchina.cn:80/ => file00037.html 0
  62.         www.20802.com:80/ => file00038.html 0
  63.         www.cetv.edu.cn:80/program/a0908/index.php => file00039.html 0
  64.         www.pop-photo.com.cn:80/index.html => file00040.html 0
  65.         www.chndv.cn:80/ => file00041.html 0
  66.         www.pconline.com.cn:80/digital/dv/ => file00042.html 0
  67.         www.nbdv.net:80/ => file00043.html 0
  68.         www.3cworld.com.cn:80/ => file00044.html 0
  69.         www.bjlongs.com:80/ => file00045.html 0
  70.         www.tailenet.com:80/ => file00046.html 0
  71.         corp.sina.com.cn:80/chn/ => file00047.html 0
  72.         corp.sina.com.cn:80/eng/ => file00048.html 0
  73.         ads.sina.com.cn:80/ => file00049.html 0
  74.         corp.sina.com.cn:80/chn/sina_job.html => file00050.html 0
  75.         www.sina.com.cn:80/intro/lawfirm.shtml => file00051.html 0
  76.         englishcenter.sina.com:80/ => file00052.html 0
  77.         unipro.sina.com.cn:80/cgi-bin/regist0.cgi?url1=&url2=&id1=1&id2=0&entry=people&mcheck=bb25a9cc2d921f9d191ea3c76c7278b7 => file00053.html 0
  78.         tech.sina.com.cn:80/focus/sinahelp.shtml => file00054.html 0
  79.         home.sina.com.cn:80/intro/copyright.shtml => file00055.html 0
  80.         Request.2 is:
  81. GET /bbs/p/2006/0906/16121295.html HTTP/1.0
  82. Host: bn.sina.com.cn
  83. User-Agent: Wget/1.10.2
  84. Accept: */*
  85. Connection: keep-alive


  86.         Request.2 131 bytes send OK!
復制代碼


我仔細比較了你們的系統(tǒng)和我的系統(tǒng),除了gcc版本不同外,另外一個最重要的差別是內(nèi)核版本我這里是2.6,而你們都是2.4的,不知道是不是這個問題。

建議你們用Debian、Ubuntu之類的試試,所有的軟件包管理一個apt命令搞定,不需要自己去到處找包,不需要自己解決包之前的依賴關(guān)系。找軟件用命令:

  1. apt-cache search x
復制代碼

注:這里x是軟件包名稱或這個軟件包的描述字符中的一個
安裝軟件用命令:

  1. apt-get install x
復制代碼


比如我這里:
test@local:~$ apt-cache search crawler
htdig - WWW search system for an intranet or small internet
htdig-doc - Documentation for the htdig package
test@local:~$ sudo apt-get install htdig
Password:
正在讀取軟件包列表... 完成
正在分析軟件包的依賴關(guān)系樹... 完成
將會安裝下列額外的軟件包:
  gawk libdb2 lockfile-progs
建議安裝的軟件包:
  catdoc pstotext gs xpdf xpdf-i
推薦安裝的軟件包:
  wwwoffle htdig-doc
下列【新】軟件包將被安裝:
  gawk htdig libdb2 lockfile-progs
共升級了 0 個軟件包,新安裝了 4 個軟件包,要卸載 0 個軟件包,有 2 個軟件未被升級。
需要下載 2112kB 的軟件包。
解壓縮后會消耗掉 6119kB 的額外空間。
您希望繼續(xù)執(zhí)行嗎?[Y/n]

你只需要確認一下,需要安裝的4個軟件包就會自動安裝完成,不用你自己去找。開發(fā)人員可以專心地去做程序而省去了搜索軟件包的麻煩。

Red Hat說實在地太商業(yè)化了,不是開發(fā)人員用的版本。

論壇徽章:
0
50 [報告]
發(fā)表于 2006-09-10 14:02 |只看該作者
原帖由 benlan 于 2006-9-8 22:41 發(fā)表
給樓主一個建議

樓主可以把mail分析加入larbin的協(xié)議處理里,然后看能否提到larbin project中

另:我的建議是樓主最好是去作wap處理,而不是mail處理,在larbin中加入wap的協(xié)議處理也許更有價值,也許還有商 ...


非常感謝你的建議,因為我這里是演示原理,所以根本沒考慮其它東西。  :(
wap協(xié)議我也很有興趣,應該不久會研究到。
但我缺少商業(yè)頭腦,只能等哪天興趣來了再抬頭把所有研究的東西商業(yè)化一下。

Anyway, thanks a lot!
您需要登錄后才可以回帖 登錄 | 注冊

本版積分規(guī)則 發(fā)表回復

  

北京盛拓優(yōu)訊信息技術(shù)有限公司. 版權(quán)所有 京ICP備16024965號-6 北京市公安局海淀分局網(wǎng)監(jiān)中心備案編號:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年舉報專區(qū)
中國互聯(lián)網(wǎng)協(xié)會會員  聯(lián)系我們:huangweiwei@itpub.net
感謝所有關(guān)心和支持過ChinaUnix的朋友們 轉(zhuǎn)載本站內(nèi)容請注明原作者名及出處

清除 Cookies - ChinaUnix - Archiver - WAP - TOP