亚洲av成人无遮挡网站在线观看,少妇性bbb搡bbb爽爽爽,亚洲av日韩精品久久久久久,兔费看少妇性l交大片免费,无码少妇一区二区三区

  免費(fèi)注冊 查看新帖 |

Chinaunix

  平臺 論壇 博客 文庫
最近訪問板塊 發(fā)新帖
查看: 1649 | 回復(fù): 8
打印 上一主題 下一主題

菜鳥求助,關(guān)于搜索結(jié)果的抓取和處理 [復(fù)制鏈接]

論壇徽章:
0
跳轉(zhuǎn)到指定樓層
1 [收藏(0)] [報告]
發(fā)表于 2012-07-05 16:51 |只看該作者 |倒序?yàn)g覽
我想用使用python做一個腳本,他的功能是根據(jù)關(guān)鍵詞在 http://www.csres.com/ 這個網(wǎng)站上獲取標(biāo)準(zhǔn)的名稱和現(xiàn)狀(主要是廢止和現(xiàn)行),最好可以批量查詢。請大俠幫忙給個思路,最好能有代碼,我是用來學(xué)習(xí)的。謝謝

論壇徽章:
0
2 [報告]
發(fā)表于 2012-07-06 08:37 |只看該作者
先得到大的分類,記錄下各個子分類的地址,然后逐個獲取就好了,表的格式都是一樣。
要查詢的話,自己做個對應(yīng)數(shù)據(jù)庫

論壇徽章:
0
3 [報告]
發(fā)表于 2012-07-06 11:45 |只看該作者
謝謝,可是我有點(diǎn)不太理解你的意思,能不能說的詳細(xì)一些,我現(xiàn)在主要是搞不清我獲得的內(nèi)容的格式和處理方法,我有一個獲得搜索結(jié)果的小腳本,請大俠幫忙看一下。
  1. from urllib import request,parse
  2. import re,sys

  3. url = 'http://www.csres.com/s.jsp?keyword='
  4. key = input('請輸入標(biāo)準(zhǔn)名字或關(guān)鍵字:')
  5.    
  6. key = parse.quote(key) #統(tǒng)一編碼成utf-8
  7. url += key
  8.         
  9. mf = request.urlopen(url)
  10. c = mf.readall()

  11. c = str(c,encoding = 'utf-8')
復(fù)制代碼

論壇徽章:
0
4 [報告]
發(fā)表于 2012-07-10 12:41 |只看該作者
哪位大俠過來看看呀

論壇徽章:
0
5 [報告]
發(fā)表于 2012-07-10 15:02 |只看該作者
2樓已經(jīng)指明方向了啊,剩下的是敲鍵盤的體力活。
比如從:http://www.csres.com/sort/index.jsp獲取頁面源代碼,用分析html的模塊也好用re正則表達(dá)式也好,去把你要的分類和分類對應(yīng)的url整理提取出來。然后獲取得到的大類url頁面源代碼,再去獲取下一級分類以及提取該分類對應(yīng)的url,然后就是循環(huán)去打開url一頁頁循環(huán)提取數(shù)據(jù)了。前面所有提取得到的分類頁面url是在外部大的循環(huán)里。

或者不用循環(huán),把所有要抓取的url都整理出來,放入線程隊(duì)列,開多線程去抓取結(jié)果處理結(jié)果。

論壇徽章:
0
6 [報告]
發(fā)表于 2012-07-11 12:28 |只看該作者
謝謝,我才開始學(xué)習(xí)python,所以不太理解,謝謝大俠耐心講解

論壇徽章:
0
7 [報告]
發(fā)表于 2012-07-11 12:48 |只看該作者
那還是找?guī)妆净A(chǔ)的書先從基礎(chǔ)的開始學(xué)吧,python簡明教程最簡單
然后再找些:核心編程,基礎(chǔ)教程之類的入門書再看看就會寫了
或者基礎(chǔ)學(xué)完直接找你感興趣的模塊了解怎么使用就可以馬上用起來了

論壇徽章:
0
8 [報告]
發(fā)表于 2012-07-12 12:49 |只看該作者
恩,現(xiàn)在正在看,謝謝

論壇徽章:
0
9 [報告]
發(fā)表于 2012-07-12 15:40 |只看該作者
python上手好快的
您需要登錄后才可以回帖 登錄 | 注冊

本版積分規(guī)則 發(fā)表回復(fù)

  

北京盛拓優(yōu)訊信息技術(shù)有限公司. 版權(quán)所有 京ICP備16024965號-6 北京市公安局海淀分局網(wǎng)監(jiān)中心備案編號:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年舉報專區(qū)
中國互聯(lián)網(wǎng)協(xié)會會員  聯(lián)系我們:huangweiwei@itpub.net
感謝所有關(guān)心和支持過ChinaUnix的朋友們 轉(zhuǎn)載本站內(nèi)容請注明原作者名及出處

清除 Cookies - ChinaUnix - Archiver - WAP - TOP