平臺(tái) 論壇博客文庫

論壇徽章:: 0

電梯直達(dá)

1樓 [收藏(0)] [報(bào)告]

發(fā)表于 2018-06-13 12:59 |只看該作者 |倒序?yàn)g覽

最近好多小伙伴說想搞個(gè)項(xiàng)目實(shí)戰(zhàn)類的，我就花了一點(diǎn)時(shí)間做了一個(gè)爬蟲項(xiàng)目（在代碼復(fù)制的時(shí)候可能會(huì)有點(diǎn)問題，縮格一下就沒有問題了）
想要獲取更多源碼或者答疑或者或者交流學(xué)習(xí)可以加群：725479218

```

# -*- coding:utf-8 -*- from function.data_tool import clean_data

import hashlib

import furl.furl

from crawlers.downloader import Downloaderfrom

function.parse_tool import xpath_parsefrom

function.database_tool import auto_sqlseve

down=Downloader(proxy='http://104.224.138.224:8888/proxy')

a = {'吉林': '22', '河北': '13', '陜西': '61', '山西': '14', '青海': '63', '湖南': '43', '廣東': '44', '安徽': '34', '四川': '51',

   '江西': '36', '浙江': '33', '貴州': '52', '新疆': '65', '內(nèi)蒙古': '15', '**': '54', '江蘇': '32', '廣西': '45', '湖北': '42',

   '海南': '46', '河南': '41', '山東': '37', '福建': '35', '云南': '53', '上海': '31', '北京': '11', '天津': '12', '甘肅': '62',

   '寧夏': '64', '黑龍江': '23', '重慶': '50', '遼寧': '21'}

for province in b:

   for subject in c:

      field_info=[]

      key_word=a[province]

      reform_url.args['type']=subject

      reform_url.args['province']=key_word

      response=down.get(url=reform_url,typ='text',encoding='utf-8')

      htmlcode = eval(clean_data.clean_space(response))['htmlStr']

      xpath_html = xpath_parse.text_tolxml(htmlcode)

year = xpath_html.xpath('string(//th[normalize-space(text())="錄取批次"]/..)').replace('\r', '').replace('\t','').replace(

            '錄取批次', '').replace(' ', '')

      year_split = year.split()

      ben_yi = xpath_html.xpath('string(//td[normalize-space(text())="本科第一批"]/..)').replace('\r', '').replace('\t',

                                                                                                         '').replace(

            '本科第一批', '').replace(' ', '')

ben_yi_split = ben_yi.split()

      ben_er = xpath_html.xpath('string(//td[normalize-space(text())="本科第二批"]/..)').replace('\r', '').replace('\t',

                                                                                                         '').replace(

            '本科第二批', '').replace(' ', '')

      ben_er_split = ben_er.split()

      ben_san = xpath_html.xpath('string(//td[normalize-space(text())="本科第三批"]/..)').replace('\r', '').replace('\t',

                                                                                                         '').replace(

            '本科第三批', '').replace(' ', '')

      ben_san_split = ben_san.split()

      zhuan_yi = xpath_html.xpath('string(//td[normalize-space(text())="�？频谝慌�"]/..)').replace('\r', '').replace('\t',

b = ['安徽', '北京', '重慶', '福建', '甘肅', '貴州', '廣東', '廣西', '湖北', '海南', '黑龍江', '湖南', '河南', '河北', '吉林', '江西', '江蘇', '遼寧', '寧夏',

   '內(nèi)蒙古', '青海', '山西', '山東', '陜西', '四川', '上海', '天津', '**', '新疆', '云南', '浙江']

c=['wen','li']

url='https://www.wmzy.com/api/score/getScoreList?type=wen&province=33' reform_url=furl.furl(url)

W=auto_sqlsever.Mssql(database='provincescore',datatable=['ScoreProvince'])

                                                                                                         '').replace(

            '�？频谝慌�', '').replace(' ', '')

      zhuan_yi_split = zhuan_yi.split()

      zhuan_er = xpath_html.xpath('string(//td[normalize-space(text())="�？频诙�"]/..)').replace('\r', '').replace('\t',

                                                                                                         '').replace(

            '�？频诙�', '').replace(' ', '')

      zhuan_er_split = zhuan_er.split()

      if 'wen' in subject:

            subject='文科'  else:

            subject='理科'  print(zhuan_yi_split,zhuan_er_split,ben_san_split,ben_er_split,ben_yi_split)

      provincemd5=[hashlib.md5(province.encode()).hexdigest()]*8       tiqian=[0]*8       field_info.extend([[province]*8,provincemd5,year_split,[subject]*8,tiqian,ben_yi_split,ben_er_split,ben_san_split,zhuan_yi_split,zhuan_er_split])

      W.insert_data(field_info)

```

文庫|博客

使用正則表達(dá)式與lex實(shí)現(xiàn)詞法分析器
C語言的MIPS匯編實(shí)現(xiàn)（四）SWITCH
Requested init /linuxrc failed (error -2).
比較 csv 文件中數(shù)據(jù)差異
LMD ElPack v2019.7新版亮點(diǎn)：Transparent mode全新升級(jí)|附下載

夏尾魚

白手起家

論壇徽章:: 0

2樓 [報(bào)告]

發(fā)表于 2018-06-14 15:55 |只看該作者

厲害厲害

實(shí)戰(zhàn)分享：從技術(shù)角度談機(jī)器學(xué)習(xí)入門| 【大話IT】RadonDB低門檻向MySQL集群下戰(zhàn)書 | ChinaUnix打賞功能已上線！ | 新一代分布式關(guān)系型數(shù)據(jù)庫RadonDB知多少？

返回列表

Chinaunix › 論壇 › 程序設(shè)計(jì) › Python › python偽代碼之爬取完美志愿全國歷年文理分?jǐn)?shù)線運(yùn)行代碼 ...

積分 0, 距離下一級(jí)還需積分

亚洲av成人无遮挡网站在线观看,少妇性bbb搡bbb爽爽爽,亚洲av日韩精品久久久久久,兔费看少妇性l交大片免费,无码少妇一区二区三区

python偽代碼之爬取完美志愿全國歷年文理分?jǐn)?shù)線運(yùn)行代碼持續(xù)更新 [復(fù)制鏈接]