亚洲av成人无遮挡网站在线观看,少妇性bbb搡bbb爽爽爽,亚洲av日韩精品久久久久久,兔费看少妇性l交大片免费,无码少妇一区二区三区

  免費(fèi)注冊(cè) 查看新帖 |

Chinaunix

  平臺(tái) 論壇 博客 文庫(kù)
最近訪(fǎng)問(wèn)板塊 發(fā)新帖
查看: 900 | 回復(fù): 0
打印 上一主題 下一主題

Python的一些用于抓取的方法封裝 [復(fù)制鏈接]

論壇徽章:
0
跳轉(zhuǎn)到指定樓層
1 [收藏(0)] [報(bào)告]
發(fā)表于 2015-07-20 12:55 |只看該作者 |倒序?yàn)g覽
[Python]代碼
  1. #!/usr/bin/env python
  2. #-*- coding:utf-8-*-

  3. import urllib2
  4. import re
  5. import hashlib
  6. import json

  7. #--------------------------------------------------- 工具 start
  8. def md5(str):
  9.     '''
  10.     計(jì)算MD5值
  11.     '''
  12.     m = hashlib.md5()   
  13.     m.update(str)
  14.     return m.hexdigest()

  15. def search(regex, content, group = 1):
  16.     '''
  17.     搜索指定正則匹配的內(nèi)容
  18.     '''
  19.     pattern = re.search(regex, content, re.DOTALL)
  20.     if(pattern != None):
  21.         return pattern.group(group)
  22.     return ''

  23. def findall(regex, content):
  24.     '''
  25.     查找指定正則匹配的所有內(nèi)容
  26.     '''
  27.     return re.findall(regex, content, re.DOTALL)

  28. def cleanHtmlTag(content):
  29.     '''
  30.     清理HTML標(biāo)簽
  31.     '''
  32.     return content or re.sub(r'<[^>]*?>', '', content).strip()

  33. def cleanedSearch(regex, content, group = 1):
  34.     '''
  35.     查找匹配的指定字符串并清除HTML標(biāo)簽
  36.     '''
  37.     return cleanHtmlTag(search(regex, content, group))

  38. def httpGet(url, encoding='gbk'):
  39.     '''
  40.     發(fā)送Http GET請(qǐng)求,返回內(nèi)容
  41.     '''
  42.     return urllib2.urlopen(url).read().decode(encoding, 'ignore').encode('utf-8')

  43. def toJson(dict):
  44.     return json.dumps(dict, ensure_ascii=False, indent=4)

  45. #--------------------------------------------------- 工具 end
復(fù)制代碼
您需要登錄后才可以回帖 登錄 | 注冊(cè)

本版積分規(guī)則 發(fā)表回復(fù)

  

北京盛拓優(yōu)訊信息技術(shù)有限公司. 版權(quán)所有 京ICP備16024965號(hào)-6 北京市公安局海淀分局網(wǎng)監(jiān)中心備案編號(hào):11010802020122 niuxiaotong@pcpop.com 17352615567
未成年舉報(bào)專(zhuān)區(qū)
中國(guó)互聯(lián)網(wǎng)協(xié)會(huì)會(huì)員  聯(lián)系我們:huangweiwei@itpub.net
感謝所有關(guān)心和支持過(guò)ChinaUnix的朋友們 轉(zhuǎn)載本站內(nèi)容請(qǐng)注明原作者名及出處

清除 Cookies - ChinaUnix - Archiver - WAP - TOP