亚洲av成人无遮挡网站在线观看,少妇性bbb搡bbb爽爽爽,亚洲av日韩精品久久久久久,兔费看少妇性l交大片免费,无码少妇一区二区三区

  免費(fèi)注冊(cè) 查看新帖 |

Chinaunix

  平臺(tái) 論壇 博客 文庫(kù)
最近訪問(wèn)板塊 發(fā)新帖
查看: 20404 | 回復(fù): 3
打印 上一主題 下一主題

已解決:beautifulsoup抓取中文內(nèi)容亂碼的問(wèn)題 [復(fù)制鏈接]

論壇徽章:
0
跳轉(zhuǎn)到指定樓層
1 [收藏(0)] [報(bào)告]
發(fā)表于 2013-06-04 11:22 |只看該作者 |倒序?yàn)g覽
本帖最后由 lnzfm 于 2013-06-04 13:43 編輯

網(wǎng)上很多資料說(shuō)soup設(shè)置gb18030編碼可以解決亂碼問(wèn)題,可是我的代碼仍然出中萬(wàn)能現(xiàn)亂碼,誰(shuí)能幫我分析下原因


# -*- coding: utf-8 -*-
import urllib2
import sys
from BeautifulSoup import BeautifulSoup
req = urllib2.Request("http://www.aizhan.com/siteall/www.ip138.com/")
f = urllib2.urlopen(req)
#content = f.read().decode('UTF-8').encode('GBK')  //網(wǎng)頁(yè)抓取內(nèi)容,顯示中文正常
content = f.read()
soup = BeautifulSoup(content,fromEncoding="gb18030") //使用gb18030編碼問(wèn)題仍沒(méi)解決
for gg in soup.findAll('div',{'class':'box_17'})[1]:
          print  gg


論壇徽章:
16
IT運(yùn)維版塊每日發(fā)帖之星
日期:2015-10-02 06:20:00IT運(yùn)維版塊每月發(fā)帖之星
日期:2015-09-11 19:30:52IT運(yùn)維版塊每周發(fā)帖之星
日期:2015-09-11 19:20:31IT運(yùn)維版塊每日發(fā)帖之星
日期:2015-08-26 06:20:00每日論壇發(fā)貼之星
日期:2015-08-20 06:20:00IT運(yùn)維版塊每日發(fā)帖之星
日期:2015-08-20 06:20:002015年辭舊歲徽章
日期:2015-03-03 16:54:15金牛座
日期:2014-05-04 16:58:09雙子座
日期:2013-12-17 16:44:37辰龍
日期:2013-11-22 15:20:59獅子座
日期:2013-11-18 22:55:08射手座
日期:2013-11-12 10:54:26
2 [報(bào)告]
發(fā)表于 2013-06-04 12:06 |只看該作者
BeautifulSoup(content.decode('gb2312','ignore'))  試試這個(gè)

論壇徽章:
0
3 [報(bào)告]
發(fā)表于 2013-06-04 12:09 |只看該作者
回復(fù) 1# lnzfm

抱歉,還是不行

   

論壇徽章:
0
4 [報(bào)告]
發(fā)表于 2013-06-04 13:42 |只看該作者
我明白了
表面上看起來(lái)從BeautifulSoup解析后得到的soup,打印出來(lái)是亂碼,但是實(shí)際上其本身已經(jīng)是,正確的(從原始的GB2312編碼)解析(為Unicode)后的了。
之所以亂碼,那是因?yàn),打印soup時(shí),調(diào)用的是__str__,其默認(rèn)是UTF-8,所以輸出到GBK的cmd中,才顯示是亂碼。

這個(gè)帖子里分析的很詳細(xì),可供參考
http://www.crifan.com/beautifuls ... t_print_messy_code/

多謝大家
您需要登錄后才可以回帖 登錄 | 注冊(cè)

本版積分規(guī)則 發(fā)表回復(fù)

  

北京盛拓優(yōu)訊信息技術(shù)有限公司. 版權(quán)所有 京ICP備16024965號(hào)-6 北京市公安局海淀分局網(wǎng)監(jiān)中心備案編號(hào):11010802020122 niuxiaotong@pcpop.com 17352615567
未成年舉報(bào)專區(qū)
中國(guó)互聯(lián)網(wǎng)協(xié)會(huì)會(huì)員  聯(lián)系我們:huangweiwei@itpub.net
感謝所有關(guān)心和支持過(guò)ChinaUnix的朋友們 轉(zhuǎn)載本站內(nèi)容請(qǐng)注明原作者名及出處

清除 Cookies - ChinaUnix - Archiver - WAP - TOP