平臺論壇博客文庫

› 論壇 › 程序設(shè)計 › Python › 如何解析HTML文件的小于號

如何解析HTML文件的小于號 [復(fù)制鏈接]

heray1990

白手起家

論壇徽章:: 0

電梯直達

1樓 [收藏(0)] [報告]

發(fā)表于 2011-12-03 18:14 |只看該作者 |倒序瀏覽

Python采集HTML信息的時候怎樣避開javascript里面的小于號“<”。困擾�。�
如：<script>...i<a...<srcipt src="*.js">data<\\/script></script>。
怎樣取出src里面的鏈接？

用的是HTMLParser來解析的（Python 3.2），用handle_starttay可以識別最外面的<script></script>，
但是里面的data和src屬性取不出來。

文庫|博客

使用正則表達式與lex實現(xiàn)詞法分析器
C語言的MIPS匯編實現(xiàn)（四）SWITCH
Requested init /linuxrc failed (error -2).
比較 csv 文件中數(shù)據(jù)差異
LMD ElPack v2019.7新版亮點：Transparent mode全新升級|附下載

xiaopan3322

大富大貴

論壇徽章:: 0

2樓 [報告]

發(fā)表于 2011-12-21 10:45 |只看該作者

這個好像可以用xml解析來做吧？
試試ElementTree

實戰(zhàn)分享：從技術(shù)角度談機器學(xué)習(xí)入門| 【大話IT】RadonDB低門檻向MySQL集群下戰(zhàn)書 | ChinaUnix打賞功能已上線！ | 新一代分布式關(guān)系型數(shù)據(jù)庫RadonDB知多少？

mozillazg

白手起家

論壇徽章:: 0

3樓 [報告]

發(fā)表于 2011-12-22 20:06 |只看該作者

正則表達式也可以啊

返回列表

Chinaunix › 論壇 › 程序設(shè)計 › Python › 如何解析HTML文件的小于號

北京盛拓優(yōu)訊信息技術(shù)有限公司. 版權(quán)所有京ICP備16024965號-6 北京市公安局海淀分局網(wǎng)監(jiān)中心備案編號：11010802020122 niuxiaotong@pcpop.com 17352615567
未成年舉報專區(qū)
中國互聯(lián)網(wǎng)協(xié)會會員聯(lián)系我們：huangweiwei@itpub.net
感謝所有關(guān)心和支持過ChinaUnix的朋友們轉(zhuǎn)載本站內(nèi)容請注明原作者名及出處

亚洲av成人无遮挡网站在线观看,少妇性bbb搡bbb爽爽爽,亚洲av日韩精品久久久久久,兔费看少妇性l交大片免费,无码少妇一区二区三区

如何解析HTML文件的小于號 [復(fù)制鏈接]