平臺論壇博客文庫

› 論壇 › 程序設計 › Perl › 解析一個網(wǎng)頁

解析一個網(wǎng)頁 [復制鏈接]

perlw01f

稍有積蓄

論壇徽章:: 0

電梯直達

1樓 [收藏(0)] [報告]

發(fā)表于 2010-02-12 22:04 |只看該作者 |倒序瀏覽

本帖最后由 perlw01f 于 2010-02-12 22:10 編輯

網(wǎng)頁代碼太長了
看這個吧 http://www.springerlink.com/content/j7t650

我的目的
提取出目錄文件

$part_no including:
$chap_no, $chap_title, $chap_page_range;

如 part1 包括
chap 1, abc, 1-10

關鍵問題在如何提取與$part_no相關聯(lián)的chap
現(xiàn)在的問題是用正則貌似比較麻煩
每次將包含$part_no與chap信息的內(nèi)容當做一塊然后處理這個塊
m/<td colspan="3" class="viewGroup"(.*?)<td colspan="3" class="viewGroup"/mgs
可是這樣處理每次回漏掉一個part
請問有沒有合適的解析模塊做這個的不太懂
看了 HTML::TokeParser和HTML::TreeBuilder 也都好像不太合適
源碼中的那個div標簽用得神出鬼沒的神鬼莫測

非常感謝

文庫|博客

使用正則表達式與lex實現(xiàn)詞法分析器
C語言的MIPS匯編實現(xiàn)（四）SWITCH
Requested init /linuxrc failed (error -2).
比較 csv 文件中數(shù)據(jù)差異
LMD ElPack v2019.7新版亮點：Transparent mode全新升級|附下載

DQP

富足長樂

論壇徽章:: 0

2樓 [報告]

發(fā)表于 2010-02-12 23:34 |只看該作者

推薦使用
HTML::TreeBuilder::XPath

實戰(zhàn)分享：從技術角度談機器學習入門| 【大話IT】RadonDB低門檻向MySQL集群下戰(zhàn)書 | ChinaUnix打賞功能已上線！ | 新一代分布式關系型數(shù)據(jù)庫RadonDB知多少？

perlw01f

稍有積蓄

論壇徽章:: 0

3樓 [報告]

發(fā)表于 2010-02-13 15:10 |只看該作者

use HTML::TreeBuilder::XPath
my $tree = HTML::TreeBuilder::XPath->new();
my $items = $tree->findnodes( '/html/body//td[@class="viewGroup"]' );
print Dumper($items) 發(fā)現(xiàn)這個貌似把網(wǎng)頁中的所有內(nèi)容都放進去了？而不僅僅是class="viewGroup"的td標簽
繼續(xù)求助

實戰(zhàn)分享：從技術角度談機器學習入門| 【大話IT】RadonDB低門檻向MySQL集群下戰(zhàn)書 | ChinaUnix打賞功能已上線！ | 新一代分布式關系型數(shù)據(jù)庫RadonDB知多少？

cobrawgl

富足長樂

論壇徽章:: 0

4樓 [報告]

發(fā)表于 2010-02-14 09:54 |只看該作者

把你那點積分都拿出來吧，會有人幫你做的

實戰(zhàn)分享：從技術角度談機器學習入門| 【大話IT】RadonDB低門檻向MySQL集群下戰(zhàn)書 | ChinaUnix打賞功能已上線！ | 新一代分布式關系型數(shù)據(jù)庫RadonDB知多少？

返回列表

Chinaunix › 論壇 › 程序設計 › Perl › 解析一個網(wǎng)頁

積分 0, 距離下一級還需積分

亚洲av成人无遮挡网站在线观看,少妇性bbb搡bbb爽爽爽,亚洲av日韩精品久久久久久,兔费看少妇性l交大片免费,无码少妇一区二区三区

解析一個網(wǎng)頁 [復制鏈接]