亚洲av成人无遮挡网站在线观看,少妇性bbb搡bbb爽爽爽,亚洲av日韩精品久久久久久,兔费看少妇性l交大片免费,无码少妇一区二区三区

  免費注冊 查看新帖 |

Chinaunix

  平臺 論壇 博客 文庫
最近訪問板塊 發(fā)新帖
查看: 2093 | 回復: 3
打印 上一主題 下一主題

解析一個網(wǎng)頁 [復制鏈接]

論壇徽章:
0
跳轉到指定樓層
1 [收藏(0)] [報告]
發(fā)表于 2010-02-12 22:04 |只看該作者 |倒序瀏覽
本帖最后由 perlw01f 于 2010-02-12 22:10 編輯

網(wǎng)頁代碼太長了
看這個吧 http://www.springerlink.com/content/j7t650

我的目的
提取出目錄文件

$part_no  including:
$chap_no, $chap_title, $chap_page_range;

如 part1 包括
chap 1, abc, 1-10

關鍵問題在 如何提取與$part_no相關聯(lián)的chap
現(xiàn)在的問題是 用正則貌似比較麻煩
每次將包含$part_no與chap信息的內(nèi)容當做一塊 然后處理這個塊
m/<td colspan="3" class="viewGroup"(.*?)<td colspan="3" class="viewGroup"/mgs
可是這樣處理每次回漏掉一個part
請問有沒有合適的解析模塊做這個的不太懂
看了 HTML::TokeParser和HTML::TreeBuilder 也都好像不太合適
源碼中的那個div標簽用得神出鬼沒的 神鬼莫測

非常感謝

論壇徽章:
0
2 [報告]
發(fā)表于 2010-02-12 23:34 |只看該作者
推薦 使用
HTML::TreeBuilder::XPath

論壇徽章:
0
3 [報告]
發(fā)表于 2010-02-13 15:10 |只看該作者
use HTML::TreeBuilder::XPath
my $tree = HTML::TreeBuilder::XPath->new();
my $items = $tree->findnodes( '/html/body//td[@class="viewGroup"]' );
print Dumper($items) 發(fā)現(xiàn)這個貌似把網(wǎng)頁中的所有內(nèi)容都放進去了?而不僅僅是class="viewGroup"的td標簽
繼續(xù)求助

論壇徽章:
0
4 [報告]
發(fā)表于 2010-02-14 09:54 |只看該作者
把你那點積分都拿出來吧,會有人幫你做的

您需要登錄后才可以回帖 登錄 | 注冊

本版積分規(guī)則 發(fā)表回復

  

北京盛拓優(yōu)訊信息技術有限公司. 版權所有 京ICP備16024965號-6 北京市公安局海淀分局網(wǎng)監(jiān)中心備案編號:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年舉報專區(qū)
中國互聯(lián)網(wǎng)協(xié)會會員  聯(lián)系我們:huangweiwei@itpub.net
感謝所有關心和支持過ChinaUnix的朋友們 轉載本站內(nèi)容請注明原作者名及出處

清除 Cookies - ChinaUnix - Archiver - WAP - TOP