平臺(tái) 論壇博客文庫(kù)

› 論壇 › 程序設(shè)計(jì) › Ruby › 如何對(duì)不規(guī)范的HTML使用XPath查詢

最近訪問(wèn)板塊

查看: 6238 | 回復(fù): 1

如何對(duì)不規(guī)范的HTML使用XPath查詢 [復(fù)制鏈接]

jhsea3do

小富即安

論壇徽章:: 0

電梯直達(dá)

1樓 [收藏(0)] [報(bào)告]

發(fā)表于 2008-06-30 18:46 |只看該作者 |倒序?yàn)g覽

10可用積分

剛接觸ruby，目前需要用ruby做bot，遇到個(gè)棘手的問(wèn)題

我發(fā)現(xiàn)REXML不能直接處理不規(guī)范的HTML (或者說(shuō)非XHTML)，
我做java的時(shí)候都是用htmlcleaner解決這個(gè)問(wèn)題的，但是ruby就沒(méi)啥概念了。

關(guān)于HTML的parser, 現(xiàn)在google下來(lái)也有好幾個(gè)工具了

rubyful_soap
ymHtml
hTree

不過(guò)還是想問(wèn)問(wèn)各位都在用哪個(gè)開(kāi)發(fā)包呢？

文庫(kù)|博客

使用正則表達(dá)式與lex實(shí)現(xiàn)詞法分析器
C語(yǔ)言的MIPS匯編實(shí)現(xiàn)（四）SWITCH
Requested init /linuxrc failed (error -2).
比較 csv 文件中數(shù)據(jù)差異
LMD ElPack v2019.7新版亮點(diǎn)：Transparent mode全新升級(jí)|附下載

jhsea3do

小富即安

論壇徽章:: 0

2樓 [報(bào)告]

發(fā)表于 2008-07-01 12:02 |只看該作者

先用rubyful_soup了，我看oreilly的書(shū)上的例子就是用這個(gè)soup

require 'rexml/document'
require 'rubygems'
require 'rubyful_soup'
resp, data = request(url, nil)
# entrance xml
ent_xml = BeautifulSoup.new(resp.body).prettify
ent_doc = REXML::Document.new(ent_xml)
elems_input = ent_doc.elements.to_a('//input')
elems_input.each { | elem_input |
puts elem_input
}

復(fù)制代碼

實(shí)戰(zhàn)分享：從技術(shù)角度談機(jī)器學(xué)習(xí)入門(mén)| 【大話IT】RadonDB低門(mén)檻向MySQL集群下戰(zhàn)書(shū) | ChinaUnix打賞功能已上線！ | 新一代分布式關(guān)系型數(shù)據(jù)庫(kù)RadonDB知多少？

返回列表

Chinaunix › 論壇 › 程序設(shè)計(jì) › Ruby › 如何對(duì)不規(guī)范的HTML使用XPath查詢

積分 0, 距離下一級(jí)還需積分

亚洲av成人无遮挡网站在线观看,少妇性bbb搡bbb爽爽爽,亚洲av日韩精品久久久久久,兔费看少妇性l交大片免费,无码少妇一区二区三区

如何對(duì)不規(guī)范的HTML使用XPath查詢 [復(fù)制鏈接]