亚洲av成人无遮挡网站在线观看,少妇性bbb搡bbb爽爽爽,亚洲av日韩精品久久久久久,兔费看少妇性l交大片免费,无码少妇一区二区三区

  免費(fèi)注冊(cè) 查看新帖 |

Chinaunix

  平臺(tái) 論壇 博客 文庫(kù)
最近訪問(wèn)板塊 發(fā)新帖
查看: 6238 | 回復(fù): 1
打印 上一主題 下一主題

如何對(duì)不規(guī)范的HTML使用XPath查詢 [復(fù)制鏈接]

論壇徽章:
0
跳轉(zhuǎn)到指定樓層
1 [收藏(0)] [報(bào)告]
發(fā)表于 2008-06-30 18:46 |只看該作者 |倒序?yàn)g覽
10可用積分
剛接觸ruby,目前需要用ruby做bot,遇到個(gè)棘手的問(wèn)題

我發(fā)現(xiàn)REXML不能直接處理不規(guī)范的HTML (或者說(shuō)非XHTML),
我做java的時(shí)候都是用htmlcleaner解決這個(gè)問(wèn)題的,但是ruby就沒(méi)啥概念了。

關(guān)于HTML的parser, 現(xiàn)在google下來(lái)也有好幾個(gè)工具了

rubyful_soap
ymHtml
hTree

不過(guò)還是想問(wèn)問(wèn)各位都在用哪個(gè)開(kāi)發(fā)包呢?

論壇徽章:
0
2 [報(bào)告]
發(fā)表于 2008-07-01 12:02 |只看該作者
先用rubyful_soup了,我看oreilly的書(shū)上的例子就是用這個(gè)soup



  1. require 'rexml/document'
  2. require 'rubygems'
  3. require 'rubyful_soup'

  4. resp, data = request(url, nil)
  5. # entrance xml
  6. ent_xml = BeautifulSoup.new(resp.body).prettify
  7. ent_doc = REXML::Document.new(ent_xml)
  8. elems_input = ent_doc.elements.to_a('//input')
  9. elems_input.each { | elem_input |
  10.     puts elem_input
  11. }
復(fù)制代碼
您需要登錄后才可以回帖 登錄 | 注冊(cè)

本版積分規(guī)則 發(fā)表回復(fù)

  

北京盛拓優(yōu)訊信息技術(shù)有限公司. 版權(quán)所有 京ICP備16024965號(hào)-6 北京市公安局海淀分局網(wǎng)監(jiān)中心備案編號(hào):11010802020122 niuxiaotong@pcpop.com 17352615567
未成年舉報(bào)專區(qū)
中國(guó)互聯(lián)網(wǎng)協(xié)會(huì)會(huì)員  聯(lián)系我們:huangweiwei@itpub.net
感謝所有關(guān)心和支持過(guò)ChinaUnix的朋友們 轉(zhuǎn)載本站內(nèi)容請(qǐng)注明原作者名及出處

清除 Cookies - ChinaUnix - Archiver - WAP - TOP