亚洲av成人无遮挡网站在线观看,少妇性bbb搡bbb爽爽爽,亚洲av日韩精品久久久久久,兔费看少妇性l交大片免费,无码少妇一区二区三区

  免費(fèi)注冊(cè) 查看新帖 |

Chinaunix

  平臺(tái) 論壇 博客 文庫(kù)
12下一頁(yè)
最近訪問(wèn)板塊 發(fā)新帖
查看: 5404 | 回復(fù): 11
打印 上一主題 下一主題

解析html [復(fù)制鏈接]

論壇徽章:
0
跳轉(zhuǎn)到指定樓層
1 [收藏(0)] [報(bào)告]
發(fā)表于 2010-12-29 12:53 |只看該作者 |倒序?yàn)g覽
目前 我獲得一個(gè)網(wǎng)頁(yè)的html codes
其中 有這么一段

-------
-------
<!-- --><div class="getcodeinstructions">
                                        <ol class="listings">
                                          <li><span class="numberone"></span>
                                                <div>
                                                  <label for="bcode">Click inside the box below and copy all the code.</label><br

-------
-----
  我想從這個(gè)html codes中 找到上面我貼出來(lái)的代碼中的字符串“getcodeinstruction”“


請(qǐng)問(wèn) 有那個(gè)大蝦能指點(diǎn)下嗎?

(目前我  一次行從這個(gè) 里面讀取1024個(gè)bytes, 使用 strstr(buffer,"getcodeinstructions")來(lái) 定位這個(gè)字符串,

但我覺(jué)得會(huì)出現(xiàn)一中情況 匹配不到, 舉個(gè)例子就是前面1024個(gè)bytes剛好

包含到getcode 就結(jié)束了,然后在一次讀取1024個(gè)bytes, 就包含到“instructions”

這樣 我就無(wú)法匹配到我我想要的這個(gè)字符串了,不知道有沒(méi)什么更好的辦法來(lái)定位這個(gè)字符串)


不知道這次問(wèn)題說(shuō)清楚了沒(méi),清各位賜教

論壇徽章:
0
2 [報(bào)告]
發(fā)表于 2010-12-29 14:52 |只看該作者
假設(shè)你的字符串長(zhǎng)度為L(zhǎng)en,
1.讀取0~1023,匹配
2.讀取1023-Len~2047-Len,匹配
3.讀取2047-2*Len~3072-2*Len,匹配。
.....

論壇徽章:
0
3 [報(bào)告]
發(fā)表于 2011-02-28 17:19 |只看該作者
回復(fù) 2# scopengl


    恩,這個(gè)方法 應(yīng)該可以解決 字符串cut的問(wèn)題, 我等下在debug一下;

目前我遇到另一個(gè)解析的問(wèn)題,就是比如:

我  一次讀 1024 個(gè)bytes;
但是 可能 host 發(fā)送過(guò)來(lái)的只有500個(gè)bytes ,甚至 讀到0個(gè)bytes(網(wǎng)速灰常差時(shí)),但我確實(shí)這個(gè)網(wǎng)頁(yè)的數(shù)據(jù)還沒(méi)發(fā)送完,只是網(wǎng)速不行
我們暫時(shí)還讀不到數(shù)據(jù)而已,那這個(gè) 時(shí)候我的處理是delay一次,然后再去讀取數(shù)據(jù); 可有個(gè)問(wèn)題時(shí), 我如果delay次數(shù)多了,可能解些時(shí)間就慢了,不知道各位大蝦有沒(méi)什么好的解析html的方法,或有什么參考書,或參考資料推薦下;

論壇徽章:
0
4 [報(bào)告]
發(fā)表于 2011-02-28 17:31 |只看該作者
回復(fù) 3# wanshun1818
跟我之前遇到的問(wèn)題差不多。我是一邊獲取數(shù)據(jù),一遍解析,后來(lái)同事告訴我這樣很危險(xiǎn),就先獲取html文件,再用libxml解析。

論壇徽章:
0
5 [報(bào)告]
發(fā)表于 2011-02-28 17:38 |只看該作者
回復(fù) 4# shichuan609


    直接獲取html文件? 你的意思是說(shuō),等所有bytes 都發(fā)送完了,在開始解析,是這個(gè)意思馬?


    但是如果你讀完才開始解析,那不是就很慢嗎?( 尤其在我們所需要定位的字符串在這個(gè)html 開頭或者中間的時(shí)候)

論壇徽章:
0
6 [報(bào)告]
發(fā)表于 2011-02-28 17:45 |只看該作者
回復(fù) 5# wanshun1818
好像還是不一樣啊,我是知道html文件每個(gè)節(jié)點(diǎn)的,只是得到數(shù)據(jù)而已。之前做的時(shí)候,好像跟2樓說(shuō)的差不多,也是用拼接的方法,還算挺復(fù)雜的,不過(guò)后來(lái)也能得到數(shù)據(jù)的。

論壇徽章:
0
7 [報(bào)告]
發(fā)表于 2011-02-28 18:30 |只看該作者
回復(fù) 1# wanshun1818


    post給一個(gè)CGI,然后解析stdin。

論壇徽章:
0
8 [報(bào)告]
發(fā)表于 2011-02-28 18:32 |只看該作者
回復(fù) 6# shichuan609


    我弱弱的問(wèn)一句,“html文件每個(gè)節(jié)點(diǎn)” 這個(gè)東西是什么意思阿?

你后來(lái)問(wèn)題解決了馬? 是怎么解決的( 解析數(shù)據(jù)的速度快不快)

論壇徽章:
0
9 [報(bào)告]
發(fā)表于 2011-02-28 18:34 |只看該作者
回復(fù) 7# daniel_kohler


    我弱弱問(wèn)一句“post給一個(gè)CGI,然后解析stdin。 ” 這個(gè)能將詳細(xì)點(diǎn)嗎?
( 我的數(shù)據(jù)發(fā)收 是通過(guò)socket 實(shí)現(xiàn)的,)

論壇徽章:
0
10 [報(bào)告]
發(fā)表于 2011-02-28 18:38 |只看該作者
回復(fù) 9# wanshun1818


    你的socket是自己寫的嗎?不用了,直接使用boa或者lighthttpd或者h(yuǎn)ttpd就好了,有了它們,會(huì)省很多事兒。

   你缺乏基本的web開發(fā)知識(shí),建議你在linux上使用apache先熟悉一下。
您需要登錄后才可以回帖 登錄 | 注冊(cè)

本版積分規(guī)則 發(fā)表回復(fù)

  

北京盛拓優(yōu)訊信息技術(shù)有限公司. 版權(quán)所有 京ICP備16024965號(hào)-6 北京市公安局海淀分局網(wǎng)監(jiān)中心備案編號(hào):11010802020122 niuxiaotong@pcpop.com 17352615567
未成年舉報(bào)專區(qū)
中國(guó)互聯(lián)網(wǎng)協(xié)會(huì)會(huì)員  聯(lián)系我們:huangweiwei@itpub.net
感謝所有關(guān)心和支持過(guò)ChinaUnix的朋友們 轉(zhuǎn)載本站內(nèi)容請(qǐng)注明原作者名及出處

清除 Cookies - ChinaUnix - Archiver - WAP - TOP