色五月婷婷成人网,亚洲av色香蕉一区二区三区,桃花影院在线观看

sx98083714

家境小康

論壇徽章:: 0

電梯直達

1樓 [收藏(0)] [報告]

發(fā)表于 2010-11-19 12:49 |只看該作者 |倒序瀏覽

本帖最后由 sx98083714 于 2010-11-19 13:21 編輯

#!/usr/bin/perl
use strict;
use URI;
use Web::Scraper;
use utf8;
use LWP;
use Encode;
use HTML::TokeParser;
use HTTP::Cookies;
#將輸出自動解碼為utf8格式
binmode(STDOUT,":encoding(utf8)");
#抓取url
my $url = "http://meilibody.taobao.com/?search=y";
#定義抓取產(chǎn)品列表表達式
my $scraper = scraper{
process ".permalink","links[]" => { "url" => '@href',"txt" => 'TEXT' };
};
my $result = $scraper -> scrape (URI -> new($url) );
#抓取產(chǎn)品url、標題
for my $row ( @{ $result -> { links } } ){
my $purl = $row -> { "url" };
my $ptxt = $row -> { "txt" };
#調(diào)用函數(shù)抓取產(chǎn)品詳細內(nèi)容
my $pcontent = &getcontent($purl);
print "content:",$pcontent,"\n";
sleep 10;
}
#獲取單個產(chǎn)品詳細資料
sub getcontent() {
#抓取產(chǎn)品url
my $url = shift;
my $browser = LWP::UserAgent -> new;
$browser -> cookie_jar ( { } );
$browser -> timeout ( 500 );
my $response = $browser -> get ($url,
'User-Agent' => 'Mozilla/5.0 (X11; U; Linux i686; zh-CN; rv:1.9.0.12) Gecko/2009072711 CentOS/3.0.12-1.el5.centos Firefox/3.0.12',
'Accept' => 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
'Accept-Language' => 'zh-cn,zh;q=0.5',
'Accept-Charset' => 'gb2312,utf-8;q=0.7,*;q=0.7',
'Referer' => 'http://meilibody.taobao.com/?search=y',
);
#獲取單個產(chǎn)品網(wǎng)頁內(nèi)容
my $content = $response -> content;
#網(wǎng)頁內(nèi)容為utf8編碼
$content = decode ( 'gbk' , $content);
my $stream = HTML::TokeParser -> new (\$content);
#1表示找到內(nèi)容簡介的起始處
my $find = 0;
#產(chǎn)品簡介html代碼
my $pcontent = "";
while ( my $token = $stream -> get_token ){
#產(chǎn)品簡介部分結(jié)束，將標記歸0,跳出循環(huán)
if ( $find == 1 and $token -> [0] eq 'S' and $token -> [1] eq 'script') {
$find = 0;
last;
}
if ( $find == 0 and $token -> [0] eq 'S' and $token -> [1] eq 'div' and $token -> [2] -> {class} eq "content" ){
#找到產(chǎn)品簡介起始，將標記置為1
$find = 1;
$pcontent .= $token -> [4];
}elsif ( $find == 1 and $token -> [0] eq 'S' ){
$pcontent .= $token -> [4];
}elsif ( $find == 1 and $token -> [0] eq 'E'){
$pcontent .= $token -> [2];
}elsif ( $find == 1 and $token -> [0] eq 'T'){
$pcontent .= $token -> [1];
}elsif ( $find == 1 and $token -> [0] eq 'C'){
$pcontent .= $token -> [1];
}elsif ( $find == 1 and $token -> [0] eq 'D'){
$pcontent .= $token -> [1];
}
}
return $pcontent;
}

復制代碼

匹配應該是沒有問題，但是抓取到的產(chǎn)器簡介是“描述加載中....",看了似乎產(chǎn)品簡介是通過js來得到的，過往神仙如何解決這一問題？謝謝！

文庫|博客

使用正則表達式與lex實現(xiàn)詞法分析器
C語言的MIPS匯編實現(xiàn)（四）SWITCH
Requested init /linuxrc failed (error -2).
比較 csv 文件中數(shù)據(jù)差異
LMD ElPack v2019.7新版亮點：Transparent mode全新升級|附下載

sx98083714

家境小康

論壇徽章:: 0

2樓 [報告]

發(fā)表于 2010-11-19 12:58 |只看該作者

自已先頂下！

實戰(zhàn)分享：從技術(shù)角度談機器學習入門| 【大話IT】RadonDB低門檻向MySQL集群下戰(zhàn)書 | ChinaUnix打賞功能已上線！ | 新一代分布式關(guān)系型數(shù)據(jù)庫RadonDB知多少？

sx98083714

家境小康

論壇徽章:: 0

3樓 [報告]

發(fā)表于 2010-11-19 13:16 |只看該作者

如果我的實現(xiàn)方法有問題，希望有高手能提供更好的方法，謝謝先！

實戰(zhàn)分享：從技術(shù)角度談機器學習入門| 【大話IT】RadonDB低門檻向MySQL集群下戰(zhàn)書 | ChinaUnix打賞功能已上線！ | 新一代分布式關(guān)系型數(shù)據(jù)庫RadonDB知多少？

Pro_sky

稍有積蓄

論壇徽章:: 0

4樓 [報告]

發(fā)表于 2010-11-19 13:36 |只看該作者

人家是后臺ajax調(diào)用獲取的,真實的url不是你看到的那個

實戰(zhàn)分享：從技術(shù)角度談機器學習入門| 【大話IT】RadonDB低門檻向MySQL集群下戰(zhàn)書 | ChinaUnix打賞功能已上線！ | 新一代分布式關(guān)系型數(shù)據(jù)庫RadonDB知多少？

sx98083714

家境小康

論壇徽章:: 0

5樓 [報告]

發(fā)表于 2010-11-19 13:41 |只看該作者

回復 4# Pro_sky
可有解？

實戰(zhàn)分享：從技術(shù)角度談機器學習入門| 【大話IT】RadonDB低門檻向MySQL集群下戰(zhàn)書 | ChinaUnix打賞功能已上線！ | 新一代分布式關(guān)系型數(shù)據(jù)庫RadonDB知多少？

sx98083714

家境小康

論壇徽章:: 0

6樓 [報告]

發(fā)表于 2010-11-19 14:18 |只看該作者

實戰(zhàn)分享：從技術(shù)角度談機器學習入門| 【大話IT】RadonDB低門檻向MySQL集群下戰(zhàn)書 | ChinaUnix打賞功能已上線！ | 新一代分布式關(guān)系型數(shù)據(jù)庫RadonDB知多少？

sx98083714

家境小康

論壇徽章:: 0

7樓 [報告]

發(fā)表于 2010-11-19 14:29 |只看該作者

不信頂不來大牛支招。怪了，看到好多windows下的淘寶店鋪克隆工具，別人是如何整的？

實戰(zhàn)分享：從技術(shù)角度談機器學習入門| 【大話IT】RadonDB低門檻向MySQL集群下戰(zhàn)書 | ChinaUnix打賞功能已上線！ | 新一代分布式關(guān)系型數(shù)據(jù)庫RadonDB知多少？

sx98083714

家境小康

論壇徽章:: 0

8樓 [報告]

發(fā)表于 2010-11-19 16:09 |只看該作者

嘿嘿，找到辦法了。試踐中。

實戰(zhàn)分享：從技術(shù)角度談機器學習入門| 【大話IT】RadonDB低門檻向MySQL集群下戰(zhàn)書 | ChinaUnix打賞功能已上線！ | 新一代分布式關(guān)系型數(shù)據(jù)庫RadonDB知多少？

iamlimeng

富足長樂

論壇徽章:: 0

9樓 [報告]

發(fā)表于 2010-11-20 11:12 |只看該作者

淘寶在頁面的寶貝詳情、評價詳情、成交記錄等處是使用Ajax來獲取數(shù)據(jù)，并未將數(shù)據(jù)直接嵌入在主頁面中。

看了一下HTML源碼，它是將數(shù)據(jù)作為JS的一個變量嵌入到JS中，該JS隨主頁面下載到本地瀏覽器的緩存中，在需要嵌入該數(shù)據(jù)的地方通過JS事件調(diào)用，如鼠標點擊等。在數(shù)據(jù)嵌入處都有相關(guān)JS代碼，難度也不大，分析一下，順藤摸瓜就能獲得想要的原始數(shù)據(jù)。

樓主在現(xiàn)有代碼基礎上稍加改動即可實現(xiàn)。

實戰(zhàn)分享：從技術(shù)角度談機器學習入門| 【大話IT】RadonDB低門檻向MySQL集群下戰(zhàn)書 | ChinaUnix打賞功能已上線！ | 新一代分布式關(guān)系型數(shù)據(jù)庫RadonDB知多少？

x9x9

小富即安

論壇徽章:: 0

10樓 [報告]

發(fā)表于 2010-11-21 00:59 |只看該作者

頂一下，也需要這個，有結(jié)果希望能分享~

實戰(zhàn)分享：從技術(shù)角度談機器學習入門| 【大話IT】RadonDB低門檻向MySQL集群下戰(zhàn)書 | ChinaUnix打賞功能已上線！ | 新一代分布式關(guān)系型數(shù)據(jù)庫RadonDB知多少？

亚洲av成人无遮挡网站在线观看,少妇性bbb搡bbb爽爽爽,亚洲av日韩精品久久久久久,兔费看少妇性l交大片免费,无码少妇一区二区三区

抓取淘寶產(chǎn)品簡介頁面時遇到的問題，求解！謝謝！ [復制鏈接]

亚洲av成人无遮挡网站在线观看,少妇性bbb搡bbb爽爽爽,亚洲av日韩精品久久久久久,兔费看少妇性l交大片免费,无码少妇一区二区三区

抓取淘寶產(chǎn)品簡介頁面時遇到的問題，求解！謝謝！ [復制鏈接]

抓取淘寶產(chǎn)品簡介頁面時遇到的問題，求解！謝謝！ [復制鏈接]