亚洲av成人无遮挡网站在线观看,少妇性bbb搡bbb爽爽爽,亚洲av日韩精品久久久久久,兔费看少妇性l交大片免费,无码少妇一区二区三区

  免費注冊 查看新帖 |

Chinaunix

  平臺 論壇 博客 文庫
12
最近訪問板塊 發(fā)新帖
樓主: sx98083714
打印 上一主題 下一主題

抓取淘寶產(chǎn)品簡介頁面時遇到的問題,求解!謝謝! [復制鏈接]

論壇徽章:
0
11 [報告]
發(fā)表于 2010-11-21 07:21 |只看該作者
具體得研究頁面代碼。

論壇徽章:
0
12 [報告]
發(fā)表于 2010-11-21 12:43 |只看該作者
本帖最后由 iamlimeng 于 2010-11-21 12:46 編輯

研究了一下,寫了段代碼,希望對大家有幫助。
  1. #!/usr/bin/perl

  2. use strict;
  3. #use warnings;
  4. use LWP::UserAgent;
  5. use LWP::ConnCache;
  6. my $url_taobao = "http://meilibody.taobao.com/?search=y";

  7. my $path = "d:/taobao";
  8. mkdir($path) if (not -d $path);
  9. my $lwp = new LWP::UserAgent(agent => 'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 2.0.50727; CIBA)');
  10. my $conncache = new LWP::ConnCache;
  11. $lwp->conn_cache($conncache);

  12. my $n = 1;
  13. my @url_main_page;
  14. my $content = get_html($url_taobao);
  15. if ($content) {
  16.         $content =~ s/\n|\r//g;
  17.          my ($page) = ($content =~ /<div class="page-bottom">(.*?)<\/div>/ig);
  18.         @url_main_page = ($page =~ /<a href="(.*?)">\d<\/a>/ig);
  19.          my %url_product = ($content =~ /<div class="desc"><a target="_blank" href="(.*?)" class="permalink">(.*?)<\/a>/ig);
  20.          get_desc($_,$url_product{$_}) for (keys %url_product);
  21. }
  22. else { print qq~ Get "$url_taobao" error!~; }

  23. foreach (@url_main_page) {
  24.         my $content = get_html($_);
  25.         if ($content) {
  26.                  $content =~ s/\n|\r//g;
  27.                  my %url_product = ($content =~ /<div class="desc"><a target="_blank" href="(.*?)" class="permalink">(.*?)<\/a>/ig);
  28.                  get_desc($_,$url_product{$_}) for (keys %url_product);
  29.         }
  30.         else { print qq~ Get "$_" error!~; }
  31. }
  32. print "\n Get All product infomation OK!\7";
  33. <STDIN>;

  34. sub get_desc {
  35.         my ($url,$name) = @_;
  36.         my $url_desc;
  37.         my $content = get_html($url);
  38.         if ($content) {
  39.                  $content =~ s/\n|\r//g;
  40.                  ($url_desc) = ($content =~ /.*?(http:\/\/dsc\.taobaocdn\.com\/.*?)\'/i);
  41.                  my $desc = get_html($url_desc);
  42.                  if ($desc) {
  43.                           open(FH,">$path/product_$n.txt")
  44.                            || print " Create file product_$n.txt error!\n\7";
  45.                            print FH "$name\n\n$desc";
  46.                           close FH;
  47.                           print " $n $name OK!\n";
  48.                  }
  49.                  else { print " $n $name Error!\n"; }
  50.         }
  51.         else { print qq~ $n Get "$url" error!~; }
  52.         $n++;
  53. }

  54. sub get_html {
  55.         my $url_request = shift;
  56.         my $request = HTTP::Request->new(GET=>$url_request);
  57.         $request->header(Accept=>'text/html');
  58.         my $response = $lwp->request($request);
  59.         if ($response->is_success) {
  60.                 return($response->content());
  61.         }
  62.         else  {
  63.                  return 0;
  64.         }
  65. }
復制代碼
正則寫得不太好,請大家包涵。

論壇徽章:
0
13 [報告]
發(fā)表于 2010-11-21 15:41 |只看該作者
iamlimeng我愛死你了,又幫我解決了個問題,再次感謝!

論壇徽章:
0
14 [報告]
發(fā)表于 2011-11-25 11:20 |只看該作者
回復 12# iamlimeng


    27行-35行是不是不需要的?

論壇徽章:
0
15 [報告]
發(fā)表于 2011-11-26 18:06 |只看該作者
回復 12# iamlimeng

請問大俠:
  1. my ($page) = ($content =~ /<div class="page-bottom">(.*?)<\/div>/ig)
復制代碼
這段代碼是把名為page-bottom的一段內(nèi)容替代成什么呢? 正則表達式 =~ s///ig,請問是不是上面少了一個"/",我對正則表達式還不太明白,請賜教,謝謝!

論壇徽章:
0
16
發(fā)表于 2011-11-28 14:46
本帖最后由 xufinal 于 2011-11-28 14:54 編輯

~~~

論壇徽章:
0
17 [報告]
發(fā)表于 2013-01-06 23:35 |只看該作者
樓主有實現(xiàn)的方法了嗎?
我想用Python下載寶貝的圖片,讀取出來的頁面也是“商品加載中”,沒辦法分析
QQ:329899749 求交流
回復 1# sx98083714


   
您需要登錄后才可以回帖 登錄 | 注冊

本版積分規(guī)則 發(fā)表回復

  

北京盛拓優(yōu)訊信息技術有限公司. 版權所有 京ICP備16024965號-6 北京市公安局海淀分局網(wǎng)監(jiān)中心備案編號:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年舉報專區(qū)
中國互聯(lián)網(wǎng)協(xié)會會員  聯(lián)系我們:huangweiwei@itpub.net
感謝所有關心和支持過ChinaUnix的朋友們 轉載本站內(nèi)容請注明原作者名及出處

清除 Cookies - ChinaUnix - Archiver - WAP - TOP