亚洲av成人无遮挡网站在线观看,少妇性bbb搡bbb爽爽爽,亚洲av日韩精品久久久久久,兔费看少妇性l交大片免费,无码少妇一区二区三区

  免費注冊 查看新帖 |

Chinaunix

  平臺 論壇 博客 文庫
最近訪問板塊 發(fā)新帖
查看: 3816 | 回復: 4
打印 上一主題 下一主題

python自動抓取網頁圖片問題 [復制鏈接]

論壇徽章:
3
CU大;照
日期:2013-03-13 15:32:35CU大;照
日期:2013-03-13 15:38:15CU大;照
日期:2013-03-13 15:38:52
跳轉到指定樓層
1 [收藏(0)] [報告]
發(fā)表于 2012-11-29 18:00 |只看該作者 |倒序瀏覽
有時候會經常瀏覽某個網站的圖片,一個一個點擊下載太慢了,于是想用python寫個自動腳本下載,使用urllib,urllib2,sgmllib模塊,分析網頁內容使用
opener = urllib2.build_opener()
opener.addheaders = [('User-agent', 'Mozilla/5.0')]
page = opener.open(self.url).read()
可以通過sgmllib.SGMLParser分析出超鏈接,然后使用正則表達式獲取圖片的地址,但問題是,比如一個網頁上命名有一個圖片,但是在網頁源碼中卻看不到這個圖片的鏈接,使用chrome的審查元素可以查看到,但是查看網頁源碼里面卻沒有,求高手指點一二。

論壇徽章:
4
水瓶座
日期:2013-09-06 12:27:30摩羯座
日期:2013-09-28 14:07:46處女座
日期:2013-10-24 14:25:01酉雞
日期:2014-04-07 11:54:15
2 [報告]
發(fā)表于 2012-11-29 22:12 |只看該作者
是js設置的圖片地址, 樓主看一下js代碼分析一下來源吧, 可能地址不在js里寫死, 都是ajax拉回來的, 還需要多一次請求.

論壇徽章:
0
3 [報告]
發(fā)表于 2012-11-30 14:35 |只看該作者
如果網頁源碼中找不到,那么就屬于所謂的動態(tài)內容,是由其他,常常是javascript腳本,所生成的;
那么需要你利用工具:
【教程】手把手教你如何利用工具(IE9的F12)去分析模擬登陸網站(百度首頁)的內部邏輯過程
去分析出對應的邏輯:
【整理】關于抓取網頁,分析網頁內容,模擬登陸網站的邏輯/流程和注意事項
此處即你所需要的圖片的url。
然后再參考:
【教程】模擬登陸網站 之 Python版(內含兩種版本的完整的可運行的代碼)
去寫出你自己的代碼,去下載對應的圖片。



論壇徽章:
3
CU大牛徽章
日期:2013-03-13 15:32:35CU大;照
日期:2013-03-13 15:38:15CU大;照
日期:2013-03-13 15:38:52
4 [報告]
發(fā)表于 2012-12-03 15:56 |只看該作者
crifan 發(fā)表于 2012-11-30 14:35
如果網頁源碼中找不到,那么就屬于所謂的動態(tài)內容,是由其他,常常是javascript腳本,所生成的;
那么需要 ...

非常感謝crifan,我已經到你的網站上拜讀了幾篇大作,關于 “【整理】關于抓取網頁,分析網頁內容,模擬登陸網站的邏輯/流程和注意事項”, 但是對于如何抓取動態(tài)網頁還是沒有個整體印象,能不能舉個例子,先謝了~

論壇徽章:
0
5 [報告]
發(fā)表于 2012-12-04 20:06 |只看該作者
wulien88 發(fā)表于 2012-12-03 15:56
非常感謝crifan,我已經到你的網站上拜讀了幾篇大作,關于 “【整理】關于抓取網頁,分析網頁內容,模擬登 ...
剛寫了:

                                
【教程】如何抓取動態(tài)網頁內容

【教程】以抓取網易博客帖子中的最近讀者信息為例,手把手教你如何抓取動態(tài)網頁中的內容

【整理】網頁抓取,模擬登陸,抓取動態(tài)網頁內容等過程中,所涉及的Headers信息,Cookie信息,POST數(shù)據的處理邏輯


暫時沒寫完,會抽空補充完整的。
您需要登錄后才可以回帖 登錄 | 注冊

本版積分規(guī)則 發(fā)表回復

  

北京盛拓優(yōu)訊信息技術有限公司. 版權所有 京ICP備16024965號-6 北京市公安局海淀分局網監(jiān)中心備案編號:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年舉報專區(qū)
中國互聯(lián)網協(xié)會會員  聯(lián)系我們:huangweiwei@itpub.net
感謝所有關心和支持過ChinaUnix的朋友們 轉載本站內容請注明原作者名及出處

清除 Cookies - ChinaUnix - Archiver - WAP - TOP