www.555hpw.com,wwwhhav99.con,www.ad338.com

您現(xiàn)在的位置在: 首頁(yè)> 學(xué)習(xí)經(jīng)驗(yàn)>

時(shí)間：2019-05-25 00:00:00 來(lái)源：信盈達(dá) 作者：信盈達(dá)

tica, Verdana, Tahoma, sans-serif"> 在一些網(wǎng)站上經(jīng)?？吹揭恍┖玫膱D片希望批量下載保存到本地，但是一個(gè)個(gè)右擊保存有顯的十分麻煩，這里可以通過python 來(lái)實(shí)現(xiàn)這樣一個(gè)簡(jiǎn)單的爬蟲功能，把我們想要的代碼爬取到本地，功能有點(diǎn)類似我們之前學(xué)過的批處理。下面就看看如何使用python來(lái)實(shí)現(xiàn)這樣一個(gè)功能，主要分為三步，如下：

一. 獲取整個(gè)頁(yè)面數(shù)據(jù)

首先我們可以先獲取要下載圖片的整個(gè)頁(yè)面信息。

創(chuàng)建getjpg.py文件

#coding=utf-8
import urllib
def getHtml(url):
page = urllib.urlopen(url)
html = page.read()
return html
html = getHtml("http://tieba.baidu.com/p/2738151262")
print html

復(fù)制代碼

說明：

Urllib 模塊提供了讀取web頁(yè)面數(shù)據(jù)的接口，我們可以像讀取本地文件一樣讀取www和ftp上的數(shù)據(jù)。

首先，我們定義了一個(gè)getHtml()函數(shù)；

urllib.urlopen()方法用于打開一個(gè)URL地址；

read()方法用于讀取URL上的數(shù)據(jù)；

向getHtml()函數(shù)傳遞一個(gè)網(wǎng)址，并把整個(gè)頁(yè)面下載下來(lái)。執(zhí)行程序就會(huì)把整個(gè)網(wǎng)頁(yè)打印輸出。

二. 篩選頁(yè)面中想要的數(shù)據(jù)

Python 提供了非常強(qiáng)大的正則表達(dá)式，我們需要先要了解一點(diǎn)python 正則表達(dá)式的知識(shí)才行。

re模塊中一些重要的函數(shù)：

假如我們百度貼吧找到了幾張漂亮的壁紙，通過到前段查看工具。找到了圖片的地址，如：src="http://imgsrc.baidu.com/forum/w%3D580/sign=750661a0fcfaaf5184e381b7bc5594ed/75fafbedab64034fc3ed0b80aec379310a551d11.jpg"

修改代碼如下：

import re
import urllib
def getHtml(url):
page = urllib.urlopen(url)
html = page.read()
return html
def getImg(html):
reg = r'src="(.+?\.jpg)" pic_ext'
imgre = re.compile(reg)
imglist = re.findall(imgre,html)
return imglist
html = getHtml("http://tieba.baidu.com/p/2460150866")
print getImg(html)

復(fù)制代碼

我們又創(chuàng)建了getImg()函數(shù)，用于在獲取的整個(gè)頁(yè)面中篩選需要的圖片連接。re模塊主要包含了正則表達(dá)式：

re.compile() 可以把正則表達(dá)式編譯成一個(gè)正則表達(dá)式對(duì)象.

re.findall() 方法讀取html 中包含 imgre（正則表達(dá)式）的數(shù)據(jù)。

運(yùn)行腳本將得到整個(gè)頁(yè)面中包含圖片的URL地址。

三. 將頁(yè)面篩選的數(shù)據(jù)保存到本地

把篩選的圖片地址通過for循環(huán)遍歷并保存到本地，代碼如下：

#coding=utf-8
import urllib
import re
def getHtml(url):
page = urllib.urlopen(url)
html = page.read()
return html
def getImg(html):
reg = r'src="(.+?\.jpg)" pic_ext'
imgre = re.compile(reg)
imglist = re.findall(imgre,html)
x = 0
for imgurl in imglist:
urllib.urlretrieve(imgurl,'c:\Users\Administrator\Desktop\pic\%s.jpg' % x)
x+=1
html = getHtml("http://tieba.baidu.com/p/2460150866")
print getImg(html)

復(fù)制代碼

這里的核心是用到了urllib.urlretrieve()方法，直接將遠(yuǎn)程數(shù)據(jù)下載到本地。

通過一個(gè)for循環(huán)對(duì)獲取的圖片連接進(jìn)行遍歷，為了使圖片的文件名看上去更規(guī)范，對(duì)其進(jìn)行重命名，命名規(guī)則通過x變量加1。保存的位置默認(rèn)為程序的存放目錄。

程序運(yùn)行完成，將在目錄下看到下載到本地的文件。

效果如下：

聲明：本網(wǎng)站原創(chuàng)內(nèi)容，如需轉(zhuǎn)載，請(qǐng)注明出處；本網(wǎng)站轉(zhuǎn)載的內(nèi)容（文章、圖片、視頻）等資料版權(quán)歸原網(wǎng)站所有。如我們采用了您不宜公開的文章或圖片，未能及時(shí)和您確認(rèn)，避免給雙方造成不必要的經(jīng)濟(jì)損失，請(qǐng)電郵聯(lián)系我們，以便迅速采取適當(dāng)處理措施；歡迎投稿，郵箱：edu118@edu118.com。

想要了解嵌入式、物聯(lián)網(wǎng)、 PCB硬件、 python人工智能、企業(yè)培訓(xùn)等課程,

敬請(qǐng)關(guān)注信盈達(dá)分享匯微信公眾號(hào) 或者添加楊老師QQ:914865590獲得更多資源福利！

想要了解嵌入式、物聯(lián)網(wǎng)、 PCB硬件、 python人工智能、企業(yè)培訓(xùn)等課程,

敬請(qǐng)關(guān)注信盈達(dá)分享匯微信公眾號(hào) 或者添加楊老師QQ:914865590獲得更多資源福利！

免費(fèi)領(lǐng)取試聽卡

*您的姓名:

*聯(lián)系電話:

學(xué)習(xí)內(nèi)容:

我們將對(duì)您的信息嚴(yán)格保密！

申請(qǐng)已經(jīng)提交

老師會(huì)馬上給您安排試聽課程！

申請(qǐng)出錯(cuò)了

您可以加老師QQ:914865590報(bào)名咨詢！

91精品人妻系列动画无码 - 国产精品夜间视频香蕉 - 91丝袜人妻一区二区三区 - 久久伊伊香蕉精品网站

關(guān)于我們

課程服務(wù)

交流社區(qū)

常見問答

旗下品牌