如何使用Python作为爬行动物？

我们在日常上网的时候经常会看到一些很漂亮的图片，所以我们希望将这些图片保存下来下载，或者用户可以作为桌面壁纸或者设计素材。

我们最常用的方法是点击鼠标右键并选择另存为。但是当你右击一些图片时没有另存为选项，还有另外一种方法可以通过截图工具截取，但是这样会降低图片的清晰度。嗯，其实你很好。右击查看页面源代码。

我们可以用python？实现这么简单的爬虫功能，把我们想要的代码抓取到本地。让我们来看看如何使用python来实现这样的功能。

具体步骤

获取整页数据。首先，我们可以获得要下载的图片的整个页面信息。

getjpg.py

# coding = utf-8 import urllibdef getHtml(URL):

page = urllib.urlopen(url)

html = page.read()返回html

html = get html(" blogs . com/fnng/archive/2013/05/20/3089816 . html

如果我们在百度贴吧里发现了一些很漂亮的壁纸，可以查看一下上一段的工具。找到了图片的地址，比如:src = "/forum...jpg" pic _ ext = "JPEG "

按如下方式修改代码:

导入重新导入urllibdef getHtml(url):

page = urllib.urlopen(url)

html = page . read()return html def getImg(html):

reg = r'src= "(。+?\.jpg)" pic_ext '

imgre =重新编译(reg)

imglist = re.findall(imgre，html)返回imglist？

html = get html("/p/2460150866 ")print getImg(html)

我们还创建了getImg()函数，用于过滤整个页面中所需的图片连接。Re模块主要包含正则表达式:

重新编译()？您可以将正则表达式编译成正则表达式对象。

re.findall()？方法来读取html？包含在？Imgre(正则表达式)数据。

运行该脚本将获得包含在整个页面中的图片的URL地址。

3.将页面过滤后的数据保存在本地。

通过for循环遍历过滤后的图像地址，并将其保存在本地。代码如下:

# coding = utf-8 import URL libimport redef get html(URL):

page = urllib.urlopen(url)

html = page . read()return html def getImg(html):

reg = r'src= "(。+?\.jpg)" pic_ext '

imgre =重新编译(reg)

imglist = re.findall(imgre，html)

imglist中imgurl的x = 0:

urllib.urlretrieve(imgurl，' %s.jpg' % x ')

x+= 1 html = getHtml("/p/2460150866 ")print getImg(html)

这里的核心是使用urllib.urlretrieve()方法将远程数据直接下载到本地。

通过for循环遍历获得的图像连接。为了让图像的文件名看起来更规范，对其进行了重命名，命名规则是在X变量上加1。保存位置默认为程序的存储目录。

程序运行后，你会在目录中看到下载的文件。