如何使用Python作为爬行动物?
我们最常用的方法是点击鼠标右键并选择另存为。但是当你右击一些图片时没有另存为选项,还有另外一种方法可以通过截图工具截取,但是这样会降低图片的清晰度。嗯,其实你很好。右击查看页面源代码。
我们可以用python?实现这么简单的爬虫功能,把我们想要的代码抓取到本地。让我们来看看如何使用python来实现这样的功能。
具体步骤
获取整页数据。首先,我们可以获得要下载的图片的整个页面信息。
getjpg.py
# coding = utf-8 import urllibdef getHtml(URL):
page = urllib.urlopen(url)
html = page.read()返回html
html = get html(" blogs . com/fnng/archive/2013/05/20/3089816 . html
如果我们在百度贴吧里发现了一些很漂亮的壁纸,可以查看一下上一段的工具。找到了图片的地址,比如:src = "/forum...jpg" pic _ ext = "JPEG "
按如下方式修改代码:
导入重新导入urllibdef getHtml(url):
page = urllib.urlopen(url)
html = page . read()return html def getImg(html):
reg = r'src= "(。+?\.jpg)" pic_ext '
imgre =重新编译(reg)
imglist = re.findall(imgre,html)返回imglist?
html = get html("/p/2460150866 ")print getImg(html)
我们还创建了getImg()函数,用于过滤整个页面中所需的图片连接。Re模块主要包含正则表达式:
重新编译()?您可以将正则表达式编译成正则表达式对象。
re.findall()?方法来读取html?包含在?Imgre(正则表达式)数据。
运行该脚本将获得包含在整个页面中的图片的URL地址。
3.将页面过滤后的数据保存在本地。
通过for循环遍历过滤后的图像地址,并将其保存在本地。代码如下:
# coding = utf-8 import URL libimport redef get html(URL):
page = urllib.urlopen(url)
html = page . read()return html def getImg(html):
reg = r'src= "(。+?\.jpg)" pic_ext '
imgre =重新编译(reg)
imglist = re.findall(imgre,html)
imglist中imgurl的x = 0:
urllib.urlretrieve(imgurl,' %s.jpg' % x ')
x+= 1 html = getHtml("/p/2460150866 ")print getImg(html)
这里的核心是使用urllib.urlretrieve()方法将远程数据直接下载到本地。
通过for循环遍历获得的图像连接。为了让图像的文件名看起来更规范,对其进行了重命名,命名规则是在X变量上加1。保存位置默认为程序的存储目录。
程序运行后,你会在目录中看到下载的文件。