1000字范文,内容丰富有趣,学习的好帮手!
1000字范文 > 实例详解Python实现简单网页图片抓取

实例详解Python实现简单网页图片抓取

时间:2021-06-04 21:55:51

相关推荐

实例详解Python实现简单网页图片抓取

后端开发|Python教程

Python,简单,实现

后端开发-Python教程

本文主要介绍了Python实现简单网页图片抓取完整代码实例,具有一定借鉴价值,需要的朋友可以参考下。

网上买的微盘源码能用吗,ubuntu开机锁屏,鸟怕冷还是爬虫,php 域名设置,广州google seolzw

利用python抓取网络图片的步骤是:

1、根据给定的网址获取网页源代码

2、利用正则表达式把源代码中的图片地址过滤出来

3、根据过滤出来的图片地址下载网络图片

betheme源码,ubuntu看文件路径,tomcat传参不规范,java转爬虫,php接入prometheus,seo如何修改网页模板上的内容lzw

以下是比较简单的一个抓取某一个百度贴吧网页的图片的实现:

android 销售源码,vscode代码怎么换行,ubuntu调出shell,树莓派配置tomcat,sqlite3查找是否有表,爬虫技术能不能抓出外贸客户信息,图片切割 php,seo竞价托管价格优化,淘宝客导购网站源码,装机模板lzw

# -*- coding: utf-8 -*- # feimengjuan import re import urllib import urllib2 #抓取网页图片 #根据给定的网址来获取网页详细信息,得到的html就是网页的源代码 def getHtml(url): page = urllib.urlopen(url) html = page.read() return html def getImg(html): #利用正则表达式把源代码中的图片地址过滤出来 reg = rsrc="(.+?\.jpg)" pic_ext imgre = pile(reg) imglist = imgre.findall(html) #表示在整个网页中过滤出所有图片的地址,放在imglist中 x = 0 for imgurl in imglist:urllib.urlretrieve(imgurl,\%s.jpg %x) #打开imglist中保存的图片网址,并下载图片保存在本地x = x + 1 html = getHtml("/p/2460150866")#获取该网址网页详细信息,得到的html就是网页的源代码 getImg(html)#从网页源代码中分析并下载保存图片

进一步对代码进行了整理,在本地创建了一个“图片”文件夹来保存图片

# -*- coding: utf-8 -*- # feimengjuan import re import urllib import urllib2 import os #抓取网页图片 #根据给定的网址来获取网页详细信息,得到的html就是网页的源代码 def getHtml(url): page = urllib.urlopen(url) html = page.read() return html #创建保存图片的文件夹 def mkdir(path): path = path.strip() # 判断路径是否存在 # 存在 True # 不存在 Flase isExists = os.path.exists(path) if not isExists:print u新建了名字叫做,path,u的文件夹# 创建目录操作函数os.makedirs(path)return True else:# 如果目录存在则不创建,并提示目录已经存在print u名为,path,u的文件夹已经创建成功 eturn False # 输入文件名,保存多张图片 def saveImages(imglist,name): number = 1 for imageURL in imglist:splitPath = imageURL.split(.)fTail = splitPath.pop()if len(fTail) > 3: fTail = jpgfileName = name + "/" + str(number) + "." + fTail# 对于每张图片地址,进行保存try: u = urllib2.urlopen(imageURL) data = u.read() f = open(fileName,wb+) f.write(data) print u正在保存的一张图片为,fileName f.close()except urllib2.URLError as e: print (e.reason)number += 1 #获取网页中所有图片的地址 def getAllImg(html): #利用正则表达式把源代码中的图片地址过滤出来 reg = rsrc="(.+?\.jpg)" pic_ext imgre = pile(reg) imglist = imgre.findall(html) #表示在整个网页中过滤出所有图片的地址,放在imglist中 return imglist #创建本地保存文件夹,并下载保存图片 if __name__ == \__main__: html = getHtml("/p/2460150866")#获取该网址网页详细信息,得到的html就是网页的源代码 path = u图片 mkdir(path) #创建本地文件夹 imglist = getAllImg(html) #获取图片的地址列表 saveImages(imglist,path) # 保存图片

结果在“图片”文件夹下保存了几十张图片,如截图:

PHP简单网页图片抓取类

如何把这里的图片抓取到本地

PHP+Ajax远程图片抓取器下载的例子

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。