1000字范文,内容丰富有趣,学习的好帮手!
1000字范文 > 【Python网络爬虫】基本原理

【Python网络爬虫】基本原理

时间:2021-07-10 13:59:16

相关推荐

【Python网络爬虫】基本原理

目录

一、概念理解

二、基本思路

1.构造首页请求

2.数据解析

3.保存本地

三、提升速度

四、案例:爬取知识产权网站的公司名称和类别

一、概念理解

爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者。

传统爬虫就是经常用到的各种搜索引擎,浏览器。参考浏览器命令

聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。

二、基本思路

1.构造首页请求

目标网址:url

伪装浏览器:headers(User-agent、cookies、referrer)

发送请求:request(GET / POST)

返回内容:response

2.数据解析

Html数据:正则表达式

Json数据:json库(ajax网页数据获取)

二进制数据:以wb的方式写入文件

3.保存本地

目标格式:拼接

保存本地:excel、word、图片

三、提升速度

多线程

四、案例:爬取知识产权网站的公司名称和类别

#:8888/Logo/Search地理标志处分别搜阳澄湖大闸蟹、五常大米、浏阳花炮import urllib.requestfrom urllib import parse#构造首页请求url=':8888/Logo/ChangePage/'headers={'Cookie':'_SessionId=d5k3mu1y0vkfxl3lqgtd2if4','User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.111 Safari/537.36 Edg/86.0.622.61','Referer':':8888/Logo/Result?cpmc=%E4%BA%94%E5%B8%B8%E5%A4%A7%E7%B1%B3&company=&creditcode=',}#数据解析formdata = {'pageSize': '2'}data = parse.urlencode(formdata).encode(encoding='UTF8')request = urllib.request.Request(url, data=data, headers=headers)#返回结果response = urllib.request.urlopen(request).read()# utf-8解码s = response.decode('utf-8', 'ignore')#保存本地print(s)

参考链接:

/v/148375?depth_1-spm=1000.2115.3001.4128

https://ityard./article/details/106606158

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。