1000字范文 > Python网络爬虫——基本原理

Python网络爬虫——基本原理

时间：2023-03-29 19:50:42

相关推荐

Python网络爬虫——基本原理

一、概念理解

二、基本思路

1.构造首页请求

2.数据解析

3.保存本地

三、提升速度

四、案例：爬取知识产权网站的公司名称和类别

一、概念理解

爬虫是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。（又称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者）

传统爬虫就是经常用到的各种搜索引擎，浏览器。

聚焦爬虫的工作流程较为复杂，需要根据一定的网页分析算法过滤与主题无关的链接，保留有用的链接并将其放入等待抓取的URL队列。然后，它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL，并重复上述过程，直到达到系统的某一条件时停止。

二、基本思路

1.构造首页请求

目标网址：url

伪装浏览器：headers（User-agent、cookies、referrer）

发送请求：request（GET / POST）

返回内容：response

2.数据解析

Html数据：正则表达式

Json数据：json库(ajax网页数据获取)

二进制数据：以wb的方式写入文件

3.保存本地

目标格式：拼接

保存本地：excel、word、图片

三、提升速度

多线程

四、案例：爬取知识产权网站的公司名称和类别

#:8888/Logo/Search地理标志处分别搜阳澄湖大闸蟹、五常大米、浏阳花炮import urllib.requestfrom urllib import parse#构造首页请求url=':8888/Logo/ChangePage/'headers={'Cookie':'_SessionId=d5k3mu1y0vkfxl3lqgtd2if4','User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.111 Safari/537.36 Edg/86.0.622.61','Referer':':8888/Logo/Result?cpmc=%E4%BA%94%E5%B8%B8%E5%A4%A7%E7%B1%B3&company=&creditcode=',}#数据解析formdata = {'pageSize': '2'}data = parse.urlencode(formdata).encode(encoding='UTF8')request = urllib.request.Request(url, data=data, headers=headers)#返回结果response = urllib.request.urlopen(request).read()# utf-8解码s = response.decode('utf-8', 'ignore')#保存本地print(s)

参考链接：

/v/148375?depth_1-spm=1000.2115.3001.4128

https://ityard./article/details/106606158

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。