1000字范文 > Python网络爬虫的概念和基本原理

Python网络爬虫的概念和基本原理

时间：2019-06-24 03:50:38

相关推荐

Python网络爬虫的概念和基本原理

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理

本文章来自腾讯云作者：Python进阶者

想要学习Python？有问题得不到第一时间解决？来看看这里“1039649593”满足你的需求，资料都已经上传至文件中，可以自行下载！还有海量最新python学习资料。

点击查看

本次分享的内容主要可分为三块：

网络爬虫背景

基本概念

基本原理

背景

首先我们来了解下背景，众所周知，随着计算机、互联网、物联网、云计算等网络技术的风起云涌，网络上的信息呈爆炸式增长。毋庸置疑，互联网上的信息几乎囊括了社会、文化、政治、经济、娱乐等所有话题。

使用传统数据收集机制（如问卷调查法、访谈法）进行捕获和采集数据，往往会受经费和地域范围所限，而且还会因其样本容量小、信度低等因素导致收集的数据往往与客观事实有所偏颇，有着较大的局限性。这时候网络爬虫作为一个强大的数据采集神器应运而生了。下面一起来看看网络爬虫的荣耀时刻吧！

网络爬虫通过统一资源定位符URL (Uniform ResourceLocator)来查找目标网页，将用户所关注的数据内容直接返回给用户，并不需要用户以浏览网页的形式去获取信息，为用户节省了时间和精力，并提高了数据采集的准确度，使用户在海量数据中游刃有余。网络爬虫的最终目的就是从网页中获取自己所需的信息。虽然利用urllib、urllib2、re等一些爬虫基本库可以开发一个爬虫程序，获取到所需的内容，但是所有的爬虫程序都以这种方式进行编写，工作量未免太大了些，所有才有了爬虫框架。使用爬虫框架可以大大提高效率，缩短开发时间。

了解了网络爬虫背景和网络爬虫的用途之后，接下来我们一起来了解它的概念知识吧。

基本概念

网络爬虫（web crawler）又称为网络蜘蛛（web spider）或网络机器人（web robot），另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或蠕虫，同时它也是“物联网”概念的核心之一。网络爬虫本质上是一段计算机程序或脚本，其按照一定的逻辑和算法规则自动地抓取和下载万维网的网页，是搜索引擎的一个重要组成部分。

刚刚讲到了网络爬虫的逻辑和算法规则，下面来给大家分享下网络爬虫的基本原理吧！

基本原理

字不如表，表不如图，这里给大家画出了一个网络爬虫流程简图，可以看到原理图部分。一般来说的话，网络爬虫是根据预先设定的一个或若干个初始网页的URL开始，然后按照一定的规则爬取网页，获取初始网页上的URL列表，之后每当抓取一个网页时，爬虫会提取该网页新的URL并放入到未爬取的队列中去，然后循环的从未爬取的队列中取出一个URL再次进行新一轮的爬取，不断的重复上述过程，直到队列中的URL抓取完毕或者达到其他的既定条件，爬虫才会结束。