1000字范文,内容丰富有趣,学习的好帮手!
1000字范文 > 记录一次大作业心路历程

记录一次大作业心路历程

时间:2023-02-07 07:52:18

相关推荐

记录一次大作业心路历程

python老师留的大作业要求50行以上代码

想做一个爬虫的程序吧 豆瓣或者爬校园网都行

(最后没有做爬虫,但过程中也学习到挺多的)

btw 已经过去40分钟了还没安装好库 我好笨 反正学习就是很耗时间很熬人的过程 写个贴记录一下吧

参考文章:这个贴真的写的非常非常非常好,我下面写的只是一些实践过程中的细节补充,就是入门常遇到的问题,大框架其实这个贴写的很明白了已经(43条消息) python爬虫入门教程(二):开始一个简单的爬虫_笔墨留年。-CSDN博客_爬虫python入门

第一步:安装bs4、lxml、pyquery

1、bs4 很顺利 直接在cmd中输入:

pip3 install beautifulsoup4

2、lxml比较麻烦

发现自己的pip包太老了需要升级 套娃开始了....... 主要是windows没有linux好用

(1)首先升级pip包 (百度了一种比较简单的方法)

打开cmd 输入:

python -m pip install --upgrade pip

显示升级成功即可

(2)然后就可以开始安装lxml

首先在cmd中打开到python所在文件夹(注意:lxml和python要装在同一目录下)

然后输入:

pip install 【whl文件的全名】

然后发现版本错了!!!!!!气死我了我怎么这么笨啊!!!!!!

百度一下 你就知道

就知道应该下载哪个版本 见图

然后终于安装好了

检查一下:cmd或者IDE输入import bs4和import lxml没报错就是安装成功了

(终于做完第一步了救命

3、pyquery

同样是cmd 输入

pip install pyquery

第二步 尝试使用BeautifulSoup+lxml解析网页源码

终于开始到正式步骤了 恭喜我已经浪费了一小时555

然后按照上面的链接里的教程输入代码

发现import requests 语句会报错

先检查一下目前已有的轮子

果不其然没有requests

输入:

pip install requests

显示安装成功: 然后真的真的要敲代码了

代码的原理在原贴中写的很详细

一个简单的爬虫完成了

涉及到的名词:a标签对象——网页中大多数都是a对象实现的

状态码——(正常:200,找不到:404,重定向:301)

但我们只访问到内容,还没有保存下来,下面完成保存操作,我们将它保存到一个名为url.txt的文本里去,需要将代码稍作修改

import bs4import lxmlimport pyqueryimport requestsfrom bs4 import BeautifulSoupresp=requests.get('')#请求访问百度print(resp)#打印请求结果的状态码(正常:200,异常:404;重定向:301)print((resp.content))#打印请求到的网页源码bsobj=BeautifulSoup(resp.content,'lxml')#将网页源码构造成Beauifulsoup对象,像操作dom模型类似的去操作它a_list=bsobj.find_all('a')#获取网页中所有a标签对象(网页中绝大多数都是a对象实现的)text=' 'for a in a_list:href=a.get('href')#获取a标签对象的ref属性,即这个对象指向的链接地址text+=href+'\n'with open('url.txt','w')as f:#在当前路径下,以写的方式打开一个名为'url.txt',不存在会自动创建f.write(text)

在python文件同目录下,可以看到txt文件

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。