1000字范文 > 记录一次大作业心路历程

记录一次大作业心路历程

时间：2023-02-07 07:52:18

相关推荐

记录一次大作业心路历程

python老师留的大作业要求50行以上代码

想做一个爬虫的程序吧豆瓣或者爬校园网都行

（最后没有做爬虫，但过程中也学习到挺多的）

btw 已经过去40分钟了还没安装好库我好笨反正学习就是很耗时间很熬人的过程写个贴记录一下吧

参考文章：这个贴真的写的非常非常非常好，我下面写的只是一些实践过程中的细节补充，就是入门常遇到的问题，大框架其实这个贴写的很明白了已经(43条消息) python爬虫入门教程(二)：开始一个简单的爬虫_笔墨留年。-CSDN博客_爬虫python入门

第一步：安装bs4、lxml、pyquery

1、bs4 很顺利直接在cmd中输入：

pip3 install beautifulsoup4

2、lxml比较麻烦

发现自己的pip包太老了需要升级套娃开始了....... 主要是windows没有linux好用

（1）首先升级pip包（百度了一种比较简单的方法）

打开cmd 输入：

python -m pip install --upgrade pip

显示升级成功即可

（2）然后就可以开始安装lxml

首先在cmd中打开到python所在文件夹（注意：lxml和python要装在同一目录下）

然后输入：

pip install 【whl文件的全名】

然后发现版本错了！！！！！！气死我了我怎么这么笨啊！！！！！！

百度一下你就知道

就知道应该下载哪个版本见图

然后终于安装好了

检查一下：cmd或者IDE输入import bs4和import lxml没报错就是安装成功了

（终于做完第一步了救命

3、pyquery

同样是cmd 输入

pip install pyquery

第二步尝试使用BeautifulSoup+lxml解析网页源码

终于开始到正式步骤了恭喜我已经浪费了一小时555

然后按照上面的链接里的教程输入代码

发现import requests 语句会报错

先检查一下目前已有的轮子

果不其然没有requests

输入：

pip install requests

显示安装成功：然后真的真的要敲代码了

代码的原理在原贴中写的很详细

一个简单的爬虫完成了

涉及到的名词：a标签对象——网页中大多数都是a对象实现的

状态码——（正常：200，找不到：404，重定向：301）

但我们只访问到内容，还没有保存下来，下面完成保存操作，我们将它保存到一个名为url.txt的文本里去，需要将代码稍作修改

import bs4import lxmlimport pyqueryimport requestsfrom bs4 import BeautifulSoupresp=requests.get('')#请求访问百度print(resp)#打印请求结果的状态码（正常：200，异常：404；重定向：301）print((resp.content))#打印请求到的网页源码bsobj=BeautifulSoup(resp.content,'lxml')#将网页源码构造成Beauifulsoup对象，像操作dom模型类似的去操作它a_list=bsobj.find_all('a')#获取网页中所有a标签对象（网页中绝大多数都是a对象实现的）text=' 'for a in a_list:href=a.get('href')#获取a标签对象的ref属性，即这个对象指向的链接地址text+=href+'\n'with open('url.txt','w')as f:#在当前路径下，以写的方式打开一个名为'url.txt',不存在会自动创建f.write(text)

在python文件同目录下，可以看到txt文件

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。