利用python实现有道翻译在线翻译
1 post的请求方式1.1 post和get的区别1.2 post特点 2.利用request.urllib实现2.1 寻找网页源代码翻译的位置2.2 输入查询内容并转为字节流2.3 利用request.urllib实现请求2.4 美化输出结果 3.利用requests实现请求方式有两种,分别是get和post。之前我们用百度贴吧的方式示例了get请求的爬取,本篇博文主要介绍的post请求方式的爬取
1 post的请求方式
1.1 post和get的区别
GET : 查询参数都会在URL上显示出来(例如:百度查询字段)
POST : 查询参数和需要提交数据是隐藏在Form表单⾥的,不会在URL地址上显示出来(例如:有道翻译)
1.2 post特点
POST 特点(1)在Request方法中添加data参数 (2)urllib.request.Request(url,data=data,headers=headers)
(3)data :表单数据以bytes类型提交,不能是str
2.利用request.urllib实现
2.1 寻找网页源代码翻译的位置
(1)右键-检查–> 查看源代码
(2)点击-Network–>查看运行状态
(3)在网页上方输入翻译的内容–如:你好–在Network界面找到translate起头的网址
(4)点开translate网址–查阅Form Data–> Form data 存储了所有查询需要的数据(其中i 是查询输入内容)
2.2 输入查询内容并转为字节流
# 把提交的form表单的数据转换为bytes类型的数据# 请输入你要翻译的内容key = input('请输入您要翻译的内容:')data = {'i': key,'from': 'AUTO','smartresult': 'dict','client': 'fanyideskweb','salt': '15880623642174','sign': 'c6c2e897040e6cbde00cd04589e71d4e','ts': '1588062364217','bv': '42160534cfa82a6884077598362bbc9d','doctype': 'json','version': '2.1','keyfrom':'fanyi.web','action': 'FY_BY_CLICKBUTTION'}data = urllib.parse.urlencode(data) # 把data转换十六进制data = bytes(data,'utf-8') # 把data转换成字节流
2.3 利用request.urllib实现请求
# 利用request.urllib实现请求url = '/translate?smartresult=dict&smartresult=rule' # 注意此处的url是Request URL,并且需要把_o去掉才能实现,否则返回的html是{"errorCode":50}headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36'}req = urllib.request.Request(url,headers=headers,data=data) # headers是传入个人设置、data是输入数据response = urllib.request.urlopen(req)html = response.read().decode('utf-8')print(html,type(html))# 结果: {"type":"ZH_CN2EN","errorCode":0,"elapsedTime":1,"translateResult":[[{"src":"你好","tgt":"hello"}]]} <class 'str'>
2.4 美化输出结果
# html输出的结果较为不美观,并且为str,不是字典,不能通过关键字取出# 所以我们需将html转为字典,再进行取值import jsonr_dict = json.loads(html) # 把json类型的字符串转换为字典r = r_dict['translateResult'] # [[{"src":"name","tgt":"的名字"}]]result = r[0][0]['tgt'] # [{"src":"name","tgt":"的名字"}] -->{"src":"name","tgt":"的名字"}print(result) # 你好
3.利用requests实现
requests方法的实现直接采用requests.post()方法实现就好
# 利用requests方法import requestskey = input('请输入您要翻译的内容:')data = {'i': key,'from': 'AUTO','smartresult': 'dict','client': 'fanyideskweb','salt': '15880623642174','sign': 'c6c2e897040e6cbde00cd04589e71d4e','ts': '1588062364217','bv': '42160534cfa82a6884077598362bbc9d','doctype': 'json','version': '2.1','keyfrom':'fanyi.web','action': 'FY_BY_CLICKBUTTION'}url = '/translate?smartresult=dict&smartresult=rule' # 注意此处的url是Request URL,并且需要把_o去掉才能实现,否则返回的html是{"errorCode":50}headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36'}res = requests.post(url,data=data,headers=headers) # 采用post方法res.encoding = 'utf-8'html = res.textr_dict = json.loads(html)result = r_dict['translateResult'][0][0]['tgt']print(result)