1000字范文,内容丰富有趣,学习的好帮手!
1000字范文 > python实现txt文本数据分类——中英文分类

python实现txt文本数据分类——中英文分类

时间:2020-12-14 19:23:15

相关推荐

python实现txt文本数据分类——中英文分类

最近在做自然语言处理的数据预处理部分——实体词,提取、抓取的数据集中包含中英文,那么我们只需要英文,不需要中文,于是就写了一个简单的脚本实现txt文本数据分类。

原数据如下(为了写这篇博客特意只提取了数据的一部分):

代码如下:

file_open = open(r'C:\Users\Administrator\Desktop\words.txt', 'r', encoding='gbk')lines = file_open.readlines()A = set()B = set()for line in lines:B.add(line)for char in line:if u'\u4e00' <= char <= u'\u9fff':A.add(line)else:breakwith open('C:/Users/Administrator/Desktop/2.txt', 'w+') as f:for stu in A:print(stu)f.write("".join(stu))C = B - Awith open('C:/Users/Administrator/Desktop/3.txt', 'w+') as t:for stb in C:print(stb)t.write("".join(stb))

分类结果如下:

1、中文文本

2、英文文本

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。