1000字范文,内容丰富有趣,学习的好帮手!
1000字范文 > python中使用正则表达式去除中文文本多余空格 英文之间的保留

python中使用正则表达式去除中文文本多余空格 英文之间的保留

时间:2021-07-07 09:15:11

相关推荐

python中使用正则表达式去除中文文本多余空格 英文之间的保留

需求

在pdf转为文本的时候,经常会多出空格,影响数据观感,因此需要去掉文本中多余的空格,而文本中的英文之间的正常空格需要保留,输入输出如下:

input:我今天 赚了 10 个亿,老百姓very happy。

output:我今天赚了10个亿,老百姓very happy。

代码

def clean_space(text):""""处理多余的空格"""match_regex = pile(u'[\u4e00-\u9fa5。\.,,::《》、\(\)()]{1} +(?<![a-zA-Z])|\d+ +| +\d+|[a-z A-Z]+')should_replace_list = match_regex.findall(text)order_replace_list = sorted(should_replace_list,key=lambda i:len(i),reverse=True)for i in order_replace_list:if i == u' ':continuenew_i = i.strip()text = text.replace(i,new_i)return text

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。