1000字范文,内容丰富有趣,学习的好帮手!
1000字范文 > 学点实用工作小技巧【Python】汉字转拼音 繁体字和简体字互转 提取字符串中的中文(

学点实用工作小技巧【Python】汉字转拼音 繁体字和简体字互转 提取字符串中的中文(

时间:2019-10-18 01:40:02

相关推荐

学点实用工作小技巧【Python】汉字转拼音 繁体字和简体字互转 提取字符串中的中文(

大家早上好,本人姓吴,如果觉得文章写得还行的话也可以叫我吴老师。欢迎大家跟我一起走进数据分析的世界,一起学习!

感兴趣的朋友可以关注我或者我的数据分析专栏,里面有许多优质的文章跟大家分享哦。

前言

又到了每周末知识分享环节。今天想给大家分享的是我最近刚好碰到的一些知识点,主要是对于中英文文本的一些具体的处理。

本文真的干货满满,希望大家有所收获,现在用不着也可以先收藏起来,等后面用到了就来这里Ctrl+F一下,很实用哦。

目录

前言1 判断字符串是否纯中文2 判断字符串是否纯英文3 提取字符串中的中文4 提取字符串中的英文5 汉字转拼音6 繁体字和简体字互相转换简体转繁体繁体转简体结束语

1 判断字符串是否纯中文

这里主要就是利用到了中文(基本汉字)在Unicode编码中的范围:\u4e00-\u9fa5,如果有一个字符不在这个范围,则说明该字符串不是纯中文。

def judge_pure_chinese(key_str):for c in key_str:if not ('\u4e00' <= c <= '\u9fa5'):return Falsereturn True

这里贴上常见字符的Unicode编码的范围:

(图源网络)

2 判断字符串是否纯英文

这里判断英文的话同样也可以用上述判断纯中文的办法,不过下面这种也可以哦,主要是利用到了英文单词在Unicode中的范围就是acsii码中的前英文字母,即在unicode的前128种。

def judge_pure_english(key_str):return all(ord(c) < 128 for c in key_str)

3 提取字符串中的中文

这里主要是用到了re模块种的sub方法,将非中文部分除去。

import redef extract_pure_chinese(key_str):return re.sub("[^\u4e00-\u9fa5]", "", key_str)

4 提取字符串中的英文

同上。

import redef extract_pure_english(key_str):return re.sub("[^A-Za-z]", "", key_str)

5 汉字转拼音

# 汉字转拼音,但是多音字不好区分(例如“美的”的拼音为meide)import pypinyindef chinese2pinyin(key_str):result_str = ''for s in pypinyin.pinyin(key_str, style=pypinyin.NORMAL): # style=pypinyin.NORMAL表示不带声调result_str += ''.join(s)return result_str

6 繁体字和简体字互相转换

简体转繁体

def simplified2traditional(key_str):""" 将key_str中的简体字转为繁体字:param key_str: str, 需要做简繁体转换的字符串:return: str, key_str对应的繁体字"""return zhconv.convert(key_str, 'zh-hant')

繁体转简体

def traditional2simplified(key_str):""" 将key_str中的繁体字转为简体字:param key_str: str, 需要做简繁体转换的字符串:return: str, key_str对应的简体字"""return zhconv.convert(key_str, 'zh-hans')

结束语

看完这篇,还有更多知识点分享给你哦,自己慢慢找哈,就在下面链接。

推荐关注的专栏

👨‍👩‍👦‍👦机器学习:分享机器学习实战项目和常用模型讲解

👨‍👩‍👦‍👦数据分析:分享数据分析实战项目和常用技能整理

往期内容回顾

💚学习Python全套代码【超详细】Python入门、核心语法、数据结构、Python进阶【致那个想学好Python的你】

❤️学习pandas全套代码【超详细】数据查看、输入输出、选取、集成、清洗、转换、重塑、数学和统计方法、排序

💙学习pandas全套代码【超详细】分箱操作、分组聚合、时间序列、数据可视化

💜学习NumPy全套代码【超详细】基本操作、数据类型、数组运算、复制和试图、索引、切片和迭代、形状操作、通用函数、线性代数

关注我,了解更多相关知识!

CSDN@报告,今天也有好好学习

学点实用工作小技巧【Python】汉字转拼音 繁体字和简体字互转 提取字符串中的中文(英文) 判断是否纯中文(英文)

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。