利用Android源码，轻松实现汉字转拼音功能

今天和大家分享一个从Android系统源代码提取出来的汉字转成拼音实现方案，只要一个类，560多行代码就可以让你轻松实现汉字转成拼音的功能，且无需其他任何第三方依赖。

需求场景

实际开发过程中需要用到实现汉字转成拼音的场景比较常见，如：通讯录里的联系人字母导航栏，为没有设置头像的用户生成一个名字首字母的头像，国家（省份、城市）字母导航栏，搜索关键字转换成拼音等。

实现方案

Android平台上将汉字转换成为拼音已经有一些开源的第三方实现方案，如pinyin4j和TinyPinyin

pinyin4j：https://sourceforge.net/projects/pinyin4j
TinyPinyin：https://github.com/promeG/TinyPinyin

以上这两个实现方案，都需要引入不少类以及一些相应的编码文件，这里和大家介绍一个比上面两个方案还要精简的实现方案，只要560行代码且无需依赖于其他任何编文件的实现。这个类是从Android系统通讯录源码中提取的，类名为HanziToPinyin，其类文件路径如下：

/packages/providers/ContactsProvider/src/com/android/providers /contacts/HanziToPinyin.java

这是一个很独立的类，需要使用的项目直接拷贝到自己对应的工程里面即可使用，需要注意的是，我是在Android 4.2.2的系统源码中拷贝出来的，为什么选择4.2.2，一个是4.2.2之后（4.3开始）的HanziToPinyin不再可以独立使用，需要依赖于Transliterator，而这个类我们是无法直接引用的。而Android 2.x的HanziToPinyin在测试了很多转换的结果发现是错误的，所以选择了最后一个可以采纳使用的版本Android 4.2.2。

##如何使用 HanziToPinyin这个类的代码量非常少，结构也非常简单

下面简单的说明一下如何使用，非常简单，只需要把需要转换的汉字传入get方法即可获取返回的拼音结果

其返回的数据结构是一个HanziToPinyin.Token的ArrayList，HanziToPinyin.Token是HanziToPinyin中的一个公共静态外部类，其分别有type、source、target等三个成员变量，type是标识token的类型，有三种不同的取值1（拉丁文），2（拼音），3（未知），source是输入的中文，target则是中文转换后对应的拼音。这里还有一个细节需要注意一下，只拷贝HanziToPinyin在原生系统上使用是没有问题的，但是在国产手机的ROM上则无法正常使用，需要加上下面三行代码做适配：否则HanziToPinyin的初始化状态会设置错误，而导致无法实现汉字转换成拼音。

内部实现

了解完如何使用后，我们来简单窥探一下HanziToPinyin内部是如何实现的，先来看一下类中比较耀眼的两个数组UNIHANS和PINYINS（两个类很长，截图没截全，大家自己看代码吧）其中UNIHANS是一组汉字对应的unicode编码，而PINYINS则是UNIHANS中每个元素对应的拼音的ASCII码，如UNIHANS的第一个元素是\u963f，其对于的中文是阿，换成拼音则是A，而A对应的ASCII码用十进制表示则是65，对应的就是PINYINS的第一个数组中的第一个元素，至于为什么后面有5个0的元素，主要是因为汉字的拼音最长的有六个字母（例如：chuang），而阿只有一个a，所以后面的5个空位就需要用0来填充了。我们在调用get方法时将中文以String的形式传入，方法内部会遍历String中的每个元素，为其生成对应的Token，也就是我们最后拿到的那个ArrayList中的结果。所以最关键的实现是在getToken方法中，这里忽略getToken前面的30来行判断代码，直接看关键部分通过二分检索的方式，使用java.text.Collator的compare方法不断比对UNIHANS数组中与输入的汉字同音（注意：这里是同音不是完全相同）的字，最终获取其对应的在UNIHANS数组中的下标位置offset。前面我们提到UNIHANS和PINYINS是相互对应的，所以这里也能找到PINYINS中对应读音的一组ASCII码，通过int转换成char，再使用StringBuilder进行拼接，就可以获取对应的拼音了，实现思路上还是很简单清晰的。

性能和不足

在性能上，HanziToPinyin还是比较客观的，毕竟用了二分检索，在实际测试过程中丢了一篇5500多字的文章进行转换，只用了415ms；
在准确率上，拿了一堆人名和一个国家列表数据进行转换，随机抽取数据都没有发现出错的数据，但是按照这个类的实现上看，如果输入的汉字拼音不与UNIHANS中任何一个元素同音，则必然无法得到正确的结果，实际测试中，我随便拿了一些数据测试都没有得到不正确的结果输出，不知道得多生僻的字才能得出个错误结果；
HanziToPinyin这类并不支持多音字，所以如果一定要考虑多音字的问题，这个类就不适合了；

总结

关于HanziToPinyin就介绍到这里，我已经将这个类的代码我已经整理放在Gist上（ https://gist.github.com/huclengyue/b2286dafb3779e69a71cf57086a8553a ），需要的同学自取，如果HanziToPinyin不能满足你的需求，那可以考虑使用前面提到的pinyin4j和TinyPinyin。

需求场景#

实现方案#

内部实现#

性能和不足#

总结#

需求场景

实现方案

内部实现

性能和不足

总结