利用Android源码，轻松实现汉字转拼音功能

2018-07-08 7 min

今天和大家分享一个从 Android 系统源代码提取出来的汉字转成拼音实现方案，只要一个类，560 多行代码就可以让你轻松实现汉字转成拼音的功能，且无需其他任何第三方依赖。

需求场景

实际开发过程中需要用到实现汉字转成拼音的场景比较常见，如：通讯录里的联系人字母导航栏，为没有设置头像的用户生成一个名字首字母的头像，国家（省份、城市）字母导航栏，搜索关键字转换成拼音等。

实现方案

Android 平台上将汉字转换成为拼音已经有一些开源的第三方实现方案，如 pinyin4j 和 TinyPinyin

pinyin4j：https://sourceforge.net/projects/pinyin4j
TinyPinyin: https://github.com/promeG/TinyPinyin 以上这两个实现方案，都需要引入不少类以及一些相应的编码文件，这里和大家介绍一个比上面两个方案还要精简的实现方案，只要 560 行代码且无需依赖于其他任何编文件的实现。这个类是从 Android 系统通讯录源码中提取的，类名为 HanziToPinyin，其类文件路径如下： /packages/providers/ContactsProvider/src/com/android/providers /contacts/HanziToPinyin.java
这是一个很独立的类，需要使用的项目直接拷贝到自己对应的工程里面即可使用，需要注意的是，我是在 Android 4.2.2 的系统源码中拷贝出来的，为什么选择 4.2.2，一个是 4.2.2 之后（4.3 开始）的 HanziToPinyin 不再可以独立使用，需要依赖于 Transliterator，而这个类我们是无法直接引用的。而 Android 2.x 的 HanziToPinyin 在测试了很多转换的结果发现是错误的，所以选择了最后一个可以采纳使用的版本 Android 4.2.2。 ##如何使用 HanziToPinyin 这个类的代码量非常少，结构也非常简单下面简单的说明一下如何使用，非常简单，只需要把需要转换的汉字传入 get 方法即可获取返回的拼音结果其返回的数据结构是一个 HanziToPinyin.Token 的 ArrayList，HanziToPinyin.Token 是 HanziToPinyin 中的一个公共静态外部类，其分别有 type、source、target 等三个成员变量，type 是标识 token 的类型，有三种不同的取值 1（拉丁文），2（拼音），3（未知），source 是输入的中文，target 则是中文转换后对应的拼音。这里还有一个细节需要注意一下，只拷贝 HanziToPinyin 在原生系统上使用是没有问题的，但是在国产手机的 ROM 上则无法正常使用，需要加上下面三行代码做适配：否则 HanziToPinyin 的初始化状态会设置错误，而导致无法实现汉字转换成拼音。

内部实现

了解完如何使用后，我们来简单窥探一下 HanziToPinyin 内部是如何实现的，先来看一下类中比较耀眼的两个数组 UNIHANS 和 PINYINS（两个类很长，截图没截全，大家自己看代码吧）其中 UNIHANS 是一组汉字对应的 unicode 编码，而 PINYINS 则是 UNIHANS 中每个元素对应的拼音的 ASCII 码，如 UNIHANS 的第一个元素是\u963f，其对于的中文是阿，换成拼音则是 A，而 A 对应的 ASCII 码用十进制表示则是 65，对应的就是 PINYINS 的第一个数组中的第一个元素，至于为什么后面有 5 个 0 的元素，主要是因为汉字的拼音最长的有六个字母（例如：chuang），而阿只有一个 a，所以后面的 5 个空位就需要用 0 来填充了。我们在调用 get 方法时将中文以 String 的形式传入，方法内部会遍历 String 中的每个元素，为其生成对应的 Token，也就是我们最后拿到的那个 ArrayList 中的结果。所以最关键的实现是在 getToken 方法中，这里忽略 getToken 前面的 30 来行判断代码，直接看关键部分通过二分检索的方式，使用 java.text.Collator 的 compare 方法不断比对 UNIHANS 数组中与输入的汉字同音（注意：这里是同音不是完全相同）的字，最终获取其对应的在 UNIHANS 数组中的下标位置 offset。前面我们提到 UNIHANS 和 PINYINS 是相互对应的，所以这里也能找到 PINYINS 中对应读音的一组 ASCII 码，通过 int 转换成 char，再使用 StringBuilder 进行拼接，就可以获取对应的拼音了，实现思路上还是很简单清晰的。

性能和不足

在性能上，HanziToPinyin 还是比较客观的，毕竟用了二分检索，在实际测试过程中丢了一篇 5500 多字的文章进行转换，只用了 415ms；
在准确率上，拿了一堆人名和一个国家列表数据进行转换，随机抽取数据都没有发现出错的数据，但是按照这个类的实现上看，如果输入的汉字拼音不与 UNIHANS 中任何一个元素同音，则必然无法得到正确的结果，实际测试中，我随便拿了一些数据测试都没有得到不正确的结果输出，不知道得多生僻的字才能得出个错误结果；
HanziToPinyin 这类并不支持多音字，所以如果一定要考虑多音字的问题，这个类就不适合了；

总结

关于 HanziToPinyin 就介绍到这里，我已经将这个类的代码我已经整理放在 Gist 上（https://gist.github.com/huclengyue/b2286dafb3779e69a71cf57086a8553a），需要的同学自取，如果 HanziToPinyin 不能满足你的需求，那可以考虑使用前面提到的 pinyin4j 和 TinyPinyin。