
语言文字
文章平均质量分 58
foamflower
紫色魅影——翠菊:一年的生命,短暂的相遇;花开花落,缘聚缘散;正因这短暂,更让人珍惜!
有的注定没有选择的权力,唯有面对;重新认识,update 自己。。。
展开
-
Unicode字符编码分布表――语言文字类
Unicode字符编码分布表――语言文字类欧洲字母非洲文字印度文字东亚文字中亚文字(查阅组合·标记字符)埃塞俄比亚文字孟加拉字符(U+0980 – U+09FF)汉字Kharoshihi(U+10A00 – U+10A5F)亚美尼亚文字转载 2010-05-19 14:01:00 · 2026 阅读 · 0 评论 -
人民日报1998年中文标注语料库及读取代码
<br />人民日报 1998 年中文标注语料库及读取代码 <br />代码作者:肖波 <br />语料库:北京大学计算语言学研究所和富士通研究开发中心有限公司 <br />PFR人民日报标注语料库(版本1.0,下面简称PFR语料库)是在得到人民日报社新闻信息中心许可的条件下,以1998年人民日报语料为对象,由北京大学计算语言学研究所和富士通研究开发中心有限公司共同制作的标注语料库。该语料库对600多万字节的中文文章进行了分词及词性标注,其被作为原始数据应用于大量的研究和论文中。<br />由于该语料库是以转载 2010-08-30 22:33:00 · 3628 阅读 · 0 评论 -
pinyin4j学习笔记
最近在倒腾与搜索相关的拼音检查技术,顺便看了一下中文转拼音开源插件pinyin4j的源码,参考资料:http://blog.youkuaiyun.com/hfhwfw/archive/2010/11/23/6030816.aspx整理了一下笔记:pinyin4j是一个支持将简体和繁体中文转换到成拼音的Java开源类库,作者是Li Min (xmlerlimin@gmail.com)。1. pinyin4j的官方下载地址:http://sourceforge.net/projects/pinyin4j/files/,目原创 2011-02-26 13:40:00 · 9734 阅读 · 1 评论