
学习
文章平均质量分 66
qq_42792935
希望自己以后不要这么傻,好好学习啊啊啊啊!
展开
-
python作业|齐夫定律、平均多义性
题目(1):P82.第23题. 齐夫定律:f(w)是自由文本中词w的频率。假设一个文本中的所有词都按照它们的频率排名,频率最高的排在最前面。齐夫定律指出一个词类型的频率与它的排名成反比(即f*r=k,k是某个常数)。例如:最常见的第50个词类型出现的频率应该是最常见的第150个词类型出现频率的3倍。 a) 写一个函数来处理一个大文本,使用pylab.plot画出相对于词的排名的词的概率,你认可齐夫定律吗?(提示:使用对数刻度会有帮助。)所绘的线的极端情况是怎样的? b) 随机生成文本,如:使用random.原创 2020-06-03 10:24:17 · 1292 阅读 · 0 评论 -
pyhanlp的使用(在python里调用hanlp分词包)
Pyhanlp的使用(在python里调用hanlp分词包) 这是我第一次写博客,写的不好,请多多见谅。 1.在python下安装pyhanlp sudo pip install pyhanlp 详见pyhanlp官方文档链接:https://pypi.org/project/pyhanlp/0.1.26/ 2.pyhanlp的一些使用方法 (1)Hanlp.segment的使用。 fro...原创 2018-07-26 19:59:42 · 16011 阅读 · 5 评论 -
使用crf++工具进行分词训练
1.将语料处理成CRF++工具要求的格式 train.txt的格式如下: (使用4tab,BEMS,字与标注之间以“\t”间隔,一个字一行。当然,这里还涉及到将空格切分的文本处理成标签的问题。可参考:https://blog.youkuaiyun.com/juanjuan1314/article/details/78892855) 迈 B 向 E 充 B 满 E 希...原创 2019-08-15 14:35:46 · 545 阅读 · 1 评论