
人工智能
文章平均质量分 94
。。。
ZeroHeroX
这个作者很懒,什么都没留下…
展开
-
机器学习与特征提取(初级)---scikit-learn
数据集的获取及使用,特征工程,TF-IDF ,scikit-learn,字典特征提取,文本特征提取原创 2022-10-20 12:09:19 · 593 阅读 · 0 评论 -
Python中文分词神器---jieba
相比英语等语言,用中文写成的文章往往更难分词。英语文章可以用空格来进行单次的区分,而中文词组则连成一片。让机器将中文词组分离的难度远大于在文言文分词题挣扎的我们,而Python的第三方库jieba就是用来处理这个问题的,让机器也能分离中文词组。相比于其他免费中文分词库,jieba是更加成熟的。像是公司名,地名,这类词也能够被jieba识别出来。新词的含义是指在训练jieba时,没有出现在数据集中的词。新词识别基于Viterbi算法。开发者可以指定自己自定义的词典,以便包含jieba词库里没有的词。原创 2022-10-19 14:58:57 · 2481 阅读 · 0 评论