
文本挖掘
Seal_Wings
日常问题解决方法整理。
展开
-
文本挖掘理论(三)
阅读中会使用的数据:deck.csv数据百度云链接提取码:6qsycards.csv数据百度云链接提取码:fnqd读书与代码实现片段整理笔记R语言入门与实践&R语言基础提取码:o2sq...原创 2019-12-04 18:21:26 · 604 阅读 · 0 评论 -
文本挖掘理论(二)
# -*- coding: utf-8 -*-'''02 feature_engineering===分词与词性标注=====分词基本方法==基于词典的方法 最大匹配法:利用索引加速,正向/逆向【汉语更有效】/双向最大匹配,最佳匹配(词典中的单词按照他们在文本种出现频次的大小)、联想-回溯法 最大概率法:(1)一个待切分的汉字串可能包含多种分词结果(2)将其中概率最大的那个作为该...原创 2019-12-03 23:27:55 · 475 阅读 · 0 评论 -
文本挖掘理论(一)
# -*- coding: utf-8 -*-'''01 introduction语言难点:文本不是给计算机阅读的复杂的语言结构(语法、语义、语用)歧义(更困难的)多语言KDD算法难点海量(大规模的数据集)高维时效性(随时间变化的数据和知识)噪音数据挖掘出的模式的可理解性'''...原创 2019-12-03 23:25:45 · 624 阅读 · 0 评论