- 文本数据
- 停用词
- 语料中大量出现
- 没啥大用
- 留着过年嘛?
31.1 Tf-idf:关键词提取
- 《中国的蜜蜂养殖》: 进行词频(Term Frequency,缩写为TF)统计
- 出现次数最多的词是----“的” 、 “是” 、 “在”----这一类最常用的词(停用词)
- “中国” 、 “蜜蜂” 、 “养殖”这三个词的出现次数一样多,重要性是一样的?
- "中国"是很常见的词,相对而言,"蜜蜂"和"养殖"不那么常见
- “逆文档频率”(Inverse Document Frequency,缩写为IDF)
- 如果某个词比较少见,但是它在这篇文章中多次出现,那么它很可能就反映了这篇文章的特性正是我们所需要的关键词
- 如果某个词比较少见,但是它在这篇文章中多次出现,那么它很可能就反映了这篇文章的特性正是我们所需要的关键词
- 《中国的蜜蜂养殖》:假定该文长度为1000个词,“中国” 、 “蜜蜂” 、 “养殖”各出现20次,则这三个词的"词频"(TF)都为0.02
- 搜索Google发现,包含"的"字的网页共有250亿张,假定这就是中文网页总数。
- 包含"中国"的网页共有62.3亿张,包含"蜜蜂"的网页为0.484亿张,包含"养殖"的网页为0.973亿张
- 包含"中国"的网页共有62.3亿张,包含"蜜蜂"的网页为0.484亿张,包含"养殖"的网页为0.973亿张
31.2 相似度
- 相似度
- 句子A:我喜欢看电视,不喜欢看电影。
- 句子B:我不喜欢看电视,也不喜欢看电影。
- 分词:
- 句子A:我/喜欢/看/电视,不/喜欢/看/电影。
- 句子B:我/不/喜欢/看/电视,也/不/喜欢/看/电影。
- 语料库:
- 我,喜欢,看,电视,电影,不,也。
- 词频:
- 句子A:我 1,喜欢 2,看 2,电视 1,电影 1,不 1,也