机器学习 day04(二)

最新推荐文章于 2022-01-09 14:36:48 发布

原创最新推荐文章于 2022-01-09 14:36:48 发布 · 259 阅读

CC 4.0 BY-SA版权

24 篇文章

订阅专栏

自然语言处理是语言学的一个分支，侧重于对人类语言的词法、语法、语句等的研究。在计算机领域，主要用来研究，如何让计算机处理、生成甚至理解人类的语言，并且多种语言的传统学习任务也逐将被机器所代替。

from  sklearn.feature_extraction import DictVectorizer

dvc = DictVectorizer()

在该数据中，city和landmark都是字符串类型的数据，不可以参与到运算，因此把city这一个属性
拆成了6个,把landmark一个属性拆成了6个，每个属性代表city挥着landmark的一个取值, 如果是具体的数字, 类型则不变

from sklearn import datasets

CountVectorizier模型，在进行训练的时候，首先会统计训练集上总共有多少种词汇，对每一种词汇都是一个特征（例如：上例中所有的训练数据中有155283种词汇，每一个词都是一个特征，一句话中如果出现了n次某种词汇，就会把该词汇对应的属性设置为n）

什么叫停用词呢?就是这个词语,在这句话中没有什么含义,那么这个词的特征就不出现了,这个特征就为0处理,这样会比上面不去掉停用词更加智能

模块安装

pip install nltk

用sklearn中的CountVectorizier和TfidVectorizier来进行特征提取

这两种方法的提取：就是把整个数据集上的所有的语句中的词汇设置成特征，然后将每一句话的单词出现的次数映射对应的词汇上

import nltk

在这里插入图片描述
调用一下tag.pos_tag()这个函数

词袋法,可以视作向量化技术,通过这种技术,可以对文本之间的内容进行一定度量. 如果对于两段文字来说,词袋法就表现的无能为力

查看新闻news的data
在这里插入图片描述

from bs4 import BeautifulSoup
import re
import nltk

如果没有安装bs4模块,使用命令pip下载

用nltk在线下载词法分析包

这个包的下载过程会有点耗时,因为内容很多
下载之后,可以根据路径查看一下
语法分析包有很多,一般情况下只分析英文,这里的news的内容也是英文的

在这里插入图片描述

在这里插入图片描述
5) 创建向量词转化模型

sentances参数, 要转化成向量词的语句
workers参数, 转化的时候用多少个cpu内核
size参数, 词向量的维度
min_count参数, 保证被考虑的词汇的频度
window参数, 定义训练词向量的上下文窗口大小
注意: 这个模型被创建出来以后就可以根据我们指定的参数来训练

model 的创建就伴随着训练,训练完以后,model中包含了一个300维的向量,
15w多种词汇量最终会根据相关程度合并到到300个维度中

在不是用语言学字典的前提下，词向量技术仍然根据上下文信息，来查找词汇之间相似性；这一技术，不仅节省的大量的专业人员的操作，而且可以作为一个模型的基本应用，也可以用到更加复杂的自然语言处理中