0x00.前言
(原文发表在博客,欢迎访问
前一阵子参加了科赛的一个数据的比赛,涉及了自然语言处理(nlp)。所以写一个总结,解释一下词向量(word embedding)、word2vec模型以及词向量的构造。
0x01.词向量
就像图片编码处理后进行模型训练一样,我们也要对文本进行处理,把它抽象为一个矩阵或者向量。通常我们处理的不是一段话、一个句子,而是一个单词或词语。对其进行处理的目的是将单词或词语转化为对计算机友好的数据格式,我们把处理后的向量叫做词向量或词嵌入。
对词语的处理有两种方法,一种是将词语映射为一个独一无二的稀疏矩阵,类似于它的编号,这种方法叫做One-hot Representation。但是这种方法存在着“词汇鸿沟”现象与维度灾难。词汇鸿沟是指,单纯的看两个词语的特征向量,我们发现不了它们的任何联系,任何两个词语间都是孤立的。但是我们知道,看到两个词语的时候,我们可以清楚的认识到两个单词间的联系。
另一种方法是叫做distributed Representations,将单词抽象为词向量,每个词语都由一个多维的特征向量表示,我们可以通过计算余弦相似度比较两个词语间的联系。词向量的训练过程是无监督学习过程,我们只需要提供语料,比较流行的算法模型是word2vec。
0x02.word2vec及其模型
word2vec算法有两种重要模型Skip-gram(Continuous Skip-gram Model)与CBOW(Continuous Bag-of-Words Model),两个算法的区别是前者利用一个单词预测其上下文单词,而后者正相反,是从词语已知上下文中预测这一词语。
对于Skip-gram与CBOW模型,word2vec给出了两套实现框架,分别是Hierarchial Softmax和Negative Sampling。两种框架的区别在于,前者使用利用词语出现次数构造的哈夫曼树计算频率,而后者使用随机负采样,目的是提高训练速度与改善词向量质量。
对于CBOW模型,已知词语上下文Context(w)与词语w,目标函数可得如下对数似然函数:
而Skip-gram模型输入输出正相反,其目标函数为:
根据框架选择的不同,利用哈夫曼树或随机负采样可以得到概率,之后带入目标函数。
得到对数似然函数采用梯度下降法使其最大化。进行梯度计算及更新公式(学习率)。
0x03.使用gensim构造词向量
python没有叫做word2vec的库,我们使用得是gensim库。gensim在python中只实现了skip-gram算法,不过这并不影响我们使用。
1.语料收集
这里我的语料来自于题目所给的数据。有如下几个步骤
- 取出所有的字符
- 对符号、字母等过滤,得到只有汉字的一个txt文件
- 使用jieba对其进行分词,以空格相间
1) 字符清理
只保留汉字就可以了。
#coding:utf-8
import os
import re
# 输入文件 与 输出文件
output = open('output2.txt', 'w')
inp = open('log2.txt', 'r')
# 按行读取文件
for line in inp.readlines():
# 正则过滤
#ss = re.findall('[^\d\n\s*\r\u4e00-\u9fa5]', line)
p = re.compile(ur'[\u4e00-\u9fa5]+')
#ss = re.findall('[^a-zA-Z]', line)
ss = p.findall(unicode(line, "utf-8"))
# 写入输出文件
output.write("".join(ss).encode("utf-8"))
output.write('\n')
# 关闭文件
inp.close()
output.close()
2) jieba分词
jieba对汉语分词效果很好,想要进一步了解可以查看官方文档。
#coding:utf-8
import jieba
# 多线程、本机支持不好就禁用了
#jieba.enable_parallel()
# 相邻词语间隔
space = ' '
# 输入文件 与 输出文件
output = open('words.txt', 'w')
inp = open('output.txt', 'r')
for line in inp.readlines():
# jieba分词
seg_list = jieba.cut(line)
# 写入输出文件
output.write(space.join(seg_list) + '\n')
# 关闭文件
inp.close()
output.close()
2.训练模型
#coding:utf-8
import logging
import os.path
import sys
import multiprocessing
from gensim.corpora import WikiCorpus
from gensim.models import Word2Vec
from gensim.models.word2vec import LineSentence
# 输入文件
inp = 'words3.txt'
outp1 = 'web_words.model'
outp2 = 'web_words.vector'
# Word2Vec函数的参数:
# size 表示特征向量维度,默认100
# window 表示当前词与预测词在一个句子中的最大距离
# min_count 词频少于min_count次数的单词会被丢弃掉, 默认值为5
model = Word2Vec(LineSentence(inp), size=400, window=5, min_count=5,\
workers=multiprocessing.cpu_count())
# 默认格式model
model.save(outp1)
# 原始c版本model
model.wv.save_word2vec_format(outp2, binary=False)
3.基本使用
训练好模型进行的小测试,感觉很不错。
#coding:utf-8
import gensim
# 编码格式
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
# 加载模型
model = gensim.models.Word2Vec.load('web_words.model')
# 特征向量维度
size = model.vector_size
# 单词的向量
v = model[