Chinese Word Vectors 是一个开源的中文词向量项目,提供了100多种不同类型的中文词向量,涵盖了不同的表示方式、上下文特征和训练语料。该项目为中文自然语言处理研究者和开发者提供了丰富的预训练词向量资源。
项目技术架构
词向量表示方式
项目提供两种核心的词向量表示方法:
稠密向量表示 基于Skip-Gram with Negative Sampling (SGNS)方法训练,生成300维的低维实向量,适用于大多数通用NLP任务。
稀疏向量表示
采用Positive Pointwise Mutual Information (PPMI)方法训练,以稀疏方式表示特征,特别适合处理低频词和特定领域的语义分析。
上下文特征体系
项目支持多种上下文特征组合:
- 词特征:基于词-词共现统计信息
- N元组特征:引入词-N元组共现信息
- 字特征:利用汉字承载的语义信息
训练参数配置
项目采用标准化的训练参数:
- 窗口大小:5
- 动态窗口:是
- 子采样率:1e-5
- 低频词阈值:10
- 迭代次数:5
- 负采样数:5
语料资源体系
项目整合了多元化的中文语料库:
综合性百科数据
- 数据大小:4.1G
- 词数量:745M
- 词汇量:5422K
中文知识库
- 数据大小:1.3G
- 词数量:223M
- 词汇量:2129K
新闻资讯
- 数据大小:3.9G
- 词数量:668M
- 词汇量:1664K
网络新闻
- 数据大小:3.7G
- 词数量:649M
- 词汇量:1226K
金融新闻
- 数据大小:6.2G
- 词数量:1055M
- 词汇量:2785K
问答社区
- 数据大小:2.1G
- 词数量:384M
- 词汇量:1117K
社交媒体
- 数据大小:0.73G
- 词数量:136M
- 词汇量:850K
文学作品
- 数据大小:0.93G
- 词数量:177M
- 词汇量:702K
综合语料
- 数据大小:22.6G
- 词数量:4037M
- 词汇量:10653K
古籍文献
- 数据大小:1.5G
- 词数量:714M
- 词汇量:21.8K
评测体系
项目提供了完整的中文词向量评测工具和数据集:
CA8词类比评测集
CA8是专门为中文设计的词类比任务数据集,包含17813个词类比问题,涵盖全面的语法和语义关系。
语法问题(CA8-Mor)
- 问题数量:10177个
- 基于重叠和半词缀两种关系构建
语义问题(CA8-Sem)
- 问题数量:7636个
- 分为4个大类和28个子类
使用指南
词向量文件格式
预训练词向量文件采用文本格式:
- 每行包含一个词及其对应向量
- 值之间用空格分隔
- 文件第一行记录元信息:词总数和向量维度
评测工具使用
稠密向量评测 运行以下命令评测稠密向量:
python ana_eval_dense.py -v <vector.txt> -a CA8/morphological.txt
python ana_eval_dense.py -v <vector.txt> -a CA8/semantic.txt
稀疏向量评测 运行以下命令评测稀疏向量:
python ana_eval_sparse.py -v <vector.txt> -a CA8/morphological.txt
python ana_eval_sparse.py -v <vector.txt> -a CA8/semantic.txt
应用场景
Chinese Word Vectors 的词向量可广泛应用于:
- 文本分类:利用词向量进行文本特征提取
- 情感分析:捕捉文本的情感倾向
- 机器翻译:作为翻译模型的输入特征
- 问答系统:帮助系统理解用户问题语义
- 信息检索:优化搜索算法的相关性计算
项目特色
资源丰富性 提供100+种不同类型的中文词向量,满足多样化应用需求。
使用便捷性 预训练词向量下载后即可直接用于下游任务。
评估完整性 配套CA8评测数据集和评估工具,支持性能优化。
学术可靠性 基于前沿研究成果,确保技术质量和可靠性。
Chinese Word Vectors 项目为中文自然语言处理领域提供了宝贵的资源,无论是学术研究还是工业应用都具有重要价值。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考



