word2vec训练&IC分词(待)

最新推荐文章于 2025-09-06 09:26:50 发布

转载最新推荐文章于 2025-09-06 09:26:50 发布 · 148 阅读

0 ·

CC 4.0 BY-SA版权

原文链接：http://www.cnblogs.com/ying-chease/p/8630452.html

文章标签：

#python #java #人工智能

本文介绍了一个基于中文维基百科进行Word2Vec词向量训练的实验流程，包括下载并处理维基百科数据集、将繁体字转换为简体字、使用IC分词工具进行分词，最后通过Python脚本训练词向量。

参考http://www.52nlp.cn/%E4%B8%AD%E8%8B%B1%E6%96%87%E7%BB%B4%E5%9F%BA%E7%99%BE%E7%A7%91%E8%AF%AD%E6%96%99%E4%B8%8A%E7%9A%84word2vec%E5%AE%9E%E9%AA%8C

1、下周中文wiki资料zhwiki-latest-pages-articles.xml.bz2，1.5G左右

2、用 process_wiki.py处理XML压缩文件，将其转换为text文件，执行：python process_wiki.py zhwiki-latest-pages-articles.xml.bz2 wiki.zh.text

在windows上直接运行process_wiki.py可能会报'UnicodeEncodeError: 'gbk' codec can't encode character '\xf6''错误，解决方案：
在所有的 output = open(outp, 'w', encoding='utf-8') 里加上encoding='utf-8' 。

原因：网页及python的编码都是utf-8，在写进txt时Windows默认转码成gbk，遇到某些gbk不支持的字符就会报错。在打开文件时就声明编码方式为utf-8就能避免这个错误。

http://blog.youkuaiyun.com/vito21/article/details/53490435

3、繁体字转化位简体字，利用java的ChineseUtils架包完成

https://github.com/luhuiguo/chinese-utils

4、分词，使用java版的IC分词，产出文件 wiki.zh.jian.splitword.text

待补充，晚上分词工程

5、word2vec训练： python train_word2vec_model.py wiki.zh.jian.splitword.text wiki.zh.text.model wiki.zh.text.vector

转载于:https://www.cnblogs.com/ying-chease/p/8630452.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_30642029

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

【NLP】第9章匹配分词器和数据集

sikh_0529的博客

09-25

7893

我们探索了原始的 Transformer，微调了类似 BERT 的模型，训练了 RoBERTa 模型，探索了 GPT-3 模型，训练了 GPT-2 模型，实现了 T5 模型等等。从质量控制和风险管理的角度来看，标记不相关的数据集（太多无用的词或缺少关键词）会混淆嵌入算法并产生“糟糕的结果”。这是一个棘手的话题。在许多其他要应用的规则中，所描述的示例显示了获得可接受的现实项目数据集所需的大量工作。然而，我们发现，即使预训练的分词器已经处理了十亿个单词，它也只能创建一个字典，其中包含它遇到的一小部分词汇。

长文本理解：增强AI Agent的阅读能力

AI天才研究院

03-24

829

在当今信息爆炸的时代，每天都会产生海量的文本数据，如新闻报道、学术论文、小说、技术文档等。这些文本数据蕴含着丰富的信息，但要从中提取有价值的内容并非易事。AI Agent作为一种能够自动执行任务的智能程序，在处理这些长文本数据时面临着巨大的挑战。长文本理解的目的就是要让AI Agent具备像人类一样理解长文本的能力，能够准确地把握文本的主旨、提取关键信息、理解文本中的逻辑关系等。本文的范围主要涵盖长文本理解的基本概念、核心算法、数学模型、项目实战、实际应用场景等方面。

参与评论您还未登录，请先登录后发表或查看评论

基于wiki的中文语料进行word2vec模型训练

Mrhan的博客

08-23

3709

最近看了一篇NDSS会议上的一篇论文，有关web安全方向和nlp方向的，论文题目为《Game of Missuggestions: Semantic Analysis of Search-Autocomplete Manipulations》。正好自己也想学学nlp。为将来毕业做准备。。。也算一个小白。。看到论文使用了词向量word2vec算法，便去研究了一下算法原理。看了很多中英文博客，...

如何使用gensim来加载和使用词向量模型word2vec

qq_43391414的博客

07-07

2617

0.导入包 from gensim.models import keyedvectors 1.加载模型 w2v=keyedvectors.load_word2vec_format(os.path.join(root_path,"wiki_word2vec_50.bin"),binary=True) 2.查看可以对哪些词进行word2vec。 w2v.key_to_index 3.对一个词进行word2vec w2v["的"] 4.对多个词进行word2vec，可以传入一个列表。 w2v[["的"

【pytorch笔记】数据集的读取与使用

GentleCP的博客

06-15

1795

pytorch对数据集的读取方法，包含CV和NLP两类

基于python的Word2Vec从分词到训练数据集详解

热门推荐

TYOUKAI_的博客

09-09

1万+

利用gensim的Word2Vec训练原始语料。得到分词后的结果和训练出的语料集。

项目 | Word2Vec + LSTM 电商评论情感标签预测

wangfancy1的博客

08-03

3701

Word2Vec + LSTM 电商评论情感标签预测整体思路模型Word EmbeddingFocal LossMetric混淆矩阵Accuracy, Precision, Recall, F1实验原始数据Word2Vec嵌入预训练语料嵌入不考虑数据平衡问题代码预处理搭建模型可能的改进本科三年级课程大作业，做一个记录，欢迎吐槽。整体思路本实验中，目标解决的问题是：根据文本，预测句子总体情感特征。首先调用jieba包对句子进行分词，然后去除一些停用词、特殊文本（如纯数字、过短或过长词语），再去除出现频

python分词训练_RPA手把手——Python 词向量训练 + 聚类

weixin_36382534的博客

01-13

441

def __init__(self):self.csv_path = 'DouBanFilm_FanTanFengBao4.csv'self.txt_path = 'comment.txt'```## `首先提取 csv的评论列内容，到txt`1、读取txt评论内容def read_file(self):"""训练模型:return:"""# jieba.load_userdict(self.t...

一小部分机器学习算法小结: 优化算法、逻辑回归、支持向量机、决策树、集成算法、Word2Vec等...

weixin_30340617的博客

07-23

452

优化算法先导知识：泰勒公式 \[ f(x)=\sum_{n=0}^{\infty}\frac{f^{(n)}(x_0)}{n!}(x-x_0)^n \] 一阶泰勒展开： \[ f(x)\approx f(x_0)+f'(x_0)(x-x_0) \] 二阶泰勒展开： \[ f(x)\approx f(x_0)+f'(x_0)(x-x_0)+\frac{f''(x_0)}{2}(x-x_0)^2 \...

从零开始构建AI原生应用：自然语言处理入门指南

AI天才研究院

07-10

845

你有没有过这样的经历：对着Siri说“今天天气怎么样”，它立刻报出温度；或者用ChatGPT写论文大纲，它帮你理清思路？这些“听懂人话”的魔法，背后都藏着自然语言处理（NLP）的力量。本文将以“从零开始”为核心，用“教小孩说话”的类比拆解NLP的底层逻辑，通过可运行的代码示例和生活化的比喻，带您一步步构建第一个AI原生应用——电影评论情感分析器。无论你是编程新手还是AI爱好者，都能在本文中找到“从0到1”的清晰路径，学会让机器理解语言的“弦外之音”。

Java 和 Python 的执行方式有很大不同——Android学习

ban102055的博客

09-04

2185

特性PythonJava执行方式(解释执行)->(先编译后执行)是否需要编译否是环境需要 Python 解释器需要JDK(包含javac和java在Android Studio中不适用全自动，点击“Run”即可给你的建议：为了学习 Android 开发：直接使用。不要担心命令行，IDE 会帮你处理一切。专注于编写代码和理解 Android 的概念（如 Activity、生命周期）。为了单纯学习 Java 语法。

【TXT】用 Python 实现超漂亮的 HTML 两栏文本对比工具（支持行内差异高亮）

采菊东篱下，Python满乾坤！

09-05

1119

这个小工具虽然只有 300 多行代码，但却融合了文本处理、算法匹配、前端渲染和用户体验设计。它不仅实用，还能作为学习difflib和 HTML/CSS 布局的优秀范例。✅一句话总结：让文本对比不再枯燥，让差异“看得见”！也欢迎在评论区提出你的优化想法 😊。

Java 枚举通用接口设计与实现

sunnyday0426的博客

09-04

599

本文介绍了Java中枚举类型的通用接口设计方法。通过定义BaseEnumInterface接口，可以为枚举添加code和desc属性，并提供统一的静态操作方法，如根据code获取枚举实例、获取所有编码列表、验证编码有效性等。以GenderEnum为例，展示了枚举类如何实现该接口，并演示了通过接口提供的通用方法进行便捷操作。这种设计模式提高了代码复用性，使枚举操作更加规范统一。

【传奇开心果系列】Flet框架结合pillow实现的英文文字倒映特效自定义模板特色和实现原理深度解析

jackchuanqi的博客

08-30

1382

本文介绍了基于Flet框架和Pillow库实现的英文文字倒映特效模板。该模板支持自定义字体、文字颜色、背景颜色和倒影间距，通过透明度渐变处理实现逼真的倒影效果。适用于UI设计、广告宣传、创意设计等多种场景，具有灵活的参数配置和错误处理机制。项目依赖Flet和Pillow库，需要MISTRAL.TTF字体文件支持，提供了完整的安装说明和项目结构建议。该特效模板可帮助开发者快速创建具有视觉冲击力的文字倒影效果。

AI驱动的软件测试：革命性的自动化、缺陷检测与实验优化