
NLP
bingxiash
本人为AI爱好者,正在学习AI相关知识
展开
-
Gensim模块训练词向量
word2vec训练中文模型1.准备数据与预处理2.繁体转简体3.结巴分词4.模型训练5.模型测试1.准备数据与预处理首先需要一份比较大的中文语料数据,可以考虑中文的维基百科(也可以试试搜狗的新闻语料库)。中文维基百科的打包文件地址为https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2中文维基百科的数据不是太大,xml的压缩文件大约1G左右。首先用 process_wiki_data.py处理这个原创 2020-05-30 22:54:30 · 946 阅读 · 0 评论 -
cnn-text文本分类
cnn-text文本分类1.data_helpers文件2.text_cnn文件3.train文件4.eval文件1.data_helpers文件import numpy as npimport redef clean_str(string): """ Tokenization/string cleaning for all datasets except for SST. Original taken from https://github.com/yoonkim/CN原创 2020-05-31 20:09:36 · 533 阅读 · 2 评论 -
自然语言处理与文本表示
Word2Vec介绍原创 2020-05-29 13:03:49 · 753 阅读 · 0 评论 -
朴素贝叶斯实战
朴素贝叶斯实战一.朴素贝叶斯理论1.引言2.贝叶斯公式3. 用机器学习的视角理解贝叶斯公式4. 朴素贝叶斯(Naive Bayes),“Naive”在何处5. 实际工程trickstrick1:取对数trick2:转换为权重trick3:选取topk的关键词trick4:分割样本trick5:位置权重trick6:蜜罐二.朴素贝叶斯实战1 新闻分类:2.语言检测:一.朴素贝叶斯理论1.引言贝叶斯方法是一个历史悠久,有着坚实的理论基础的方法,同时处理很多问题时直接而又高效,很多高级自然语言处理模型也可以原创 2020-05-08 19:50:43 · 769 阅读 · 2 评论 -
NLP基础2-jieba中文处理
1.基本分词函数与用法jieba.cut 以及 jieba.cut_for_search 返回的结构都是一个可迭代的 generator,可以使用 for 循环来获得分词后得到的每一个词语(unicode)jieba.cut 方法接受三个输入参数:需要分词的字符串cut_all 参数用来控制是否采用全模式HMM 参数用来控制是否使用 HMM 模型jieba.cut_for_search...原创 2020-05-06 15:26:34 · 909 阅读 · 0 评论 -
NLP基础1-python字符串操作和正则表达式
1.正则表达式规则原创 2020-04-30 12:53:44 · 321 阅读 · 0 评论