
自然语言处理
taon1607
这个作者很懒,什么都没留下…
展开
-
词向量构造 - Tf-idf模型
前面我们总结过词袋模型,词袋模型将文本中所有不重复的词看作一个集合,然后对文本中的每句话进行编码。在句子中对于出现的词标记为1,未出现的词标记为0。这样我们就完成了对文本向量的编码,然后就可以调用机器学习模型来对其进行拟合。词袋模型解决了文本编码的问题,但词袋模型本身也存在着巨大的缺点。比如:词袋模型中向量只考虑词的出现频率,不考虑该词的具体含义;词袋模型构造的向量不考虑词出现的先后顺序;词袋模型构造的向量为稀疏矩阵,模型的效果非常有限。基于以上问题,Tf-idf模型出现了。1.Tf-idf(词频-逆文档原创 2020-08-22 17:29:29 · 2170 阅读 · 0 评论 -
词向量构造 - 词袋模型
对于机器学习任务而言,不管是什么类型的数据(语言,声音,图像,视频),都必须转化为数值型数据,一般均为向量或者矩阵。自然语言处理,经过了一个长期的发展过程,近几年取得了重大的突破。自然语言处理的突破主要得益于深度学习技术(自然语言处理专用算法)的进步以及计算机算力的提升(GPU并行计算)。这一小节,我们将介绍自然语言处理发展历史中的第一个模型 - 词袋模型。1.词袋模型(Bag of words)的定义词袋模型:顾名思义,就是把文章中的所有词语装入到一个袋子当中,装入袋子中的词语是没有重复的。下面用原创 2020-08-12 17:39:35 · 1617 阅读 · 0 评论 -
汉语词频统计
该案例以党的十九大报告为例,统计报告中各个词语出现的频率。总体步骤为读入文本,分词,词频统计。通过观察词语频率最高的几个词,我们就可以大致了解这份报告的主要内容。汉语中常见的停用词:我们,这里,但是,的,然而之类的词语,对于文章表达的主旨没有太大的影响。十九大报告链接:链接:https://pan.baidu.com/s/1xI91MdfXZzQ1Ibms9EEiAg提取码:ne3l#打开文件并读取文本内容f = open('D:\\py_dataset\\十九大报告.txt','r',enco原创 2020-07-13 17:58:40 · 2070 阅读 · 0 评论 -
英文词频统计
该案例以莎士比亚的四大悲剧之一《哈姆雷特》为例,来统计该文章中的词语出现的频率。总体的步骤为读入文本,大小写转换,特殊字符转换,分词,词频统计,排序。通过观察词语频率最高的几个词,我们大致可以了解该文章的主要内容。这一小节,我们没有涉及到英文文章中去停用词的操作。停用词:出现的频率很高,但对文章表达主旨没有太大影响的词。在英文文章中,如:I, and, but, here, there, some之类的词语等。文档链接:链接:https://pan.baidu.com/s/17ehiYKripA–noI原创 2020-06-23 13:07:38 · 1798 阅读 · 0 评论 -
第一节:Jieba分词
在我们的日常工作与学习当中,最常用的两种语言就是汉语和英语了。在做文本分析的时候,第一步都是分词。在英语文章中,每个词都是天然的用空格分开的,所以我们就不讨论英语的分词了。在汉语分词中,我们最常用的就是jieba分词分词库了。jieba是一款开源的分词工具包,广泛应用于文本分析,词云绘制,关键词提取,自然语言处理等领域。1.安装pip install jieba2.Jieba常用函数精确模式:精确的切分句子中的每个词语,没有冗余词。全模式:把所有可能的词语全部切分开,切分得到的词语是有冗余的。原创 2020-06-18 19:46:23 · 279 阅读 · 0 评论 -
自然语言处理概述(Natural Language Process)
近年来,人工智能逐渐成为了当前社会最热门的行业之一,也逐渐的进入了寻常百姓家。比如我们熟知的AlphaGo击败韩国围棋冠军李世石,小米的语音助手小爱同学,英国的智能机器人Sophia,喜马拉雅的小雅音响,Tesla的自动驾驶汽车等等。一方面我们在享受着人工智能带来的种种便利,一方面我们也在担心自己的工作会不会很快被人工智(Ai)能替代。其实在此我举一个Google translator的例子,这是2020年的翻译水平。学过历史的我们都知道林则徐虎门销烟这段历史,可是机器它不并知道,所以它翻译出来的结果是林原创 2020-06-17 14:26:33 · 1950 阅读 · 0 评论