
自然语言处理
不写代码的程序员~zs
这个作者很懒,什么都没留下…
展开
-
编程实现拉普拉斯修正的朴素贝叶斯分类器
朴素贝叶斯(Naive Bayes)原理+编程实现拉普拉斯修正的朴素贝叶斯分类器_Cyril_KI的博客-优快云博客转载 2021-09-17 21:21:13 · 743 阅读 · 0 评论 -
两个向量相似度计算
先将两个句子转换成向量。将向量用余弦公式计算相似度原创 2021-08-18 16:32:47 · 519 阅读 · 0 评论 -
把文字转换成向量
把文字转换成词向量有多种编码方式:大致分为两类,离散表示和分布式表示。离散表示即 无法衡量词与词之间的关系,即在编码过程中并不考虑词的顺序,分布式表示 即用一个词附近的其他词来表示这个词。离散:one-hot ,词袋模型(bag of words),N-gram分布式:共现矩阵,NNLM 神经网络语言模型,CBOW(continue bag of words)one-hot:把语料中的所有词列在一个词典中,每个词都有唯一的索引,在词典中的顺序与在语料中的顺序无关,如果词典 里有十个词..转载 2021-08-18 16:09:39 · 2597 阅读 · 0 评论 -
贝叶斯拼写纠错器
https://blog.youkuaiyun.com/sky_money/article/details/7957996转载 2021-08-17 19:28:59 · 106 阅读 · 0 评论 -
条件概率公式图解推导
https://blog.youkuaiyun.com/sinat_30353259/article/details/80958412?utm_medium=distribute.pc_aggpage_search_result.none-task-blog-2~aggregatepage~first_rank_v2~rank_aggregation-1-80958412.pc_agg_rank_aggregation&utm_term=%E6%9D%A1%E4%BB%B6%E6%A6%82%E7%8E%87%转载 2021-08-16 16:06:08 · 1139 阅读 · 0 评论 -
python实现词云
准备工作:安装好python环境;安装好以下库:wordcloud,numpy,matplotlib,jieba分词库,其它库随时用到再装。from matplotlib import pyplot as pltfrom wordcloud import WordCloudimport jiebafrom PIL import Imagefrom collections import Counterimport numpy as nptext_file = open('./data原创 2021-08-06 17:04:09 · 151 阅读 · 0 评论 -
jieba分词器
默认就是精确切分搜索引擎格式切分原创 2021-08-06 14:11:33 · 229 阅读 · 0 评论 -
spacy进行命名实体识别
英文文本:import spacynlp = spacy.load('en_core_web_sm')doc_2 = nlp('Weather is good, very windy and sunny.We have no classes in afternoon')for ent in doc_2.ents: print('{}--{}'.format(ent,ent.label_))from spacy import displacydoc = nlp('Weather i.原创 2021-08-06 10:35:35 · 2715 阅读 · 3 评论 -
spacy介绍
安装spacy pycharm的terminal中pip install spacy或者Anaconda下的Anaconda prompt下 pip install spacy安装英文处理包Anaconda或python路径下加载包安装中文处理包加载包实例:spacy官网地址:spaCy · Industrial-strength Natural Language Processing in Pythonhttps://...原创 2021-08-06 10:22:23 · 732 阅读 · 0 评论 -
数据清洗实例
在自然语言处理中,往往我们拿到一份数据,不能直接使用,需进行预操作,把数据转化成我们需要的样子。下面介绍一下基本的数据清洗操作:代码:import refrom nltk.corpus import stopwordss = ' RT @Amila #Test\nTom\'s newly listed Co & Mary\'s unlisted Group to supply tech for nlTK.\nh $TSLA $AAPL http://t.co/x原创 2021-08-06 10:05:49 · 564 阅读 · 0 评论 -
ICTCLAS 汉语词性标注集
ICTCLAS 汉语词性标注集 - bbking - 博客园 (cnblogs.com)转载 2021-08-03 15:05:11 · 299 阅读 · 0 评论 -
Windows下Pycharm中引入CRFPP出错解决
1.错误信息import CRFPPModuleNotFoundError: No module named 'CRFPP'显示没有名为CRFPP的模块,此处需要自己编译得到2.解决办法此处需使用Linux下的crf++0.58和Windows下crf++0.58 分别下载下来解压进入到Linux版目录下的python目录下目录如下:此时需要从Windows版crf++中复制几个文件到此目录下在安装的时候,系统需要crfpp.h, crfpp.lib和...原创 2021-07-28 10:03:46 · 1050 阅读 · 0 评论 -
自然语言处理-关键字提取(1)-TF-IDF算法
1.算法简介TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF是词频(Term Frequency),IDF是逆文本频率指数(Inverse Document Frequency)。广泛用于Lucene,Solr,Elasticserach等搜索引擎,以及自然语言处理,文本关键字的提取。2.算法分析以以上文本为例:说到关键字的提取,读者们第一个想到的就是找出现频次最高的词语,不过反复出现的词语原创 2021-07-23 14:59:07 · 908 阅读 · 1 评论 -
Hanlp工具安装问题解决(windows)
1.电脑需先安装配置好jdk,版本>=1.82.安装JPype 命令:pip install jpype13.安装pyhanlp pip install pyhanlp 如出现报错Miscrosoft Visual C++ 14.0 is required... 则安装vsC++链接:https://pan.baidu.com/s/1JP4Ahb4A3rLXDsomptQ9kg...原创 2021-07-23 11:10:05 · 295 阅读 · 1 评论 -
自然语言处理(1)- NLP简介
1.概念自然语言处理( Natural Language Processing, NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分原创 2021-07-22 13:57:37 · 1899 阅读 · 1 评论