
NLP
文章平均质量分 90
面向未来的历史
这个作者很懒,什么都没留下…
展开
-
提取中文文本摘要
环境 python3, gensimfrom gensim.summarization.summarizer import summarizefrom pyltp import SentenceSplitterimport jiebatext="""巴西总统府当地时间7月22日早晨发布的消息称,已经确诊感染新冠肺炎两周的博索纳罗总统在21日进行的病毒检测中依然呈阳性。巴西总统府的公告称,博索纳罗目前保持良好状态。博索纳罗在本月5日出现新冠肺炎症状,6日病毒检测结果呈阳性,确诊患病。上周,确诊后的他又原创 2020-07-27 11:54:10 · 1066 阅读 · 0 评论 -
gensim中使用word2vec
训练语料由于自己在csdn的上传空间不够,暂时将语料放在百度云上 链接: https://pan.baidu.com/s/1qYKRXOo 密码: 4psr 文件名是 text8 或者在参考文章中下载。word2vec在mac os 上的安装下载word2vec源文件 http://download.youkuaiyun.com/detail/a1368783069/9585714 在终端直接 mak原创 2016-07-25 17:34:26 · 23005 阅读 · 14 评论 -
gensim中实践LDA
????from sklearn import datasetsnews_dataset=datasets.fetch_20newsgroups(subset="all",remove=("headers","footers","quotes"))documents=news_dataset.dataprint(documents[0])#"\n\nI am sure some bashers原创 2016-08-01 23:53:39 · 11542 阅读 · 1 评论 -
simhash文本相似度计算
常见文本相似度计算方法:1 向量空间模型VSM(Vector Space Model)。使用VSM计算相似度,先对文本进行分词,然后建立文本向量,把相似度的计算转换成某种特征向量距离的计算,比如余弦角、欧式距离、Jaccard相似系数等。这种方法存在很大一个问题:需要对文本两两进行相似度比较,无法扩展到海量文本的处理。 使用介绍可以参考 Corpora and Vector Spaces, 以及T原创 2016-08-03 21:07:59 · 3842 阅读 · 0 评论 -
fasttext: cannot load * due to c++ extension failed to allocate the memory
背景:使用fasttext开发意图识别(文本分类)功能,并使用python httpserver搭建意图识别服务。在测试环境是没有使用问题。但是将服务部署到线上环境,准备运行时。报错 :fasttext: cannot load * due to c++ extension failed to allocate the memory解决:在安装fasttext时,是直接使用 sudo ...原创 2019-01-03 17:49:12 · 1622 阅读 · 0 评论