
文本挖掘
文章平均质量分 67
Luban250
这个作者很懒,什么都没留下…
展开
-
英文维基百科Python查询API
问题描述维基百科语料库是做文本挖掘和自然语言处理相关实验的一个非常重要的公开可获取大规模语料库(知识库),有时需要对其进行检索并对获取结果页面的相关信息,如正文文本、标题、页面文本长度等。一种常见的做法是把维基百科语料的dump下载到本机使用,但是这种做法对本机的性能(内存、硬盘)等有一定要求,并且要自己进行众多繁琐的预处理,如果要进行检索,则还需要在本地实现检索功能,显然需要的预处理工作量有点大。如果我们不是使用大规模维基百科语料进行模型训练(如预训练模型),那么可以参考维基百科提供的API接口快速调用原创 2021-08-08 16:49:31 · 1312 阅读 · 0 评论 -
PDF转TXT实现PDF文本抽取
问题描述在处理文本数据时,经常会遇到需要将PDF转换为txt的情况,在线转换工具在速度和数量上有限制,现成的免费可批量转换的易用软件比较少,怎么破,博主是在Ubuntu系统上处理数据,所以便想到了使用现成的linux工具,在命令行高效完成。解决办法Ubuntu下安装xpdf工具,命令如下:sudo apt-get update && sudo apt-get install -y xpdf其他unix系统的安装方法类似使用命令行将PDF转换为txt,命令如下:pdftotext原创 2021-04-20 19:17:08 · 497 阅读 · 0 评论 -
K-means文本聚类使用自定义距离函数
问题在使用K-means对文本聚类时,常用余弦距离,但是scikit-learn中的k-mean只支持欧氏距离,简单的解决办法就是将文本向量标准化(模长变为1),此时欧式距离与余弦距离是单调的,选择欧氏距离与选择余弦距离是等价的,需要注意的是余弦距离=1-余弦相似度,该解决方法详见博文《余弦距离与欧式距离》。但是,如果我们想在K-menas中使用自己定义的距离函数,该怎么办呢,计算文本相似度时,经常会遇到根据任务需求自定义相似度计算指标的情况哦,改scikit-learn的源代码或者自己实现一份支持自定义原创 2020-12-23 08:59:47 · 8413 阅读 · 7 评论 -
Python正则表达式字符替换时引用pattern
问题python中字符创替换操作通常使用replace函数,如果要批量将一些字符都进行统一替换呢,比如将标点符号都替换为PUNCT,此时大家会想到用正则表达式中的re.sub函数,更进一步,如果在替换时要求保留标点符号并在其两侧加上空格呢?泛化地说就是要求不删除被替换对象,而是在被替换对象本身进行一些修改,此时就需要在替换值参数中引用被替换对象,这就要用到pattern引用了,这么说太抽象,下面举例说明。解决方法使用正则表达式的向后引用功能即可,示例如下:import rere.sub(r'[_&原创 2020-09-05 16:05:34 · 1102 阅读 · 1 评论 -
Python java解决中文乱码问题,读取文本文件为乱码,编辑器打开正常
Python读取文本文件读取乱码,Java读取文本文件乱码,Python读取中文文本乱码,java读取中文文本乱码,程序读取文本文件乱码原创 2017-12-25 22:07:08 · 2686 阅读 · 0 评论 -
jieba分词增加自定义词表
在使用jieba分词时经常会发现一些未登录词,因此增加领域词表就变得很重要,下面提供增加几种途径:1、领域权威词汇字典2、搜狗输入法领域词库、百度输入法领域词库3、jieba分词提供的其他词典:点我查看jieba分词提供的其他字典然后这三种类型的用户此表取个并集即可,在Python中使用集合操作即可,例如,三种字典均为列表(listt),如下操作即可去除重复:set(u原创 2016-10-03 21:27:02 · 22019 阅读 · 0 评论 -
LDA必读的资料
一个大牛写的介绍,貌似需翻墙http://tedunderwood.wordpress.com/2012/04/07/topic-modeling-made-just-simple-enough/David M.Blei主页:http://www.cs.princeton.edu/~blei/publications.html,上面有布雷最新的文章:Introduction to pr转载 2016-10-01 09:12:13 · 723 阅读 · 0 评论 -
用 LDA 做主题模型:当 MLlib 邂逅 GraphX
转载: http://blog.jobbole.com/86130/主题模型可以从一系列文章中自动推测讨论的主题。这些主题可以被用作总结和整理文章,也可以在机器学习流程的后期阶段用于特征化和降维。在Spark 1.3中,MLlib现在支持最成功的主题模型之一,隐含狄利克雷分布(LDA)。LDA也是基于GraphX上构建的第一个MLlib算法。在这篇博文中,我们概述LDA转载 2016-07-07 22:55:34 · 1033 阅读 · 0 评论 -
文本特征选择
转载:http://www.cnblogs.com/fengfenggirl/p/text_feature_selection.html在做文本挖掘,特别是有监督的学习时,常常需要从文本中提取特征,提取出对学习有价值的分类,而不是把所有的词都用上,因此一些词对分类的作用不大,比如“的、是、在、了”等停用词。这里介绍两种常用的特征选择方法:互信息 一个常用的方法转载 2016-06-14 20:46:37 · 2053 阅读 · 0 评论 -
python scikit-learn计算tf-idf词语权重
转载 :http://blog.youkuaiyun.com/liuxuejiang158blog/article/details/31360765 Python的scikit-learn包下有计算tf-idf的api,研究了下做个笔记1 安装scikit-learn包[python] view plain copys转载 2016-06-14 20:00:55 · 4035 阅读 · 2 评论 -
基本文本聚类方法
转自:http://blog.youkuaiyun.com/wangran51/article/details/7382258转自:http://hi.baidu.com/yaomohan/blog/item/e7b1c2c2516638110ef477cc.html经过N天的努力,我的第一个文本聚类小程序终于火热出炉了.真不容易啊,在网上看了很多程序才明白其中的核心原理。其实原理转载 2016-06-14 20:26:11 · 13120 阅读 · 0 评论 -
Python sklearn K-means算法及文本聚类实践
转载:http://www.ziliao1.com/Article/Show/B2F0AD01141F0D9ADC32D04B8A2AD6D1.htmlK-Means是常用的聚类算法,与其他聚类算法相比,其时间复杂度低,聚类的效果也还不错,这里简单介绍一下k-means算法,下图是一个手写体数据集聚类的结果。 基本思想 k-means算法需要事先指定簇的转载 2016-06-14 20:29:21 · 14502 阅读 · 1 评论