
大数据
文章平均质量分 52
请叫我西木同学
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
一个获取大量文章标题标签的办法
数据 这是大量的论文文章的标题 思维方法 所谓标签指的就是有些共同的特征,所以不能局限于一个文章标题,要全局考虑 文章标题中很多停用词(stopwords)以及标点符号应该去除 ngram模型 有了上述条件就可以粗略的寻找文章的标签了 工具 使用python以及python的nltk自然语言处理库非常方便 这个是nltk中文文档 方法1原创 2018-02-12 12:15:28 · 1589 阅读 · 0 评论 -
将文章标题标签存入数据库
紧接着之前获取完文章标题标签完之后的操作 一个获取大量文章标题标签的办法 使用完nltk分词对文章标题分类之后 延续之前的思路开始实现 过程中遇到的一些问题 获取方法的问题 python方面 如果是采用方法1手写的ngram标签采集方法,那么可以很方便的获取词频以及标签 如果是方法2,Text.collocations()方法返回的是none 源码中可以很...原创 2018-02-13 00:43:34 · 561 阅读 · 0 评论 -
matplotlib sklearn数据降维可视化
matplotlib sklearn数据降维可视化 使用说明具体见官方的文档 https://scikit-learn.org/stable/modules/generated/sklearn.manifold.TSNE.html 这里挑选了一个简单的例子来重构成了一个方便调用的接口 %matplotlib inline # Author: Jake Vanderplas -- <vand...原创 2018-12-15 16:41:34 · 1548 阅读 · 0 评论