NLP成长计划
文章平均质量分 70
NLP相关的学习笔记,在有了一定的数据挖掘、机器学习的基础之后,我开启了一段美妙的NLP的旅程。这个专栏将会一步步记录学习和实践的点点滴滴,预期会是一段漫长的故事集,我会将自己现在有的以及未来遇到的NLP成长路上的重要节点都记录下来。为自己记录,也为社区贡献一份力。
codes_first
这个作者很懒,什么都没留下…
展开
-
python使用tf-idf法判断文本关键词
论文的关键词有着其特殊的重要使命,首先当然是方便别人浏览,可以一目了然的知道论文论述的主题,从而决定是否要花费时间阅读正文,节约大家的时间;其次也是更重要的一点,能够方便论文的归类和搜索。所以对待任意一段文本,如果我们能快速得到它的关键词,也就能达到和论文一样的效果。本demo用python语言结合jieba分词库+urllib爬虫库+beautifulsoup的html分析工具实现了tf-idf法原创 2017-12-05 22:41:59 · 1944 阅读 · 1 评论 -
爬取百度对应词汇页面量
这次要分享的内容十分简单,但也可以算是我们以后写东西可能会经常用到的一个小工具,就是关于如何爬取百度文库对应某个词汇的词条数,也就是拥有的页面量。我们首先来看一下我们直接使用百度看到的情况: 如果我们手动输入“博物馆展览”,点击文库搜索,就能看到最底下有相关文档数量 这时候来看一下最上边的url: 说明了我们的请求是一个get请求,那接下来的爬虫就十分好弄,按照对应的格式把url改成我原创 2017-12-06 03:46:33 · 843 阅读 · 0 评论 -
NLP成长计划(一)
Getting Set Up需要安装的程序:Anaconda 5.0.1 Python 3.6https://www.anaconda.com/download/ -- Python 3.6 可以更好地处理文本数据 -- Anacond 收集了流行的libraries以及packages.XGboost安装XGBoost:conda install -c conda-forge...原创 2018-10-16 21:20:01 · 552 阅读 · 0 评论 -
NLP成长计划(二)
Setup假设您已经完成了(一)所需的设置。在本讲座中,我们将使用 Gensim和NLTK,这两个广泛使用的Python自然语言处理库。 如果我们想要能够对文本进行分类,我们需要能够根据文章、段落、句子和文本的其他主体所包含的信息以及它们所表示的内容来生成它们的特征。有很多方法可以做到这一点,我们将采用3种方法。Term-DocumentBag-of-Words...原创 2018-10-19 23:56:43 · 501 阅读 · 0 评论 -
NLP成长计划(三)
Setup假设您已经完成了(一)和(二)所需的设置。 Train-Validation-Test Split在开始在新数据集上拟合模型之前,您应该(并且尽量)将初始数据集划分为“训练集train“、“验证集validation”和“测试集test”。训练数据集为我们提供了一个让我们的模型学习的地方。验证数据集为我们提供了一种判断模型相对于其他潜在模型的性能的方法。测试数据集帮我们预...原创 2018-10-21 21:17:08 · 478 阅读 · 0 评论