
BigData
文章平均质量分 50
vivianking68
今日事今日毕,生命经不起等待!!
展开
-
爬虫学习之路 - 开篇
简介理论上来说,任何支持网络通信的语言都是可以写爬虫的,爬虫本身虽然语言关系不大,。但是,总有相对顺手、简单的。目前来说,大多数爬虫是用后台脚本类语言写的,其中python无疑是用的最多最广的,并且页诞生了很多优秀的库和框架,如scrapy、BeautifulSoup 、pyquery、Mechanize等。但是一般来说,搜索引擎的爬虫对爬虫的效率要求更高,会选用c++、java、go...原创 2018-03-09 10:22:53 · 678 阅读 · 0 评论 -
舆情分析 - JD数据抓取优化
JD数据抓取优化我们期望是在文件中指定制定产品信息和表名,程序可以依据这些信息自动抓取到对应的表中。方案我们的想法是:定义config.json文件存放产品信息和表名PySpider Project文件负责定时抓取封装Operation基类负责解析网页和存储1. config.jsonconfig文件信息如下:{ "configs": [ {...原创 2018-03-09 10:28:49 · 1234 阅读 · 3 评论 -
舆情分析 - JD数据翻页抓取
JD数据翻页抓取前面已经做到评论分页抓取。但是JD搜索出的产品通常不止一页,我们也要对产品进行分页获取。然后在对每个产品进行分页抓取评论。实践index_page: 在这里进行搜索分页判断,如果有多个页面就 for i in range(1, int(page)) 来循环抓取detail_page: 这里是详情页面,跟之前的相比,优化了评论页数的判断。因为JD评论大于6页,...原创 2018-03-09 10:28:21 · 759 阅读 · 0 评论 -
舆情分析 - jieba分词
环境python 2.7 + pycharm, windows 环境python已经抓取了评论数据jieba分词jieba“结巴”中文分词:使用很广的一个分词组件支持三种分词模式:精确模式,试图将句子最精确地切开,适合文本分析;全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回...原创 2018-03-09 10:27:42 · 1348 阅读 · 0 评论 -
舆情分析 - snownlp实战Zenbo评论分析
环境python 2.7 + pycharm, windows 环境python已经抓取了评论数据情感分析思路,先将每句话分句,然后对每个短句做情感分析。因为评论有些会很长,如果整句做分析,识别率会降低。Code:# -*- coding: utf-8 -*-"""SnowNLP for zenbo comments"""from snownlp import...原创 2018-03-09 10:27:09 · 1413 阅读 · 0 评论 -
舆情分析 - 入门
入门简介要做舆情分析首选需要有数据,然后做自然语言处理。数据我们还是以python爬取为主,先从自然语言处理开始自然语言入门先了解下自然语言的基础知识FlySky1991的专栏 自然语言入门中文分词原理及分词工具介绍中文分词概述中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序...原创 2018-03-09 10:26:43 · 11997 阅读 · 3 评论 -
爬虫学习之路 - Pyspider实践 JD产品数据
JD产品数据爬取比如我要爬取“衬衫”的搜索结果分析。首先确认urlJD输入“衬衫”后的url就是我们需要的。https://search.jd.com/Search?keyword=%E8%A1%AC%E8%A1%AB&enc=utf-8&qrst=1&rt=1&stop=1&vt=2&wq=%E8%A1%AC%E8%A1%AB&a...原创 2018-03-09 10:26:13 · 1663 阅读 · 0 评论 -
爬虫学习之路 - 高级篇
高级篇学会用框架,能站在巨人肩膀上的人,能力往往都不会太差。这里我们学习的是PySpiderPySpider环境搭建 (Windows)pip install pyspider安装pyspider (前面python 已经安装了2.7)下载phantomjs-2.1.1-windows加入环境变量,动态加载js会用到我们使用mysql存储如果不需要存储到mys...原创 2018-03-09 10:25:47 · 3920 阅读 · 0 评论 -
爬虫学习之路 - 常用库
基础库了解了Python语法,搭建完成了环境,我们也感受了几个小例子。是时候来看看一些基础库:urllib,urlllib2,通过 openurl(‘url’) 发送请求,接受返回数据。网站的验证方法复杂多样[防盗链,cookie,登录验证,各种密钥,动态token],这正是数据爬虫的难度所在,也是爬虫工作者存在的价值。通过各种验证顺利完成请求,后面python正则分分钟,格式化出...原创 2018-03-09 10:25:19 · 1601 阅读 · 0 评论 -
舆情分析 - 词频分析优化
词频分析优化前面我们用到的是jieba的关键词做词频分析。但是关键词中有一些不太能体现问题的词,比如手机词频分析时:手机,很好,点赞等无法从这些词中发现有价值的信息。因此需要从词频中把他们移除。另外也需要对句子做一些预处理。移除价值低的词语我们的做法是自定义词库dict,将这些词的词频设为 0. 例如手机 0 很好 0 赞 0加载自定义词库的Code:j...原创 2018-03-09 10:29:13 · 1365 阅读 · 0 评论