
数据挖掘
weixin_43689344
这个作者很懒,什么都没留下…
展开
-
天善智能爬虫实践
在运行scrapy代码时报错;Traceback (most recent call last):File “D:\Python\Anaconda\lib\site-packages\twisted\internet\defer.py”, line 654, in _runCallbackscurrent.result = callback(current.result, *args, ...原创 2019-10-27 19:14:06 · 194 阅读 · 0 评论 -
使用代理服务器,进行爬取
爬取优快云首页的所有文章1.建立opener建立全局,urlopener和retrieve都可以用2.request方式使用opener来解决,声明为全局,用urllib.request.install_opener(opener)这样urlopen以及retrieve都可以伪装成浏览器的方式去访问网页什么是代理服务器?是出于互联网中间服务器,如果使用代理服务器,浏览信息的时候,先向...原创 2019-10-27 19:07:41 · 556 阅读 · 0 评论 -
数据分析,文本类函数
replacevlooksubstitutefindTRIM函数函数TRIM用于删除单词或字符间多余的空格,仅保留一个空格。函数CLEAN则用于删除文本中的换行。两个函数都是用于规范文本书写的函数。其格式也很简单,为TRIM(需要清洗的单元格)/CLEAN(需要清晰的单元格)数据清洗,就是对单元格中的数据文本进行的格式的修正find:find(“要查找的字符”,在哪里查找,从哪里开始...原创 2019-10-27 19:13:04 · 262 阅读 · 0 评论 -
抓包分析
抓包分析用Fiddler进行抓包分析抓取HTTPS数据包怕取腾讯视频评论所谓抓包分析,就是网站的传输的数据包,数据会隐藏在网址的源代码,或者不在源代码中,所以要通过抓包分析,去抓取哪些隐藏起来的信息。下载Fiddlers,在对应的浏览器里面安装,在高级,选择使用代理服务器。爬虫抓取工具,比如去分析淘宝的评论,在fiddler中找到评论的url,复制到文档上,并且进行分析,找到他的规律,比...原创 2019-10-27 19:09:13 · 902 阅读 · 0 评论 -
运行一个scrapy爬虫,更改关键字和时间还有url一起爬取
scrapy里面导入文件itens里面的函数时候,出现No module named ‘items’解决:scrapy做爬虫时,导入Module的时候总显示no module named ×××.items?可是检查很多遍都没发现什么大问题啊?原来这是因为编译器的问题,pycharm不会将当前文件目录自动加入自己的sourse_path。那么具体的解决方法如下:1,找到你的scrapy...原创 2019-10-27 19:08:46 · 313 阅读 · 0 评论 -
scrapy爬虫,关键字+起始时间+json代码解析
1.请求的url返回的是json代码,怎么提取里面的数据?用response.text如何加载response里面的数据?如果写的json.load(response.text)则报错: File “/usr/lib/python2.6/json/init.py”, line 264, in loadreturn loads(fp.read(),AttributeError: ‘str...原创 2019-10-27 19:09:53 · 421 阅读 · 0 评论 -
关于xpath表达式
1.匹配多值属性的xpath如果HTML结构是这样<div class="demo"></div>那么我知道可以写xpath //div[@class=“demo”],但是如果我的html是<div class="test demo"></div><div class="demo test"></div><...原创 2019-10-27 19:10:31 · 154 阅读 · 0 评论 -
Python数据分析----XX银行股票分析
对DataFrame类型的数据中的某一列数据进行归一化处理1.1.codeimport pandas as pdimport numpy as npimport matplotlib.pyplot as pltdata=pd.read_csv(‘C:/Users/Administrator/Desktop/txt.csv’)#data.plot()#data.columns #n...原创 2019-09-05 17:07:46 · 1134 阅读 · 0 评论 -
scrapy框架爬虫获取下来的数据保存到Django之有两个回调函数两个yield item
1.问题:存在两个回调函数,有两个yield item 每次yield回来的item里面的值是不一样的,但是两个item所有的字段构成一个完整的记录,如何在pipline里面将异步的数据和字段,完整的保存在表里面?这个item有这些这么多的值而这个item仅仅有url、和mid的字段如何异步调用?并且保存?首先对item先判断里面是否包含这个字段,不是,则保存,是则进行url字段的保...原创 2019-07-18 11:43:19 · 516 阅读 · 0 评论 -
格林时间转中国标准时间
GMT_FORMAT = '%a %b %d %H:%M:%S +0800 %Y'#可以 time_tuple = time.strptime(item['created_at'],GMT_FORMAT)#item['created_at']为需要转的格林时间 #time.strptime,为转化为时间数组,分割成年月日最后用time.strftime函数,将时间数组转化为,中国标...原创 2019-07-18 10:31:09 · 442 阅读 · 0 评论