
Python爬虫
文章平均质量分 86
白熊花田
这个作者很懒,什么都没留下…
展开
-
Python爬虫Csdn系列II
Python爬虫Csdn系列IIBy 白熊花田(http://blog.youkuaiyun.com/whiterbear) 转载需注明出处,谢谢。说明:在上一篇文章中,我们已经知道了只要将程序伪装成浏览器就能访问csdn网页。在这篇文章中,我们将设法获取某个csdn用户的所有文章的链接。分析:打开一个某一个的csdn用户的的专栏原创 2015-04-10 16:51:10 · 2337 阅读 · 0 评论 -
Python 20.21. cookielib模块翻译
Python 20.21.用于http客户端的处理的模块By 白熊花田(http://blog.youkuaiyun.com/whiterbear) 转载请注明出处,谢谢。原文链接:https://docs.python.org/2/library/cookielib.html标注:cookielib模块已经在python3中改名为http.cookiejar了。2翻译 2015-04-07 09:55:45 · 1751 阅读 · 0 评论 -
基于社交网络的情绪化分析I
基于社交网络的情绪化分析IBy 白熊花田(http://blog.youkuaiyun.com/whiterbear) 转载需注明出处,谢谢。之前说要进行微博的数据抓取并进行相关的分析,这里就是了。题目来源这是我的毕设题目,题目来源:汪顺平博客。在开始毕设时,我联系过这位博主,当时他是已经下载完数据准备分析了,后面一直没有联系了,参考了他数据下载的代码。我从三月末开始毕设,六月初结束,共两个月多点时间。这里将按原创 2015-06-26 17:29:43 · 4904 阅读 · 0 评论 -
基于社交网络的情绪化分析II
基于社交网络的情绪化分析IIBy 白熊花田(http://blog.youkuaiyun.com/whiterbear) 转载需注明出处,谢谢。上一篇进行了微博数据的抓取,这一篇进行数据的处理介绍。无意义微博的定义观察发现微博中有很多的微博是用户参与某些活动而转发的微博,比如:“SmashHit,作者:MediocreAB。推荐!“http://t.cn/8Fkgg9k”;“刚刚下载了豆丁文档:项目公司运营简报原创 2015-06-26 22:21:41 · 3015 阅读 · 0 评论 -
Python爬虫Csdn系列I
Python爬虫Csdn系列IBy 白熊花田(http://blog.youkuaiyun.com/whiterbear)说明:我会在这个系列介绍如何利用python写一个csdn爬虫,并将给定的Csdn用户的博客的所有文章保存起来。嗯,实用性貌似不是很大,写着玩,这个系列后,会有更好玩的更高级的爬虫出现。原因:本来想学cooki原创 2015-04-09 19:22:57 · 1537 阅读 · 0 评论 -
python爬虫Pragmatic系列II
python爬虫Pragmatic系列II说明:在上一篇博客中,我们已经学会了如何下载一个网页,并进行简单的分析它。本次目标:下载赶集网上其中一家公司的信息,将网页保存到文本文件中,然后我们从网页中提取有用的公司信息,并存储到Excel中。(注意,本节比上一节难度更大)下载网页:利用前一篇博客的下载代码,将url初始设为“原创 2015-03-27 18:11:32 · 2024 阅读 · 0 评论 -
python爬虫Pragmatic系列I
python爬虫Pragmatic系列I说明:我将在这个系列介绍如何利用python写一个爬虫,并能用这个爬虫去做一些有实际意义的事情,be pragmatic.最终完成目标:抓取赶集网上担保公司信息,并分析统计后保存到excel中。赶集网有一堆的公司,每一家公司链接点开后会出现这家公司的详细信息,我们要做的就是将这些相关信息收集起来并保存到一个excel中去。赶集网(http原创 2015-03-26 22:30:38 · 4191 阅读 · 0 评论 -
python爬虫Pragmatic系列III
python爬虫Pragmatic系列III说明:在上一篇博客中,我们已经学会了从赶集网上的一家公司中提取出有关的信息,并存储到Excel中。本次目标:在本节中,我们将批量下载赶集首页上所有的公司界面(注意不是赶集网上所有的公司页面,我们可以把这个留给之后的任务),并批量的处理所有公司的有关信息,并保存到Excel中。注意:在上一篇博客中,我们使原创 2015-03-28 22:51:06 · 1832 阅读 · 0 评论 -
python爬虫Pragmatic系列IV
python爬虫Pragmatic系列IV说明:在上一篇博客中,我们已经做到了从赶集网首页上抓取所有的链接,并下载下来,分析后存入Excel中。本次目标:在本节中,我们将使用python多线程技术从赶集网上抓取链接并分析,注意,我们这次能够抓获的链接数目可以远远大于上一篇博客中抓获的。分析:用爬虫统计信息那自然数据越多越好,为了获取更多的数据,我们研究下如何打开上千原创 2015-03-31 14:48:22 · 1466 阅读 · 0 评论 -
Python爬虫Csdn系列III
Python爬虫Csdn系列IIIBy 白熊花田(http://blog.youkuaiyun.com/whiterbear) 转载需注明出处,谢谢。说明:在上一篇博客中,我们已经能够获取一个用户所有文章的链接了,那么这一节自然就是要将这些博客下载下来咯。分析:有了链接下载文章自然是不难。但是,获取的数据该怎么处理?每原创 2015-04-11 16:11:16 · 1297 阅读 · 0 评论 -
完美韵脚----让押韵变得简单
把押韵的活全部承揽降低诗词的创作门槛本文导言:用Python+Django+Apache在工作之余做了一个押韵搜索的网站:完美韵脚(wanmeiyunjiao.com);这里借自己的博客做下推广,不做技术分享。完美韵脚用来帮助词作人、诗人、Rapper歌手和文案创作者更好更方便地进行创作的押韵搜索网站。数据库包含了数十万首中文歌词和古诗词(使用Python爬虫下载的),有着全面...原创 2018-09-07 20:17:04 · 165286 阅读 · 23 评论