
网络爬虫
文章平均质量分 93
乐百川
这个作者很懒,什么都没留下…
展开
-
Python登录并获取优快云博客所有文章列表
分析登录过程这几天研究百度登录和贴吧签到,这百度果然是互联网巨头,一个登录过程都弄得复杂无比,简直有毒。我研究了好几天仍然没搞明白。所以还是先挑一个软柿子捏捏,就选择优快云了。过程很简单,我也不截图了。直接打开浏览器,然后打开Fiddler,然后登录优快云。然后Fiddler显示浏览器向https://passport.youkuaiyun.com/account/login?ref=toolbar发送了一原创 2017-04-08 18:13:44 · 1066 阅读 · 1 评论 -
使用 Beautiful Soup 解析网页内容
安装Beautiful SoupBeautiful Soup是一个Python的HTML解析框架,我们可以利用它方便的处理HTML和XML文档。Beautiful Soup有3和4两个版本,目前3已经停止开发。所以我们当然还是学习最新的Beautiful Soup 4.首先第一件事情就是利用pip安装Beautiful Soup。我们使用下面的命令。pip install beautifulsoup原创 2017-04-03 21:34:01 · 14622 阅读 · 0 评论 -
scrapy 快速入门
安装ScrapyScrapy是一个高级的Python爬虫框架,它不仅包含了爬虫的特性,还可以方便的将爬虫数据保存到csv、json等文件中。首先我们安装Scrapy。pip install scrapy在Windows上安装时可能会出现错误,提示找不到Microsoft Visual C++。这时候我们需要到它提示的网站visual-cpp-build-tools下载VC++ 14编译器,安装完成之原创 2017-04-14 01:18:38 · 49452 阅读 · 10 评论 -
Python 爬虫获取某贴吧所有成员用户名
最近想用Python爬虫搞搞百度贴吧的操作,所以我得把原来申请的小号找出来用。有一个小号我忘了具体ID,只记得其中几个字母以及某个加入的贴吧。所以今天就用爬虫来获取C语言贴吧的所有成员。计划很简单,爬百度贴吧的会员页面,把结果存到MySQL数据库中,等到所有会员都爬完之后。我就可以使用简单的SQL语句查询账号名了。由于C语言贴吧会员有50多万,所以我还需要在合适的时候(例如插入数据库失败)把错误信息原创 2017-04-05 00:44:20 · 5432 阅读 · 0 评论 -
百度贴吧登录过程分析
分析登录过程的话有很多工具可供选择,Fiddler等抓包工具都是很好的选择。不过这次不需要,由于登录过程需要在浏览器上完成,所以我们这次直接使用浏览器的F12开发人员工具。火狐、Chrome、Edge的F12工具都差不多。这次我就以Edge的为例来说明。熟悉调试工具一开始由于我的调试姿势不正确,所以浪费了很多时间。在这里我把我的人生经验分享一下。其实很简单,就是一句话:浏览器必须进入隐私模式。因为浏原创 2017-08-27 22:12:25 · 1976 阅读 · 0 评论 -
requests-html快速入门
Python上有一个非常著名的HTTP库——requests,相比大家都听说过,用过的人都说好!现在requests库的作者又发布了一个新库,叫做requests-html,看名字也能猜出来,这是一个解析HTML的库,而且用起来和requests一样爽,下面就来介绍一下它。 安装 安装requests-html非常简单,一行命令即可做到。需要注意一点就是,requests-html只支持P...原创 2018-07-15 18:10:34 · 38174 阅读 · 10 评论