
爬虫进阶
小恋莫小哀
这个作者很懒,什么都没留下…
展开
-
python3爬虫进阶之Selenium实战
**python3爬虫进阶之Selenium实战**利用selenium+Chrome实现网易邮箱自动登录Selenium 是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持phantomjs(无头浏览器),Chrome,Firefox,Internet Explorer 7, 8, 9, 10, 11等等一系列浏览器。关于web...原创 2019-03-05 21:17:19 · 979 阅读 · 0 评论 -
python3爬虫进阶之构建自己的代理池
python3爬虫进阶之构建自己的代理池一、爬取思路1、访问西刺代理网址:https://www.xicidaili.com/nn/,找到IP存放的标签2、验证代理的可用性3、存放可用的代理,抛出不可用的代理二、开始实战1、打开西刺代理后,找到其IP以及端口存放标签如下图:2、获取IP利用BeautifulSoup获取IP存放在ip_list[]列表url = 'http://...原创 2019-03-06 22:00:19 · 794 阅读 · 3 评论 -
python3爬取华为应用市场APP安装包实战
**python3爬取华为应用市场APP安装包实战**一、用浏览器访问华为应用市场,搜索APP并观察URL规律比如我们要下载微信,那么在搜索框输入微信并回车,会发现url变成http://app.hicloud.com/search/%25E5%25BE%25AE%25E4%25BF%25A1,再搜索微博,发现又会跳转至http://app.hicloud.com/search/%25E5...原创 2019-03-10 21:34:58 · 4452 阅读 · 3 评论 -
python3爬虫进阶之自动登录网易云音乐并爬取指定歌曲评论
**python3爬虫进阶之自动登录网易云音乐并爬取指定歌曲评论**一、访问网易云首页,找到所需元素的位置用浏览器打开网易云首页https://music.163.com/之后,发现我们要找的登录就在网页的右上角如图一,但是又有很多登录选项没有列出来,只有鼠标移动到登录按钮的位置并点击才会显示出来如图二。这里我们选择手机号登录def login(id, passwd): u...原创 2019-03-07 22:07:48 · 2270 阅读 · 1 评论 -
python3爬取微博评论并存为xlsx
**python3爬取微博评论并存为xlsx**由于微博电脑端的网页版页面比较复杂,我们可以访问手机端的微博网站,网址为:https://m.weibo.cn/一、访问微博网站,找到热门推荐链接我们打开微博网站后看见热门页,按F12查看网页结构后只能看见如下图短短的几个文章。然后我们将滚动条向下滚动,发现新的文章会在底部加载,原来微博的热门文章加载方式是Ajax加载的,那我们就不能在...原创 2019-05-12 21:18:46 · 3551 阅读 · 5 评论