
爬虫学习
爱吃虾的鱼
实践是检验真理的唯一标准,坚持是你走向实践最便捷的途径!
展开
-
python 爬取应届生求职网中的求职信息并存入MySQL数据库中并词云!
python 爬取应届生求职网中的求职信息并存入MySQL数据库中并词云!原创 2020-05-07 18:06:16 · 1490 阅读 · 0 评论 -
Python多线程爬取海外新型肺炎每日实时更新数据!
Python多线程爬取海外新型肺炎每日实时更新新数据,并存入本地csv文件!1. 爬取的内容。网址:实时更新数据内容:2. 分析网页观察网页发现,后台的数据是通过AJAX传递过来的,每一个国家的数据都在一个url里面的,再观察各国的url是相似的,只有一个请求参数不同,所以通过这个参数的改变可以请求到各国的疫情统计情况。3. 编写业务代码因为请求过来的数据是josn类型,只需简单...原创 2020-04-02 11:12:49 · 995 阅读 · 3 评论 -
python爬取某金融网站的用户评论,并进行词云图可视化。
python爬取某金融网站的用户评论,并进行词云图可视化。一,爬取数据1. 唠叨一下多说一句,这里编写的代码用来作为学习所用,希望使用者不要恶意的用来造成别人的网站服务器压力,我们爬到数据就行不要恶意运行代码,好了不多说了,说我们的正事。2. 所要爬取的网站,及其数据网站http://www.affta.cn/financeReview.jspxpageNumber=1&pag...原创 2020-03-27 18:46:09 · 999 阅读 · 1 评论 -
Python多线程爬取猫眼网站榜单TOP100,并存入CSV文件!
目标网站字段处理注意原创 2020-03-21 16:39:22 · 713 阅读 · 0 评论 -
使用Scrapy框架,爬取b站番剧信息。
使用Scrapy框架,爬取b站番剧信息。感觉好久没写爬虫的,今天看了在b站浏览了一会儿,发现b站有很多东西可以爬取的,比如首页的排行榜,番剧感觉很容易找到数据来源的,所以就拿主页的番剧来练练手的。爬取的网址:https://www.bilibili.com/anime/index/#season_version=-1&area=-1&is_finish=-1©...原创 2020-03-02 21:34:09 · 2405 阅读 · 6 评论 -
Python BeautifulSoup不需要cookie登录的状态下,爬取豆瓣电影评论!
Python BeautifulSoup不需要cookie登录的状态下,爬取豆瓣电视剧评论!什么是cookie呢?cookie就是在浏览网站时服务器发送到浏览器上的一段数据,并通过用户浏览器存储到计算机硬盘或内存中的数据,主要用来服务器鉴别用户的身份,行为,当然也可以通过cookie来进行商品的推荐,cookie可以记录我们的浏览信息,购物车信息以及收藏夹的信息等等,总之cookie是很重要的...原创 2020-02-11 17:25:20 · 922 阅读 · 0 评论 -
Python爬取国家数据居民消费价格分类指数中2019年12个月36大中城市居民消费和商品零售价格指数!
**Python爬取国家数据居民消费价格分类指数中2019年12个月36大中城市居民消费和商品零售价格指数**目标网站:http://data.stats.gov.cn/index.htmhttp://data.stats.gov.cn/tablequery.htm?code=AA0108分析浏览器的数据来源知道数据从脚本传递过来的,所以知道数据存放的浏览器地址。http://da...原创 2020-02-06 13:52:15 · 2541 阅读 · 0 评论 -
python爬取豆瓣网电影字段并保存CSV文件中,爬取了8个字段!
python爬取豆瓣网电影字段并保存CSV文件中,爬取了8个字段!花了一个多小时弄这个小demo,感觉蛮有意思的,可惜IP被禁了。文件展示由于访问过度IP被封,造成现在我的浏览器都不能访问豆瓣网,必须要登录才可以访问,但不影响爬取数据!爬取的网址https://movie.douban.com/tag/#/sort=U&range=0,10&tags=%E7%BB%8...原创 2020-01-15 17:07:09 · 1467 阅读 · 0 评论 -
Python从诗词名句网站中抓取四大名著之一《三国演义》!
从诗词名句网站中抓取四大名著之一红楼梦,并保存!@ XGan 2019 12 19**抓取诗词网站(http://www.shicimingju.com/book/hongloumeng.html)中的四大名著–《红楼梦》,并保存到本地文件中,使用该代码可以抓取诗词网上很多的古典诗集的,只需做稍微的修改,但都只支持单部书籍的爬取,等有时间写一个全网爬取的Demo,到时候与大家分享,这里只是以《...原创 2019-12-19 16:45:30 · 1805 阅读 · 1 评论 -
Python BS4爬取网易(NetEase)静态首页HTML的所有链接,并保存CSV文件中!
@2019 11 23 周六Python BS4爬取网易(NetBase)首页静态HTML的所有连接,并保存CSV文件中前期准备网站:https://www.163.com/获取其HTML文件,笔者之前做了,展示哈163.html,如果没有自己爬取,因为网易首页连接都在变化的,我已经将其下载保存163.html.python 代码# coding:utf-8from bs4 imp...原创 2019-11-23 22:40:14 · 611 阅读 · 0 评论 -
Python爬取豆瓣一周口碑榜
标题 Python爬取豆瓣一周口碑榜@author XGan 2019/11/09 周六获取豆瓣电影网一周口碑榜网址:https://movie.douban.com/python requests库以及xpath实现import requestsimport randomfrom lxml import etreeimport json as josnimport enc...原创 2019-11-12 21:55:25 · 562 阅读 · 0 评论