
python爬虫实战数据可视化分析
数据抓取:Requests抓取岗位信息、多进程加速抓取、代理隐藏
数据存储:数据表设计、保存到Mysql数据库
数据可视化:快速掌握Echarts、Echarts绘制图形、Echarts生成云图
忆&往浠℃
这个作者很懒,什么都没留下…
展开
-
简单爬虫--结合慕课网和菜鸟教程
Python 爬虫架构主要由五个部分组成,分别是调度器、URL管理器、网页下载器、网页解析器、应用程序(爬取的有价值数据)。调度器:相当于一台电脑的CPU,主要负责调度URL管理器、下载器、解析器之间的协调工作。URL管理器:包括待爬取的URL地址和已爬取的URL地址,防止重复抓取URL和循环抓取URL,实现URL管理器主要用三种方式,通过内存、数据库、缓存数据库来实现。网页下载器:通过传入...原创 2020-02-14 16:36:53 · 448 阅读 · 0 评论 -
多进程爬虫--通过爬取 ‘ 糗事百科网‘,对串行爬虫和多进程爬虫的性能进行对比。
文章目录前言爬取糗事百科网“段子”专题中的信息为例来说明具体代码实现前言当爬虫的数据量越来越大时,除了要考虑存储的方式外,还需要考虑爬虫的速度问题。前面的爬虫都是串行爬取,只有当一次爬取完之后才进行下一次爬取,这样极大地限制了爬取的速度和效率。那么我们是如何解决这种问题的呢?答案是:多进程。多进程爬虫速度要远优于串行爬虫, 但是“口说无凭”。本篇博客将会通过代码对串行爬虫和多进程爬虫进行性能对比。爬取糗事百科网“段子”专题中的信息为例来说明由于是比较性能,爬取的信息并不多,大概有用户ID 、发表段原创 2020-07-06 17:23:39 · 307 阅读 · 0 评论 -
Pyecharts新版本食用指南
文章目录前言一个非常经典的?,绘制条形图我们以好友信息为例好友性别信息可视化前言或许有人会问,说我之前Pyecharts代码不能用了,我自己尝试了一下,还是可以用的,后面才发现是因为现在pyecharts更新了,这个是pyecharts官网的原话(pyecharts 分为 v0.5.X 和 v1 两个大版本,v0.5.X 和 v1 间不兼容,v1 是一个全新的版本)。版本 0.5 已经不再维护,而新版本 V1 是不向下兼容的。代码风格完全不同,在 V1 版本中,一切皆Options。配置项种类更多,转载 2020-06-22 22:04:40 · 796 阅读 · 0 评论 -
Pyecharts方向指南---超详细版本,你值得拥有!!!
文章目录前言1.柱状图2.饼图3.折线图4.雷达图5.散点图6.图标布局Grid7.柱状图-折线图合并8.词云图9.极坐标系-堆叠柱状图各位csdn的朋友们!原谅我最近没怎么更新博客,这一阵子在忙一个大数据竞赛的事情,具体的内容不太好分享!但是这几天找到一个可视化的神兵利器Echarts,用它做出来的图表真心好看,考虑到各位看官们对于python的热情高涨,我才找到了一个Echarts与Python结合的轮子:pyecharts。前言我们都知道python上的一款可视化工具matplotlib,而前些原创 2020-06-22 21:43:10 · 1472 阅读 · 0 评论 -
爬取酷狗TOP500的数据--很好理解且基于Requests,BeautifulSoup的简易爬虫!!适合爬虫小白
前言:import requestsfrom bs4 import BeautifulSoupimport timeheaders = { 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36'}def get_info(url): wb_data = requests.get(url原创 2020-06-16 09:48:38 · 593 阅读 · 0 评论 -
咱们来看看爬虫三大库---Lxml库(精简版)
文章目录前言:1.修正HTML代码3.解析HTML文件前言:Lxml库是基于libxm12 的XML解析库的Python封装。该模块使用C语言编写,解析速度比BeautifulSoup更快。Lxml库使用Xpath语法解析定位网页数据。在这里将讲解介绍Lxml库的使用方法及Xpath的语法知识,而且通过案例对正则表达式、BeautifulSoup 和Lxml进行性能对比,最后通过一个综合案例巩固Xpath语言的学习。1.修正HTML代码Lxml为XML解析库,但也很好地支持了HTML文档的解析功能,原创 2020-06-15 11:33:03 · 724 阅读 · 0 评论 -
咱们来看看爬虫三大库---BeautifulSoup库(精简版)
文章目录前言:BeautifulSoup库除了支持Python标准库中的HTML解析器外,还支持一一些第三方的解析器。如下表中列出了BeautifulSoup 库的主要解析器及相应的优缺点。爬取小猪短租房信息代码实现:前言:BeautifulSoup库是一个非常流行的Python模块。通过BeautifulSoup库可以轻松地解析Requests库请求的网页,并把网页源代码解析为Soup文档,以便过滤提取数据。import requestsfrom bs4 import BeautifulSoup原创 2020-06-15 11:00:41 · 1244 阅读 · 1 评论 -
咱们来看看爬虫三大库---Requests(精简版)
文章目录前言:1.1 爬虫原理和网络构造1.2 Requests库前言:身处于互联网时代,每当打开浏览器连接==https://www.baidu.com/==的时候,读者可能都不会思考网络正在做什么;面对形形色色的网页,读者也不会去思考网页是如何呈现在大家面前的。俗话说得好,“知己知彼, 方能百战不殆”。鼓励大家多去学习爬虫的知识。1.1 爬虫原理和网络构造了解网络连接的基本原理后,爬虫原理就很好理解了。网络连接需要计算机一次Request请求和服务器端的Response回应。爬虫也是需要做两件事原创 2020-06-14 21:55:46 · 406 阅读 · 0 评论 -
写出优秀的数据分析报告,应具备的13个要点!
先说说写一份好的数据分析报告的重要性,很简单,因为分析报告的输出是你整个分析过程的成果,是评定一个产品、一个运营事件的定性结论,很可能是产品决策的参考依据,既然这么重要那当然要写好它了。我认为一份好的分析报告,有以下一些要点:首先,要有一个好的框架,跟盖房子一样,好的分析肯定是有基础有层次,有基础坚实,并且层次明了才能让阅读者一目了然,架构清晰、主次分明才能让别人容易读懂,这样才让人有读下去...转载 2020-03-30 00:29:15 · 389 阅读 · 0 评论 -
手把手教你进行pip换源,让你的Python库下载嗖嗖的!!!
文章目录/1 前言//2 为什么要换源//3 换源流程//4 小结//1 前言/今天我们来说说python的pip换源吧,这个换源,相对来说,还是比较重要的,能让自己少生好几次气的,哈哈哈!手把手教你进行pip换源,没有来得及上车的小伙伴,可以戳进去看看。/2 为什么要换源/我相信小伙伴们一定也遇到跟我这样的问题,如下图所示。没错,就是我们在pip安装东西的时候,有时候容易飘黄飘红,而...转载 2020-03-30 00:23:05 · 301 阅读 · 0 评论