
爬虫
食我大招啦
救救孩子吧
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
python-爬虫项目-微博抓取
1.接到需求需要对指定的微博账号进行微博内容抓取这个任务也比较常见那么拿到需求我们进到微博网站对进口进行查找,对接口进行抓取的话,能获得数据无疑是最省事安心的方式2.那么在github上看到写的十分好用的案例,那么本着互联网开源的思想,对代码进行学习修改。废话不多说,直接上代码#!/usr/bin/env python# -*- coding: UTF-8 -*-import cod...原创 2019-09-25 14:25:12 · 1391 阅读 · 2 评论 -
python-爬虫-到喜啦酒店信息抓取
到喜啦 酒店信息抓取1.招商需要成都的酒店信息,那么时间比较短上代码import requestsimport pymysqlfrom lxml import etreeimport reclass DXL: def __init__(self): self.headers = { 'Accept': 'text/html,appli...原创 2019-09-25 14:17:14 · 666 阅读 · 0 评论 -
python-爬虫-知乎文章抓取记录
**这次需求是抓取知乎的文章**1.我们打开知乎,搜索来到你要抓的用户页面(就像我下面截图所示)2.来到文章界面,作为习惯,拿到一个网站我会按下F12查看网络请求,哦,看到动态加载出来的接口。翻找一下,看到我们需要的数据都列在了接口中。嘴角上扬,这种网站抓起来就是两个字:舒服。3.我们往下来,康康刷新出来新加载出来的接口有什么区别发现换的就只有offset嘛,每页就网上加了2...原创 2019-09-16 10:19:26 · 2158 阅读 · 0 评论 -
爬虫入门教程⑩— 用漂亮的图表展示爬取到的数据
经过了前面的努力,我们成功获取到了数据,并且学会了保存,但是只是用网页展示出来,是不是有一些不够美观呢?所以本节的内容是:数据的可视化。拿到了数据却不能使其简单易懂并且足够突出,那就是不是好的数据工程师。效果图:安装pyecharts这个Python的图表库,在之前我们安装了requests、lxml、bs4。所以只需要再在cmd里面 pip3install pyecharts 就OK...转载 2018-12-05 15:39:38 · 2325 阅读 · 0 评论 -
爬虫入门教程⑨— 用html和csv文件保存爬取到的数据
经过努力,我们终于拿到了数据了。那么下一步就是要将我们获取到的数据保存起来了,这样才能给后续的操作(在网页上展示、数据分析挖掘可视化等等)提供便利。一般我们保存数据可以采用多种可选载体,根据成本、数据用途我们分别采用适合自己的载体保存数据。主要的数据保存方法有写入到文本:txt,csv,excel…保存到数据库:本地的sqlite、MySQL、mongodb…由于保存到数据库的操作需...转载 2018-12-05 15:32:02 · 989 阅读 · 3 评论 -
爬虫入门教程⑧— BeautifulSoup解析豆瓣即将上映的电影信息
Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.这是一个利器,让我们能够从复杂的HTML代码里面,提取出我们我们想要的目标数据。本章我们会以 爬取豆瓣电影成都即将上映的影片信息 作为案例讲解 BeautifulSou...转载 2018-12-05 15:24:30 · 1427 阅读 · 1 评论 -
爬虫入门教程⑦— jupyter与requests的初步使用
jupyter 是一个简易的,方便的写Python代码的工具包,requests是Python里非常好用的用来发送 http 请求的包。开始学习本教程之前,请确保你已经安装了Python,并且安装了Python包 jupyter 和 requests 了。如果没有,那请参照以下教程进行安装:爬虫入门教程⑤— 安装Python 爬虫入门教程⑥— 安装爬虫常用 1. jupy...转载 2018-12-05 15:22:37 · 2402 阅读 · 4 评论 -
爬虫入门教程⑥—安装爬虫常用工具包
这是承前启后的一节,也是很有可能出错的一节。我们要安装的有jupyter(简单方便的写代码工具)requests(Python HTTP请求工具)lxml(解析网页结构工具)beautifulsoup(网页文档解析工具)pip是Python的包管理工具,可以安装,升级,卸载Python包,并且只需要一条命令就行,是个非常棒的工具。开始安装Windows键+X键,点出来命令提示符。...转载 2018-12-05 15:18:47 · 339 阅读 · 0 评论 -
爬虫入门教程⑤—安装Python
1.为什么爬虫要用PythonPython写代码速度快。Python自诞生以来,秉承的思想就是简单优于复杂。所以Python写代码效率很高,在众多Python强大的库的加持下,我们可以用短短几十行代码写出来一个完整的Python爬虫程序。这在其他的语言里,是很难做到的。Python学习成本低。Python的语法没有其他语言那么复杂,又因为是动态类型的语言,学习成本降低了很多,能够更快地上手,更...转载 2018-12-05 15:12:16 · 516 阅读 · 0 评论 -
爬虫入门教程④— 必备知识基础(三)网页的构成
如果把整个绚丽的网页看成一个人的话,那么html就是这个人的骨肉,css则是好看的外表,JS则能让这个人成长,移动。所以这节让我们一起探索这个“人”组成的奇妙之处。我在网上找了个html网页作为示范(这是个保留彩蛋)看起来短短4行字符,但是它的源代码却远超过显示出来的字符: The Dormouse's story The Dormou...转载 2018-12-05 15:07:51 · 174 阅读 · 0 评论 -
爬虫入门教程③— 必备知识基础(二)HTTP请求简介
从我们在浏览器地址栏输入网址敲下了回车之后到一个鲜活的网页呈现在我们面前这中间究竟发生了什么呢?一次HTTP访问流程DNS查询DNS(Domain Name System,域名系统),万维网上作为域名和IP地址相互映射的一个分布式数据库,能够使用户更方便的访问互联网,而不用去记住能够被机器直接读取的IP数串。通过域名,最终得到该域名对应的IP地址的过程叫做域名解析(或主机名解析)。DNS协...转载 2018-12-05 14:50:23 · 240 阅读 · 0 评论 -
爬虫入门教程②— 必备知识基础(一)反爬虫简介
这一节我们需要明确的是爬虫的一些目标。爬虫的首要目标 — 正确获取到数据为什么只是获取数据呢?因为获取到数据之后,不管是解析还是存储,都是我们自己单方面的处理,并不需要目标网站的“配合”了。所以爬虫最复杂的部分,就在于获取数据。获取不到目标数据,不管你的解析代码写的多么好,你的存储速度多么快,那都是个没用的爬虫程序。这是我们必须要明确的一点。很多网站觉得自己的数据比较宝贵,会花时间去对付爬虫...转载 2018-12-05 14:47:10 · 463 阅读 · 1 评论 -
爬虫入门教程①— 爬虫简介
很多人都和我说过想学爬虫,但是不知道该怎么学,完全没有方向。所以这些最初萌动的想法,也随着不断遇 到的问题,逐渐消失了。。。为了珍惜与保护好这种初学的干劲与激情,我决定写一个系列的文章来介绍一下爬虫。这是一个Python爬虫的教学介绍,但是思想在很多地方都通用。毕竟编程不能局限于语言。我更喜欢用Python开发,因为Python真的太方便啦~~。顺便再重温一下这个金句。Life is...转载 2018-12-05 14:45:00 · 312 阅读 · 0 评论