点这里在线练习文章知识点,快速入门Python爬虫: https://edu.youkuaiyun.com/lab/35660
爬虫介绍
目标:理解爬虫基础知识及其原理
简介:网络爬虫,就是我们制定规则,让程序自动爬取网上的信息,实现操作自动化
基本流程图
工作流程:
1.找到想要爬取的网站,利用代码发送请求,等待服务器做出回应(服务器就是存放数据的计算机)
2.服务器做出回应,返回页面内容
3. 分析页面内容,对网页内容进行处理,以便下一步数据提取
4. 使用正则、BeautifulSoap等工具提取所需数据
5. 打印数据或者存储数据
curl是一个命令行工具,它可以基于网络协议,对指定URL进行操作。
跟我练:在右侧命令行中输入下面的命令并按回车键执行命令。这个命令用来获取指定url的网页内容,完成后点击【检测任务】按钮,解锁下一任务。
curl --compressed http://wthrcdn.etouch.cn/weather_mini?city=北京
上面的url http://wthrcdn.etouch.cn/weather_mini?city=北京 可以获取到北京的天气信息。
执行curl命令后,屏幕上将会显示指定url的网页内容。
把数据打印到屏幕上
Python跟我练可以在线输入Python代码,带你快速专注的学习Python知识,快通过右侧在线环境开始你的第一行Python代码吧!
IPython是一种基于Python的交互式解释器。相较于本地的Python Shell,IPython提供了更为强大的编辑和交互功能。本课程使用ipython作为学习python的环境。
1.在右侧命令行窗口输入ipython,按下回车键,进入到Python解释器环境中。
Hello from 优快云 ED