假如当你看到这篇文章的时候你已经学会了python的基础知识 ,假设你也已经安装好了环境变量等.那么还说什么,让我们走入爬虫的世界,我爱学习,学习爱我.
爬虫可以简单的从这三步出发
抓取网页, 分析页面,和存储数据
当我们写程序的时候,需要用代码来实现模拟浏览器向服务器发出请求,所有我们需要了解http知识,以及相应的Python库.
python自带了一些库,但是不够,需要安装一下额外的
linux环境下
- pip install requests
以及一些wheel,selenium,ChromeDriver
其中linux 中一路执行
sudo mv geckodriver /usr/bin
vi ~/.profile
export PATH=”$PATH:/usr/local/geckodriver”
source ~/.profile
配置完成后,就可以在命令行下直接执行geckodriver命令测试:
geckodriver
然后运行以下代码
from selenium import webdriver
browser = webdriver.Firefox()
如果运行之后弹出一个空白页面,就没问题了
如何爬去网页,其实就是根据URL来获取它的网页信息
比如
import urllib.request
response = urllib.request.urlopen("http://www.baidu.com")
print(response.read())
在python3.0以上,urllib2被urllib.request所取代

本文介绍了Python爬虫的基础知识,包括网页抓取、页面分析和数据存储三个步骤。首先,讲解了需要了解HTTP协议和使用如requests的Python库来模拟浏览器请求。接着,提到了在Linux环境下安装requests库和其他辅助工具,如selenium和ChromeDriver,并详细说明了配置过程。最后,简单说明了如何使用Python的urllib.request模块根据URL获取网页信息。
1607

被折叠的 条评论
为什么被折叠?



