很久没发文了,近来休息调休了一段时间,今天这篇文主要有关Python爬虫最简单的案例,带你一步一步能自己上手爬虫。
一、什么是爬虫
爬虫就是把一个网站里的内容读取下来,这里我们就要学习一个知识,我们看到的网页是有一种叫HTML的语言编写的,他可以给文字显示不同的样式如:<p>hello</p>
就会显示段落:hello
二、如何获取网页的内容
一般爬虫不会把网页内容爬下来,而是把网页源代码爬下来
就好比说:hello
会爬到 <p>hello</p>
如果要在浏览器上看源代码,只需在网页上右键
点击 选择查看网页源代码
即可,那么怎么用python把源代码爬下来呢?这是要下载一个模块
在cmd里输入:
pip install requests
然后就可以用模块requests爬网页了
import requests # 导入模块
url = 'https://sina.com.cn' # 要爬的网址新浪
html = requests.get(url) # 获取网页源代码
print(html.text) # 输出 注:需要text函数来返回源代码
输出:
细心的人可以看到后面的代码有