css
基础及选择器、requests
的用法、bs4
的用法
css
基础
1.css
:层叠样式表,简称样式、样式表,负责网页内容的布局和样式
2.css
代码写在哪里
1)内联样式表:将css
代码写在标签的style
属性中;
2)内部样式表:将css
代码写在style
标签中;
3)外部样式表:将css
代码写在css
文件中,然后在html
代码中用link
标签导入。
3.css
代码怎么写
css
语法:
选择器{属性1:属性值1;属性2:属性值2;…}
注意:选择器是用来选中需要设置样式的标签
css
选择器
1.元素选择器(标签选择器)- 将标签名作为选择器,选中所有的指定标签;
例如:a{} - 选中所有的a标签
2.id
选择器 - 在id
属性值前加#作为一个选择器,选中id
属性值是指定值的标签,id
是唯一;
例如:#a1
{} - 选中id
属性值为a1
的标签
3.class
选择器 - 在class
属性值前加.作为一个选择器,选中class
属性值是指定值的标签;
不同的标签可以有相同的class
值,用一个标签可以有不同的class
;
例如:.c1
{} - 选中所有class属性值为c1
的标签
4.群组选择器 - 将多个选择器用逗号隔开作为一个选择器,选中每个独立选择器选中的所有标签;
例如:p,.c1
{} - 选中所有的p标签和所有class值为c1
的标签
5.子代选择器 - 将多个选择器用>隔开作为一个选择器,前后必须是父子关系;
例如:div>#a1
>.c1
- 选中div下面一个tad间距的id值是a1
的标签下面一个tad间距的class值是c1
的标签
6.后代选择器 - 将多个选择器用空格隔开作为一个选择器,前后是后代关系。
例如:div div a - 选中div下面的div下面的a标签
requests
的用法
requests是Python用于网络请求的第三方库,也是爬虫获取网络数据的重要工具
1.向目标地址(网络地址)发送请求
以指定的方式给地址发送网络请求,返回值是服务器返回的响应对象。
语法:
requests.get(url, *, hesders, proxies, timeout)
参考说明:
url
- 字符串;请求的网络地址,可能是目标网站的网站也可以是数据接口;
headers
- 字典;请求头,用于配置浏览器设置user-agent
、完成自动登录设置cookie
;
proxies
- 字典;设置代理ip
;
timeout
- 设置;设置超时时间。
2.获取响应头
print(返回的响应对象.headers)
3.设置响应的编码方式
返回的响应对象.encoding = ‘utf-8’
4.获取请求结果
1)获取字符串格式的结果
print(返回的响应对象.trxt)
2)获取二进制格式的结果
print(返回的响应对象.content)
3)获取json
解析的结果
print(返回的响应对象.json)
bs4
的用法
注意:安装第三方库的时候安装beautifulSoup4
而不是bs4
1.创建BeautifulSoup
对象
BeautifulSoup(html代码,'lxml')
- 将html
代码编译成BeautifulSoup
对象
2.获取标签
1)基于整个网页获取标签
BeautifulSoup对象.select(css选择器)
- 返回css选择器在整个网页中选中的所有标签;返回值是列表,列表中元素是标签对象;
BeautifulSoup对象.select_one(css选择器)
- 返回css选择器在整个网页中选中的第一个标签,返回值是标签对象。
2)基于指定标签获取标签
标签对象.select(css选择器)
- 在指定标签中按照选择器选中相关的标签
标签对象.select_one(css选择器)
- 在指定标签中按照选择器选中相关的第一个标签
3.获取标签内容和标签属性值
1)获取标签内容
标签对象.text
2)获取标签属性
标签对象.attrs[属性名]