在爬虫爬取的数据中有很多不同类型的数据,我们需要了解数据的不同类型来又规律的提取和解析数据。
- 结构化数据:
json、xml
-
- 处理方式:直接转化为
python数据类型
- 处理方式:直接转化为
- 非结构化数据:
HTML
-
- 处理方式:正则表达式、
xpath、bs4
- 处理方式:正则表达式、
结构化数据
json

xml

非结构化数据


在爬虫爬取的数据中有很多不同类型的数据,我们需要了解数据的不同类型来又规律的提取和解析数据。
json、xmlpython数据类型HTMLxpath、bs4json

xml




被折叠的 条评论
为什么被折叠?