
python爬虫入门
文章平均质量分 77
Src182
谨记在心的平凡
展开
-
爬虫学习——初识HTML
1.HTML是个什么东西?Hyper Text Markup Language(HTML)超文本标记语言,是用来描述网页的一种语言。那么标记语言又是什么呢?标记语言就是把文本和文本以外的相关信息(例如大小,高度,颜色,位置等)组合在一起的语言功能:用于网页的编写和修改。我们学习html的阶段:看懂、修改、编写。学习爬虫要掌握的html:看懂简单的html代码并学会修改、提取信息。2. HTML的组成<!DOCTYPE html>->全局声明,告诉浏览器处理的文件是html文件原创 2021-02-06 16:45:04 · 300 阅读 · 0 评论 -
爬虫第三关——BeautifulSoup模块
爬虫第三关——BeautifulSoup模块爬虫四步走:获取数据:requests模块解析数据:BeautifulSoup模块 + HTML基本知识提取数据储存数据学习目标:学会使用BeautifulSoup解析和提取网页中的数据问题一:什么是解析数据?就好像浏览器,发出请求,得到来自服务器的响应,解析服务器发送的html文件,展现给我们网页。爬虫也需要能够读懂html文件的工具,读懂了html文件就可以进行数据提取。问题二:什么是数据提取?就是大浪淘沙,得到真金白银Beauti原创 2020-08-12 15:41:54 · 421 阅读 · 0 评论