爬虫回顾1

最新推荐文章于 2024-07-31 22:11:56 发布

原创

最新推荐文章于 2024-07-31 22:11:56 发布 · 568 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#python #爬虫

本文详细阐述了爬虫的法律边界、robots协议的应用，以及爬虫的通用与定向类型。深入讲解了爬虫流程、HTML结构解析、抓取与解析技巧，涉及正则表达式、CSS选择器、JavaScript、数据持久化和反爬策略破解。

1. 爬虫的合法性探讨
    ~ 法不禁止即为许可
    ~ robots协议
    ~ 隐匿身份
        - 高匿商业代理
        - TOR（洋葱路由）

2. 爬虫的分类
    ~ 通用爬虫
    ~ 定向爬虫

3. 爬虫程序的一般步骤
    URL ---> Universal Resource Locator
    URI ---> Universal Resource Identifier
    URI = URL + URN
    协议://用户名:口令@域名或IP地址:端口/路径1/路径2/资源名称
    https://www.baidu.com:443/img/PCtm_d9c8750bed0b3c7d089fa7d55720d6cf.png

    HTTP / HTTPS ---> 超文本传输协议

    HTTP请求 --------> 服务器
        请求行 - 命令（GET/POST） 资源路径 协议版本
        请求头 - 键值对
        空行
        消息体 - 发给服务器的数据

    HTTP响应 <-------- 服务器
        响应行 - 协议版本 响应状态码
        响应头 - 键值对
            ~ content-type ---> MIME
                - text/html
                - application/json
                - text/xml
                - application/pdf
                - image/jpeg
                - image/png
        空行
        消息体 - 服务器返回的数据

    ~ 抓取页面
        - urllib
        - requests
            get() / post() ---> Response ---> text / content / json()
            Session ---> get() / post()
    ~ 解析页面
    ~ 数据持久化

4. HTML页面的结构
    超文本标签语言 ---> 所有的内容都放在标签下

    ~ 标签：承载内容
        <p> / <h1> / <a> / <img> / <li>
    ~ CSS（Cascading Style Sheet）：页面渲染
        选择器 ---> 样式属性名: 样式属性值
        - 标签选择器
        - 类选择器
        - ID选择器
        - 父子选择器 ---> div