Python爬虫的学习——爬虫初识篇

一、引言

        各位uu们晚上好呀!这么晚了来冒个泡打扰下各位啦哈哈哈。白天我们把爬虫用得到的Python基础知识快速拉了一遍,现在我们就开始进入爬虫的学习吧!在正式进入之前,今晚我们先了解下网页以及爬虫的一些相关知识吧!废话不多说,here we go!

二、页面基础知识

        在第一篇里我也说过自己会HTML5,这里简单讲一下以下内容的格式以及综合使用的例子

        1. table表格标签

        格式:<table></table>

        2. tr 行标签

        格式:<tr></tr>

        3. td 列标签

        格式:<td></td>

        4.a href 超链接标签

        格式:<a href=""></a>

        5. ul 和 li 无序列表标签

        格式:<ul></ul>

                   <li></li>

        6. ol 和 li 有序列表标签

        格式:<ol></ol>

                   <li></li>

        下面就举一个综合利用的例子:

<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <title>Title</title>
</head>
<body>
    <table width = "200px" height = "220px" border = "1px"> <!--表格-->
        <tr> <!--行-->
            <td> <!--列-->
                姓名
            </td>
            <td>
                年龄
            </td>
            <td>
                性别
            </td>
        </tr>
        <tr> <!--行-->
            <td> <!--列-->
                张三
            </td>
            <td>
                18
            </td>
            <td>
                男
            </td>
        </tr>
    </table>
<!--ul li  无序列表(应用更多)-->
    <ul>
        <li>铁锅炖大鹅</li>
        <li>小鸡炖蘑菇</li>
        <li>锅包肉</li>
    </ul>
<!--ol li 有序列表-->
    <ol>
        <li>穿衣</li>
        <li>下床</li>
        <li>洗漱</li>
    </ol>
<!--a href 超链接-->
    <a href="https://www.4399.com/">4399</a>
</body>
</html>

 

三、爬虫相关介绍

(1) 爬虫的解释

        解释1:通过一个程序,根据url进行爬取网页,获取有用信息
        解释2:使用程序模拟浏览器,去向服务器发送请求,获取响应信息
        通俗来说,就是一个程序,通过运行可以获得想要的数据

(2) 爬虫的核心

        1.爬取网页:爬取整个网页,包含网页中所有的内容
        2.解析数据:将网页中你得到的数据进行解析(是要里面的部分数据,即解析)
        3.难点:爬虫与反爬虫之间的博弈

(3) 爬虫的用途

        数据分析/人工数据集
        社交软件冷启动
        舆情监控
        竞争对手收监控

(4) 爬虫分类

1.通用爬虫

        搜索引擎使用的

2.聚焦爬虫

        功能:根据需求,实现爬虫程序,抓取需要的数据

        设计思路:

        1)确定要爬取的url
        2)模拟浏览器通过http协议访问url,获取服务器返回的HTML代码
        3)解析HTML字符串(根据一定规则提取需要的数据)

(5) 反爬手段

1.User-Agent(用户代理,简称UA)

        他是一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版本、CPU类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。

2.代理IP

        西次代理
        快代理

3.验证码访问
4.动态加载网页(网站返回的是JS数据,并不是网页的真实数据)
5.数据加密

        分析js代码

四、结语

        已经晚上十一点过啦,大家早点休息哦,希望刷到这里的读者早点休息,拥有一个健壮的体魄比什么都重要~

        对了,老样子的,如果我的文章里有什么知识点讲解的错误或者有其他可以改进的地方,还劳请读者在评论区指出或者私信我,我看到后一定会虚心接受并及时修改的!

        同时,如果您都看到这里了,不妨给Nine点一个大大的赞并收藏支持一下吧(可怜ver.)~

        明日任务:

        1. 复习HTML5基础

        2. 学习爬虫urllib

        每天学一点,日后必大有所变化!期待与各位一同Go Higher!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值