我的爬虫进阶之路

python爬虫之路

  • python基础:函数、类、list、dict 中的常用方法

  • HTML基础:30分钟入门教程 https://deerchao.net/tutorials/html/html.htm

  • HTTP基础:

    • Python 自带有 urllib,httplib,Cookie等内容
    • 可以直接跳过这些,直接学习 Requests 怎么用,前提是你熟悉了 HTTP协议的基本内容
    • 数据爬下来,可能格式有: HTML文本、XML 格式、 Json。对应解决方 案: 对于 HTML 数据,可以使用 BeautifulSoup、lxml 等库去处理,对于xml 数据,除了可以使用 untangle、xmltodict 等第三方库,JSON数据可以直接使用 Python自带的模块 json
  • 爬虫工具:

    • 使用 Chrome 或者 FireFox 浏览器去审查元素,跟踪请求信息等等。大部分网站有配有APP和手机浏览器访问的地址,优先使用这些接口,相对更容易。还有 Fiddler 等代理工具的使用。
    • 学习正则表达式并不是必须的,你可以在你真正需要的时候再去学,比如你把数据爬取回来后,需要对数据进行清洗,当你发现使用常规的字符串操作方法根本没法处理时,这时你可以尝试了解一下正则表达式,往往它能起到事半功倍的效果。Python 的 re 模块可用来处理正则表达式。这里也推荐一个教程:Python正则表达式指南https://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html
  • 数据存储

    • 数据清洗完最终要进行持久化存储,你可以用文件存储,比如CSV文件,也可以用数据库存储,简单的用 sqlite,专业点用 MySQL,或者是分布式的文档数据库 MongoDB,这些数据库对Python都非常友好,有现成的库支持,你要做的就是熟悉这些 API 怎么使用。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值