Python网络爬虫与信息提取(一)(Wing & Canopy)

博客介绍了Python网络爬虫相关知识,包括掌握定向网络数据爬取和网页解析能力,介绍了Requests、Beautiful Soup、Re库等,还提及Scrapy框架。同时介绍了Python开发工具,如IDLE、Sublime Text、Wing、PyCharm、Canopy等。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

相关基础知识和概念

掌握定向网络数据爬取和网页解析能力

The Website is the API

  • Requests库:自动爬取HTML页面,自动网络请求提交
  • robots.txt:网络爬虫排除标准
  • Beautiful Soup库:解析HTML页面,提取相关信息
  • Re库:正则表达式库。通过正则表达式的使用可以在页面中提取我们最关心的关键信息
  • Scrapy:专业网络爬虫的框架

Python开发工具的介绍

①IDLE(包含交互式和文件式两种方式)

②Sublime Text

几乎所有专业的程序员,都是用类似Sublime Text这一类的编辑工具而不是使用集成的开发工具

因为专业程序员的编写代码质量相对较高,对调试的需求相对较低,而对编写代码过程的体验需求较高

③Wing

在编写几千行甚至上万行的大型应用中用得十分普遍

④PyCharm

PyCharm是所有这类集成工具中,相对简单和集成度很高的,它非常适合编写较大和较复杂规模的程序

⑤Canopy(科学计算领域)

收费的,价格还很高

是开发科学计算和数据分析领域里面集成度很高并且使用相对方便的一个第三方IDE

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值