开启Python网络爬虫之旅
一、爬虫基础与环境搭建
在当今数字化时代,互联网蕴含着海量的数据。这些数据既通过结构化的API提供,也直接通过网站内容呈现。API中的数据高度结构化,而网页中的信息往往是非结构化的,需要进行收集、提取和处理才能发挥价值。
要开始进行网络爬虫相关的工作,首先需要搭建Python开发环境。主要需要的工具是Python 3解释器,示例代码使用的是免费版的Anaconda Python发行版,具体版本为3.6.1 。其他Python 3发行版理论上也适用,但未经过测试。代码中经常会用到各种Python库,这些都可以使用 pip 进行安装,例如 pip install 库名 。
部分操作需要用到Amazon AWS账户,可在 https://portal.aws.amazon.com/billing/signup 创建新账户,第一年有免费使用权限。同时,一些操作会用到Elasticsearch ,可在 https://github.com/elastic/elasticsearch 获取免费开源版本,elastic.co也提供有14天免费试用的云托管版本。另外,还会用到MySQL和PostgreSQL作为数据库示例,可分别从
超级会员免费看
订阅专栏 解锁全文
2029

被折叠的 条评论
为什么被折叠?



