前言
今年的教师节注定是不平凡的。我突然被领导通知要参加一个比赛,在9月23日开始,是关于大数据的。参赛资料显示,其主要考察内容是使用爬虫获取数据,并进行可视化。作为一名Oracle DBA,我当然知道这些知识大量命中了我的知识盲区。本着“数据工程师应该自己搞定数据”这个原则,我决定来针对自己来一个10天特训,对Python爬虫进行速成。
知识结构
相信做DBA的朋友和我有一样的困扰,为什么开发弟兄们总是很少考虑底层数据库的设计和SQL的质量呢?领导为啥老帮开发弟兄说话呢?到底为啥总是“得开发者得天下”?这次速成计划我得以好好以开发视角来看待项目。现将爬虫技术需要的最小化知识整理一下,大致分为Python基础,爬虫相关程序包,可视化工具FLASK。今天先介绍Python基础
Python基础
这一块我将列出Python爬虫所需要掌握的最小化Python知识。
开发环境
这里建议使用Pycharm,高效的自动排版,语法高量,命令补全,连我这个完全没有接触过开发的新手,都能很快上手。
条件和循环
条件判断主要包括if语句,主要有if嵌套和if else。
循环主要有while和for循环
常用数据结构
字符串
项目中需要大量处理文本,判断文本。
列表
表示方式为[]
爬虫工具中获取的数据大都存储在列表当中;