万万没想到我一个小小的前言就要写一篇文章吧~(hhhh)
- 为什么我要写这篇文章?
- 大学生活比较无聊, 搞一点事情证明自己不是蹉跎岁月
- 希望能让读者一定程度上掌握python 的语法和简单的爬虫
- 最好能做到大家交流学习,共同进步
- 这篇文章的受众是?
- 已有一定编程基础的同学。例如:计算机类专业的大一新生,不大满足于在一个黑框框里跑代码,想要有一定“成效”
- 没有编程基础,但希望学习编程,并且希望能看得到“成效”(当然,更建议去看专门的语法书)
- 看完教程能干嘛?
上天(雾)
- 首先,你可以向身边人吹水,你会编程,还会一项热门的技术“爬虫”
- 用教程内容,解决一些自己的实际问题(主要为:快速收集网上的大量资源)
- 初步形成编程思维,为日后的生活学习打下基础
找一份爬虫的工作
- 为什么是python ?
- python 比较简单?貌似大家都这样说
- python 差不多是现在最流行的通用脚本语言
- python 有广泛的社区基础,可以说,只要你想到的问题,基本上都有python 的第三方库来给你实现。so easy (最近非常火爆的什么“深度学习”、“机器学习”,也大多用python 来实现)
- 什么?你想到的问题还没有现成的第三方库?恭喜你,扬名立万的时间到了,赶紧自己研究研究写一个吧!会载入“史册”的!
- 为什么是爬虫?
- 首先得明白什么是爬虫:一种自动抓取互联网上信息的技术
- 我们在日常的工作学习中,经常会有“收集信息”的需要,显然,这个过程是枯燥无味不断重复的,那就让计算机去干吧
- 这点最重要,我目前只会这门手艺(笑哭)
- 爬虫的合法性
快播老总王欣: 技术本身是中性的,是没有标签的,没有良性和恶性的。
《Python 网络爬虫:从入门到实践》: 从目前的情况来看,如果抓取的数据属于个人使用或科研范畴,基本不存在问题; 而如果数据属于商业盈利范畴,就要就事而论,有可能属于违法行为,也有可能不违法。
首先,我们的爬虫得符合网站的robots 的协议。许多网站在根目录下会保存robots.txt,该文件里面描述了对爬虫的限制,比如说:哪些爬虫可以来爬取,哪些目录禁止被爬取等内容。如果,违反协议内容,有可能会被限制登陆网站;
但仍有许多网站没有robots.txt。这时,我们得遵循一定 规范 。
(1)优化自己的代码,避免干扰被访问网站的正常运行;
(2)在设置抓取策略时,对一些有版权的作品,需要慎重对待;
(3)在使用、传播抓取到的信息时,应当检查所抓取的内容。如发现属于用户的个人信息隐私或者商业秘密的,应及时停止行为并删除。