前言

原创于 2019-04-16 18:07:42 发布 · 798 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#python #爬虫

python 小爬虫专栏收录该内容

4 篇文章

订阅专栏

万万没想到我一个小小的前言就要写一篇文章吧~（hhhh）

为什么我要写这篇文章？

大学生活比较无聊，搞一点事情证明自己不是蹉跎岁月
希望能让读者一定程度上掌握python 的语法和简单的爬虫
最好能做到大家交流学习，共同进步

这篇文章的受众是？

已有一定编程基础的同学。例如：计算机类专业的大一新生，不大满足于在一个黑框框里跑代码，想要有一定“成效”
没有编程基础，但希望学习编程，并且希望能看得到“成效”（当然，更建议去看专门的语法书）

看完教程能干嘛？上天（雾）

首先，你可以向身边人吹水，你会编程，还会一项热门的技术“爬虫”
用教程内容，解决一些自己的实际问题（主要为：快速收集网上的大量资源）
初步形成编程思维，为日后的生活学习打下基础
~~找一份爬虫的工作~~

为什么是python ？

python 比较简单？貌似大家都这样说
python 差不多是现在最流行的通用脚本语言
python 有广泛的社区基础，可以说，只要你想到的问题，基本上都有python 的第三方库来给你实现。so easy （最近非常火爆的什么“深度学习”、“机器学习”，也大多用python 来实现）
什么？你想到的问题还没有现成的第三方库？恭喜你，扬名立万的时间到了，赶紧自己研究研究写一个吧！会载入“史册”的！

为什么是爬虫？

首先得明白什么是爬虫：一种自动抓取互联网上信息的技术
我们在日常的工作学习中，经常会有“收集信息”的需要，显然，这个过程是枯燥无味不断重复的，那就让计算机去干吧
这点最重要，我目前只会这门手艺（笑哭）

爬虫的合法性

快播老总王欣：技术本身是中性的，是没有标签的，没有良性和恶性的。

《Python 网络爬虫：从入门到实践》: 从目前的情况来看，如果抓取的数据属于个人使用或科研范畴，基本不存在问题; 而如果数据属于商业盈利范畴，就要就事而论，有可能属于违法行为，也有可能不违法。

首先，我们的爬虫得符合网站的robots 的协议。许多网站在根目录下会保存robots.txt，该文件里面描述了对爬虫的限制，比如说：哪些爬虫可以来爬取，哪些目录禁止被爬取等内容。如果，违反协议内容，有可能会被限制登陆网站；
但仍有许多网站没有robots.txt。这时，我们得遵循一定规范。
（1）优化自己的代码，避免干扰被访问网站的正常运行；
（2）在设置抓取策略时，对一些有版权的作品，需要慎重对待；
（3）在使用、传播抓取到的信息时，应当检查所抓取的内容。如发现属于用户的个人信息隐私或者商业秘密的，应及时停止行为并删除。