前言

万万没想到我一个小小的前言就要写一篇文章吧~(hhhh)

  • 为什么我要写这篇文章?
  1. 大学生活比较无聊, 搞一点事情证明自己不是蹉跎岁月
  2. 希望能让读者一定程度上掌握python 的语法和简单的爬虫
  3. 最好能做到大家交流学习,共同进步
  • 这篇文章的受众是?
  1. 已有一定编程基础的同学。例如:计算机类专业的大一新生,不大满足于在一个黑框框里跑代码,想要有一定“成效”
  2. 没有编程基础,但希望学习编程,并且希望能看得到“成效”(当然,更建议去看专门的语法书)
  • 看完教程能干嘛?上天 (雾)
  1. 首先,你可以向身边人吹水,你会编程,还会一项热门的技术“爬虫”
  2. 用教程内容,解决一些自己的实际问题(主要为:快速收集网上的大量资源)
  3. 初步形成编程思维,为日后的生活学习打下基础
  4. 找一份爬虫的工作
  • 为什么是python ?
  1. python 比较简单?貌似大家都这样说
  2. python 差不多是现在最流行的通用脚本语言
  3. python 有广泛的社区基础,可以说,只要你想到的问题,基本上都有python 的第三方库来给你实现。so easy (最近非常火爆的什么“深度学习”、“机器学习”,也大多用python 来实现)
  4. 什么?你想到的问题还没有现成的第三方库?恭喜你,扬名立万的时间到了,赶紧自己研究研究写一个吧!会载入“史册”的!
  • 为什么是爬虫?
  1. 首先得明白什么是爬虫:一种自动抓取互联网上信息的技术
  2. 我们在日常的工作学习中,经常会有“收集信息”的需要,显然,这个过程是枯燥无味不断重复的,那就让计算机去干吧
  3. 这点最重要,我目前只会这门手艺(笑哭)
  • 爬虫的合法性

快播老总王欣: 技术本身是中性的,是没有标签的,没有良性和恶性的。

《Python 网络爬虫:从入门到实践》: 从目前的情况来看,如果抓取的数据属于个人使用或科研范畴,基本不存在问题; 而如果数据属于商业盈利范畴,就要就事而论,有可能属于违法行为,也有可能不违法。

首先,我们的爬虫得符合网站的robots 的协议。许多网站在根目录下会保存robots.txt,该文件里面描述了对爬虫的限制,比如说:哪些爬虫可以来爬取,哪些目录禁止被爬取等内容。如果,违反协议内容,有可能会被限制登陆网站;
但仍有许多网站没有robots.txt。这时,我们得遵循一定 规范
(1)优化自己的代码,避免干扰被访问网站的正常运行;
(2)在设置抓取策略时,对一些有版权的作品,需要慎重对待;
(3)在使用、传播抓取到的信息时,应当检查所抓取的内容。如发现属于用户的个人信息隐私或者商业秘密的,应及时停止行为并删除。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值