《自然语言处理实战入门》 ---- 第2课：网络爬虫简介

最新推荐文章于 2022-12-31 12:10:35 发布

shiter

最新推荐文章于 2022-12-31 12:10:35 发布

阅读量2.4k

点赞数 1

CC 4.0 BY-SA版权

分类专栏：自然语言处理实战入门自然语言处理实战入门【Generative AI重制版】文章标签： NLP 自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/wangyaninglm/article/details/89007652

自然语言处理实战入门【Generative AI重制版】同时被 2 个专栏收录

169 篇文章 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

自然语言处理实战入门

37 篇文章

订阅专栏

我们平时做自然语言处理，机器学习，都是希望能够有丰富的训练数据集，这样才能获取质量上乘的模型。在大数据时代，处理数据已经不再是是问题了，spark，hadoop ，Elastic search提供了海量甚至巨量的分布式数据处理方法。问题是没有数据怎么办？在合理合法的前提下自然语言处理的语料和其他机器学习模型训练数据需要的图片等等各类数据，我们其实都是可以通过网络爬虫的方式进行积累的。

文章大纲

1. 网络爬虫
参考文献

1. 网络爬虫

网络爬虫(Web Spider)又称网络蜘蛛、网络机器人，是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。

网络爬虫按照系统结构和实现技术，大致可分为一下几种类型：

通用网络爬虫：就是尽可能大的网络覆盖率，如搜索引擎(百度、雅虎和谷歌等…)。
聚焦网络爬虫：有目标性，选择性地访问万维网来爬取信息。
增量式网络爬虫：只爬取新产生的或者已经更新的页面信息。特点：耗费少，难度大
深层网络爬虫：通过提交一些关键字才能获取的Web页面，如登录或注册后访问的页面。

注：实际工作中通常是几种爬虫技术结合实现。

1.1 网络爬虫的合法性

网络爬虫及其使用时法律所允许的内容仍然处于建设当中。

爬虫所带来风险主要体现在以下3个方面：

1、违反网站意愿，例如网站采取反爬措施后，强行突破其反爬措施；
2、爬虫干扰了被访问网站的正常运营；
3、爬虫抓取了受到法律保护的特定类型的数据或信息。

那么作为爬虫开发者，如何在使用爬虫时避免进局子的厄运呢？

1、严格遵守网站设置的robots协议；
2、在规避反爬虫措施的同时，需要优化自己的代码，避免干扰被访问网站的正常运行；
3、在设置抓取策略时，应注意编码抓取视频、音乐等可能构成作品的数据，或者针对某些特定网站批量

了解本专栏

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

shiter 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。