浅谈——数据采集&爬虫

最新推荐文章于 2025-10-02 09:01:19 发布

原创最新推荐文章于 2025-10-02 09:01:19 发布 · 1.1k 阅读

·

8

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#爬虫 #服务器 #网络爬虫 #大数据 #java

API知识分享专栏收录该内容

48 篇文章

订阅专栏

随着大模型的火爆与光速崛起，不论是金融、医疗还是社会治理，可以说是各个领域都已融入人工智能，探索融入大模型。数据、算力、算法是人工智能的重要三大因素，有时候还会将场景也算上，看作是人工智能应用发展的重要四大因素。

那为什么会将数据排在第一位呢？其实几大因素并不存在优劣顺序之分。恰巧杨杨哥从事与数据相关工作，且本期内容也与数据相关，所以将数据排在了第一位。

提到数据，首先肯定要介绍一下Common Crawl。Common Craw| 是一个海量的、非结构化的、多语言的网页数据集。它包含了超过8年的网络爬虫数据集，包含原始网页数据(WARC)、元数据(WAT)和文本提取(WET)，拥有PB级规模。它是一家非营利性组织创建的一个开放数据平台。国内外很多研究、应用的数据，其都占有一定的比例，是一个公认的重要数据来源。如Chat-GPT3的训练集中，Common Crawl的数据占60%。当然，Common Crawl的原始数据是杂糅的，需要通过一系列的数据清洗洗掉脏数据，再通过数据处理、数据增强、人工过滤等方式，最终形成标准、规范的高质量数据。

简要介绍Common Crawl之后，回归正题，开始学习数据采集中的网络爬虫。

数据采集是我们在分析和解决实际问题时非常重要的环节。准确地收集和整理数据可以为后续的数据分析和处理打下坚实的基础。数据采集其实有很多种方式，比如:

（1）数据库查询:数据库是一种结构化存储数据的方式，可以通过查询来获取所需的数据。

（2）网络爬虫:网络爬虫是一种自动收集和解析网页信息的程序。

（3）API获取: API 是一种提供特定功能的-一组接口，可以被其他应用程序调用。

（4）日志文件:日志文件是一种记录程序运行过程中各种信息的文件。

（5）传感器数据:传感器是一种能够感知和测量物理量的设备。

（6）问卷调查: 问卷调查是一种通过向参与者发放问卷并收集其回答信息的方法。

（7）公开数据源:公开数据源是指由政府、组织或个人公开提供的数据集。

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。