数据

最新推荐文章于 2025-12-03 09:58:14 发布

原创最新推荐文章于 2025-12-03 09:58:14 发布 · 145 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

数据库专栏收录该内容

2 篇文章

订阅专栏

部署运行你感兴趣的模型镜像

数据的科学处理流程

数据收集
数据处理
数据存储
数据分析

数据收集

网络数据采集

通过网络爬虫或网站的API接口获取网络公开数据，获取的数据大部分为非结构化数据，数据源非常丰富，不过采集的数据并不规范，需要进一步处理。

系统日志采集

通过企业业务平台日志系统手机业务日志数据，通过这种方式手机的数据通常为结构化数据，具有较高的可靠性和可用性。目前常用的日志收集系统主要有Scribe、Chukwa、Kkafka、Flume等

数据库采集

通过企业的数据库系统收集企业的业务数据，通过这种方式手机的数据通常为结构化数据，具有较高的规范性、可靠性和可用性。目前企业常用的关系型数据库系统主要包括SOLite、SqlSever、MySql、Oracle。除此之外，目前越来越多的企业也开始采用Redis和MongoDB这也的Nosql数据库系统。

数据处理

对采集到的数据进行必要的加工整理（清洗、集成、变换、规约），以达到数据分析的规范要求。这个步骤通常是“数据科学”任务周期中最耗时、最枯燥的阶段，但也是至关重要的一个环节。

数据存储

文本文件（txt、excel、dat等）

采用文件形式存储、读写数据，操作方便。
读写效率不高，不适用于大规模数据存储，不支持多用户并行操作

关系型数据库（SOLite、SqlSever、MySql、Oracle等）

采用二维表形式的关系模型来组织数据的数据库
支持ACID规则
通过SQL语言操作数据库非常方便
为了维护ACID规则，造成读写性能比较差，难以满足海量数据的高效读写需求

非关系型数据库（MongoDb、Redis、Hbase等）

采用分布式方式、使用键值对存储数据
读写性能高，数据扩展性好，数据类型灵活
不支持SQL语言，学习成本高

数据分析

根据实际的任务需求，基于收集并进行加工处理后的数据，采用统计、机器学习或深度学习的方法建立、训练并优化模型，并应用模型解决实际任务中的问题。

您可能感兴趣的与本文相关的镜像

Anything-LLM

Anything-LLM

AI应用

AnythingLLM是一个全栈应用程序，可以使用商用或开源的LLM/嵌入器/语义向量数据库模型，帮助用户在本地或云端搭建个性化的聊天机器人系统，且无需复杂设置

AI算力推荐

Anything-LLM

AnythingLLM是一个全栈应用程序，可以使用商用或开源的LLM/嵌入器/语义向量数据库模型，帮助用户在本地或云端搭建个性化的聊天机器人系统，且无需复杂设置

AI应用

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。