数据

部署运行你感兴趣的模型镜像

数据收集

网络数据采集

通过网络爬虫或网站的API接口获取网络公开数据,获取的数据大部分为非结构化数据,数据源非常丰富,不过采集的数据并不规范,需要进一步处理。

系统日志采集

通过企业业务平台日志系统手机业务日志数据,通过这种方式手机的数据通常为结构化数据,具有较高的可靠性和可用性。目前常用的日志收集系统主要有Scribe、Chukwa、Kkafka、Flume等

数据库采集

通过企业的数据库系统收集企业的业务数据,通过这种方式手机的数据通常为结构化数据,具有较高的规范性、可靠性和可用性。目前企业常用的关系型数据库系统主要包括SOLite、SqlSever、MySql、Oracle。除此之外,目前越来越多的企业也开始采用Redis和MongoDB这也的Nosql数据库系统。

数据处理

对采集到的数据进行必要的加工整理(清洗、集成、变换、规约),以达到数据分析的规范要求。这个步骤通常是“数据科学”任务周期中最耗时、最枯燥的阶段,但也是至关重要的一个环节。

数据存储

文本文件(txt、excel、dat等)

  • 采用文件形式存储、读写数据,操作方便。
  • 读写效率不高,不适用于大规模数据存储,不支持多用户并行操作

关系型数据库(SOLite、SqlSever、MySql、Oracle等)

  • 采用二维表形式的关系模型来组织数据的数据库
  • 支持ACID规则
  • 通过SQL语言操作数据库非常方便
  • 为了维护ACID规则,造成读写性能比较差,难以满足海量数据的高效读写需求

非关系型数据库(MongoDb、Redis、Hbase等)

  • 采用分布式方式、使用键值对存储数据
  • 读写性能高,数据扩展性好,数据类型灵活
  • 不支持SQL语言,学习成本高

数据分析

根据实际的任务需求,基于收集并进行加工处理后的数据,采用统计、机器学习或深度学习的方法建立、训练并优化模型,并应用模型解决实际任务中的问题。

您可能感兴趣的与本文相关的镜像

Anything-LLM

Anything-LLM

AI应用

AnythingLLM是一个全栈应用程序,可以使用商用或开源的LLM/嵌入器/语义向量数据库模型,帮助用户在本地或云端搭建个性化的聊天机器人系统,且无需复杂设置

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值