python数据分析与数据化运行-学习笔记(1)

本文详细介绍了数据化运营中不同类型的数据来源,包括数据文件(如txt、csv、tsv)、数据库(如事务型、分析型工作)、API(服务型和数据型)、流式数据(如用户行为和机器数据流)以及外部公开数据。数据库类型涵盖非关系型、关系型等,而API则涉及JSON和XML格式的数据交互。流式数据处理框架如Spark、Storm和Samza在实时分析中起到关键作用。此外,数据还可来源于API接口和流式数据流,如用户行为和机器日志。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

chapter 2 数据化运营的数据来源

2.1 数据化运营的数据来源类型

2.1.1 数据文件

        结构化数据文件大多来源于数据库。

        txt(任意指定分隔符)、csv(以逗号分割的数据文件)、tsv(以制表符分割的数据文件)时最常用的数据文件格式。

        不同工具对于文件打开的性能支持有差异,文件<=100M-----Excel,几百M-----notepad,G-----ultraedit。

2.1.2 数据库

        数据库是按照数据结构来组织、存储和管理数据的仓库,广泛应用于CMS,CRM,OA,ERP,DSS,数据仓库和数据集市,进销存管理,生产管理,仓储管理等各类企业运营事务中。

数据库应用

应用类型具体应用
事务型工作数据的定义、存储、增加、删除、更新、查询
数据清洗数据传输、同步、抽取、转换、加载
分析型工作数据计算、关联查询、OLAP
其他

数据权限控制、数据质量维护、异构数据库、多系统通信交互

数据库类型

类型应用场景
非关系型面向高性能并发读写的键值数据库,有点事具有极高的并发读写性能,查找速度快,典型代表是Redis、Tokyo Cabinet、Voldmort
面向海量文档的文档数据库,有点事对数据要求不严格,无需提前定义和维护表结构,典型代表为MongoBD、CouchDB
面向可扩展性的列式数据库,优点是查找速度快,可扩展性强,通过分布式扩展来适应数据量的增加以及数据结构的变化,典型代表为Cassandra、HBase、Riak

面向图结构的图形数据库,优点是利用图结构相关算法,满足特定的数据计算需求,例如最短路径搜寻、关系查询风,典型代表是Neo4J、InfoGrid、InfiniteGraph

关系型DB2、Sybase、Oracle、PostgreSQL、SQL Server、MySQL等

2.3.1 API

服务型API基于预定义的规则,通过调用API实现特定功能。
数据型API通过特定语法向服务器发送数据请求,返回特定格式的数据,多返回JSON(由JavaScript创建,广泛应用于web数据交互)、XML格式(可扩展标记语言)

2.4.1 流式数据

        流式数据指的是实时或者接近实时的时效性处理的大数据流。常见的流式数据处理使用Spark、Storm和Samza框架。应用场景:在线个性化推荐系统、网站用户实时行为采集和分析、物联网机器日志实时分析、金融实时消费反欺诈、实施异常人员识别等。

按照数据对象分类

用户行为数据流

围绕人产生的数据流

用户行为数据流采集平台可分为web站、移动站和app应用

可使用JS脚本采集、NoScript、

SDK(针对APP)

机器数据流

围绕物产生的数据流

包括从机器的生产、制造、应用、监控和管理等过程产生的所有数据

例如机器运行日志、传感器监控数据、音频采集器数据、监控图像和视频、GPS地理数据等

2.1.5 外部公开数据

2.1.6 其他来源

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值