chapter 2 数据化运营的数据来源
2.1 数据化运营的数据来源类型
2.1.1 数据文件
结构化数据文件大多来源于数据库。
txt(任意指定分隔符)、csv(以逗号分割的数据文件)、tsv(以制表符分割的数据文件)时最常用的数据文件格式。
不同工具对于文件打开的性能支持有差异,文件<=100M-----Excel,几百M-----notepad,G-----ultraedit。
2.1.2 数据库
数据库是按照数据结构来组织、存储和管理数据的仓库,广泛应用于CMS,CRM,OA,ERP,DSS,数据仓库和数据集市,进销存管理,生产管理,仓储管理等各类企业运营事务中。
数据库应用
应用类型 | 具体应用 |
事务型工作 | 数据的定义、存储、增加、删除、更新、查询 |
数据清洗 | 数据传输、同步、抽取、转换、加载 |
分析型工作 | 数据计算、关联查询、OLAP |
其他 |
数据权限控制、数据质量维护、异构数据库、多系统通信交互 |
数据库类型
类型 | 应用场景 |
非关系型 | 面向高性能并发读写的键值数据库,有点事具有极高的并发读写性能,查找速度快,典型代表是Redis、Tokyo Cabinet、Voldmort |
面向海量文档的文档数据库,有点事对数据要求不严格,无需提前定义和维护表结构,典型代表为MongoBD、CouchDB | |
面向可扩展性的列式数据库,优点是查找速度快,可扩展性强,通过分布式扩展来适应数据量的增加以及数据结构的变化,典型代表为Cassandra、HBase、Riak | |
面向图结构的图形数据库,优点是利用图结构相关算法,满足特定的数据计算需求,例如最短路径搜寻、关系查询风,典型代表是Neo4J、InfoGrid、InfiniteGraph | |
关系型 | DB2、Sybase、Oracle、PostgreSQL、SQL Server、MySQL等 |
2.3.1 API
服务型API | 基于预定义的规则,通过调用API实现特定功能。 |
数据型API | 通过特定语法向服务器发送数据请求,返回特定格式的数据,多返回JSON(由JavaScript创建,广泛应用于web数据交互)、XML格式(可扩展标记语言) |
2.4.1 流式数据
流式数据指的是实时或者接近实时的时效性处理的大数据流。常见的流式数据处理使用Spark、Storm和Samza框架。应用场景:在线个性化推荐系统、网站用户实时行为采集和分析、物联网机器日志实时分析、金融实时消费反欺诈、实施异常人员识别等。
按照数据对象分类
用户行为数据流 |
围绕人产生的数据流 |
用户行为数据流采集平台可分为web站、移动站和app应用 |
可使用JS脚本采集、NoScript、 SDK(针对APP) |
机器数据流 |
围绕物产生的数据流 |
包括从机器的生产、制造、应用、监控和管理等过程产生的所有数据 |
例如机器运行日志、传感器监控数据、音频采集器数据、监控图像和视频、GPS地理数据等 |
2.1.5 外部公开数据
2.1.6 其他来源