python数据分析与数据化运行-学习笔记(1)

最新推荐文章于 2024-03-29 17:38:22 发布

原创最新推荐文章于 2024-03-29 17:38:22 发布 · 1k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#python #数据分析 #数据库

Python学习专栏收录该内容

1 篇文章

订阅专栏

本文详细介绍了数据化运营中不同类型的数据来源，包括数据文件（如txt、csv、tsv）、数据库（如事务型、分析型工作）、API（服务型和数据型）、流式数据（如用户行为和机器数据流）以及外部公开数据。数据库类型涵盖非关系型、关系型等，而API则涉及JSON和XML格式的数据交互。流式数据处理框架如Spark、Storm和Samza在实时分析中起到关键作用。此外，数据还可来源于API接口和流式数据流，如用户行为和机器日志。

chapter 2 数据化运营的数据来源

2.1 数据化运营的数据来源类型

2.1.1 数据文件

结构化数据文件大多来源于数据库。

txt（任意指定分隔符）、csv（以逗号分割的数据文件）、tsv（以制表符分割的数据文件）时最常用的数据文件格式。

不同工具对于文件打开的性能支持有差异，文件<=100M-----Excel，几百M-----notepad，G-----ultraedit。

2.1.2 数据库

数据库是按照数据结构来组织、存储和管理数据的仓库，广泛应用于CMS,CRM,OA,ERP,DSS,数据仓库和数据集市,进销存管理,生产管理,仓储管理等各类企业运营事务中。

数据库应用

应用类型	具体应用
事务型工作	数据的定义、存储、增加、删除、更新、查询
数据清洗	数据传输、同步、抽取、转换、加载
分析型工作	数据计算、关联查询、OLAP
其他	数据权限控制、数据质量维护、异构数据库、多系统通信交互

数据库类型

类型	应用场景
非关系型	面向高性能并发读写的键值数据库，有点事具有极高的并发读写性能，查找速度快，典型代表是Redis、Tokyo Cabinet、Voldmort
	面向海量文档的文档数据库，有点事对数据要求不严格，无需提前定义和维护表结构，典型代表为MongoBD、CouchDB
	面向可扩展性的列式数据库，优点是查找速度快，可扩展性强，通过分布式扩展来适应数据量的增加以及数据结构的变化，典型代表为Cassandra、HBase、Riak
	面向图结构的图形数据库，优点是利用图结构相关算法，满足特定的数据计算需求，例如最短路径搜寻、关系查询风，典型代表是Neo4J、InfoGrid、InfiniteGraph
关系型	DB2、Sybase、Oracle、PostgreSQL、SQL Server、MySQL等

2.3.1 API

服务型API	基于预定义的规则，通过调用API实现特定功能。
数据型API	通过特定语法向服务器发送数据请求，返回特定格式的数据，多返回JSON（由JavaScript创建，广泛应用于web数据交互）、XML格式（可扩展标记语言）

2.4.1 流式数据

流式数据指的是实时或者接近实时的时效性处理的大数据流。常见的流式数据处理使用Spark、Storm和Samza框架。应用场景：在线个性化推荐系统、网站用户实时行为采集和分析、物联网机器日志实时分析、金融实时消费反欺诈、实施异常人员识别等。

按照数据对象分类

用户行为数据流

围绕人产生的数据流

用户行为数据流采集平台可分为web站、移动站和app应用

可使用JS脚本采集、NoScript、

SDK(针对APP)

机器数据流

围绕物产生的数据流

包括从机器的生产、制造、应用、监控和管理等过程产生的所有数据

例如机器运行日志、传感器监控数据、音频采集器数据、监控图像和视频、GPS地理数据等