数据的“价值属性”—观点分享

引言:数字化转型的基础,是承认数据的价值属性。一切数字化实践活动,都是建立在认为数据具有价值属性这个重要的前提假设之上的。

本文我们讨论一下,如何理性看待数据的价值,以及如何有效地利用和发挥数据的价值,赋能各行各业的数字化转型实践。

公众号原文:七个观点:理性看透数据的价值属性icon-default.png?t=N7T8https://mp.weixin.qq.com/s?__biz=MzA4NjI3MjI5Mw==&mid=2650216541&idx=1&sn=fd5f166252b0d46025ffd7f531dcf1d5&chksm=87c88817b0bf01017821e007f5a474e559755184b1f3551bfe4bb2ea874b7a049b61f2cdbf7f&token=1009248179&lang=zh_CN#rd

观点1:数据有价值,不等于数据能带来价值

价值属性是数据的天然属性,这一点是毋庸置疑的,但是有价值和能够挖掘出价值,利用好价值,又是两回事。

这一点就好比,自然界中的石头里含有翡翠和黄金,翡翠和黄金都是价值不菲的,但是从原石中提炼宝矿,又是十分费力的事情,不是谁都做得到的,如果太难,去挖掘这些价值也就不划算。

这就是为什么,尽管人类历史的发展过程中,早就有记录数据的习惯,但是数字化的产业实践,也只是近十几年才逐渐“铺展”开来。

其背后主要的驱动力,就是在于数据分析技术普及了,更多的数据分析技术可以使用,并且使用这些技术的软硬件工具越来越多,使得数据价值开发的成本越来越低。

因此,如果数据中的价值不能被开采,那么数据就无法带来价值,此时,数据的价值就只是潜在的价值,不是真正意义上的价值。

很多企业在数字化转型时,都积累了大量的数据资源,但是这些数据资源并不能当作数据资产,因为没有被用起来,即没有价值性。

在挖掘数据的价值时,要进行相应的“成本-收益”分析。当挖掘数据所带来的收益大于成本时,就可以得到数据的价值,反之,如果挖掘数据带来的收益微薄,而投入的成本巨大,那么数据中的价值就不会在生产实践中被“汲取”。

此时,即便数据本身是有价值的,但也是无意义的,因为价值不会被“看见”。

观点2:数据的价值不具有“排他性

在数字经济时代,数据是一种非常重要的生产要素,数据与其他生产要素的一个非常重要的区别在于,数据不具有排他性。

数据的价值不会因为某个人或者组织使用了,其他个人或组织就不能再加以利用。也正是基于这样的原因,数据的共享和交易活动更加值得鼓励,也更加容易产生。

从“经济学”的角度来看,数据构建的初始成本也许很大,但是复制数据的边际成本几乎为零。

当构建出有价值的数据资源时,可以通过传播行为,大规模地复制数据的“价值”,这种特质也是整个数字经济生态快速发展的重要原因之一。

值得注意的是,数据不具有排他性是“相对的”。

毕竟,最先使用数据资源的一方,可能会因为提前发现数据背后的业务洞察,从中获得一定的商业竞争性壁垒。

观点3:数据的价值与使用场景相关

数据是客观的,但是从数据中获取的价值是主观的。

同样的数据,不同分析者由于认知水平不同,业务知识背景不同,观察数据的视角不同,以及分析和使用数据的目的不同,从数据中挖掘、解读出的信息价值也不一样。

数据的价值必须依赖于一定的业务框架视角,是相对的而不是绝对的。也正是基于此,数字化实践必须以业务驱动才能落地。

因为只有数据资源最终所服务的业务方,才能给出真正准确的“数据价值”投影维度。

在数据中台的建设中,就充分地体现了数据价值场景化落地的战略思路。

通过在数据中台上对企业的数据能力进行“服务化”封装,可降低业务人员对数据的使用门槛,提高业务人员对数据进行“场景实验”的尝试数量规模,从而更大概率地寻找到使数据价值充分释放的“完美”场景。

观点4:数据的价值具有时间效应

有些数据的价值是时间敏感的,尤其是数据背后的信息旨在服务于用户“即时”的判断和决策。

例如,分析一个用户的购买偏好,通常参考过去一个月的消费记录,而三年前的消费记录,往往没有太大的参考价值。

也正是基于此,很多数据分析应用中,需要满足“当下分析”的需求,在大数据技术的普及下,流数据分析已经成为十分关键的数据分析框架。

建立在流数据分析上的实时量测、实时监控、实时预警,已经成为典型的“时间敏感型”数字化业务应用模式。

观点5:数据的价值具有“非线性”叠加属性

何谓非线性,数据之间的融合不是简单的线性加成关系。简单来说,就是“1+1”不一定等于2,可能大于2,也可能小于2。

当1+1>2时,体现了不同数据维度在融合的时候,形成了更多“跨主题”的综合业务场景,可以支撑更广泛的数据关联分析、数据计算推理等数字化应用实例;

当1+1<2时,一种典型情况是,不同渠道来源的数据在融合时会带来不一致性,当这种不一致性很大时,会带来对数据查询和选择的困惑,导致数据资源的可用性被“削弱”。

观点6:数据可以有“负”价值

数据的价值不一定是“正向”的,也可能是“负向”的。从数据中提取的信息可能具有误导性,也可能是虚假或恶意的。

不管是有意或无意的因素,当数据的整体质量不高时,通过数据分析得到的结论往往会给业务带来负面的影响。

比如,用户可能基于数据做出错误的决策,或将关键事件的发生归结为错误的原因,从而导致管理失能。

为了避免数据对企业带来“负”价值,持续的数据治理是非常关键的管理举措。在这其中,包括两个十分重要的环节:一是识别有害数据,二是对有害数据进行剔除或整改。

观点7:数据越分享,越有价值

数据的分享会带来更多价值,单个业务方对数据进行分析的能力和相关认知是局限的,因此,对于数据价值的开发水平也是十分有限的。

对于同样的数据,如果可以开放共享给更多企业内外的主体进行价值的挖掘,那么就可以充分地利用数据资源,在不同领域创造更大范围的价值。

数据分享,除了基于拓宽数据的使用场景来提升数据价值,还可以通过与不同领域的外部数据进行融合,创造出更丰富的数据模型。

在极端的情况下,有些数据虽然自身难以挖掘出有意义的业务结论,但是在融合的过程中可能为其他领域的业务,带来“意想不到”的交叉信息赋能。

欢迎关注微信公众号:大话数字化转型(dataminingxmz)了解更多数据应用前沿技术、方法与实践。

### 数据资产的价值挖掘方法 数据资产的价值挖掘涉及多个方面的工作流程和技术支持。为了有效挖掘数据价值,需关注以下几个关键环节: #### 1. 数据采集与预处理 数据采集是从同来源获取原始数据的过程,这些来源可以是内部系统、外部API或是社交媒体等渠道[^4]。对于同类型的数据(结构化、半结构化和非结构化),应采取相应的策略进行高效捕获。 完成初步收集之后,则要进入预处理阶段,即对所获得的信息执行必要的清理工作——去除噪声点、填补缺失值并解决重复记录等问题;接着再做标准化转换使各字段间保持一致性和可比较性。 #### 2. 数据存储管理 建立可靠持久化的基础设施用于保存经过整理后的高质量资料至关重要。当前主流做法倾向于构建大规模分布式架构下的数据仓库或数据湖泊环境,在那里能够容纳海量级别的多模态信息资源,并提供灵活查询接口满足多样化需求场景的要求。 #### 3. 高级分析建模 借助先进的算法模型开展深层次洞察活动,比如利用机器学习预测未来趋势走向,或者依靠自然语言处理解析文本背后隐藏的情感倾向等内容特征。此外还有图形计算框架可以帮助理解实体之间错综复杂的关系网络结构,从而辅助更精准地定位潜在商业机会所在之处[^1]。 #### 4. 应用开发部署 最终目的是要把上述研究成果转化为实际行动指南,指导具体业务运作实践当中去落实执行。因此需要设计易于理解和操作的应用程序界面给终端用户提供直观交互体验的同时也要确保后台逻辑严密稳定运行无误。 ### 使用的技术工具 针对以上各个层面的任务目标,市场上存在众多优秀的开源项目及商业化解决方案可供选择: - **ETL 工具** 如 Apache NiFi 和 Talend Studio 可简化异构数据库之间的迁移同步作业; - **大数据平台** 像 Hadoop 生态圈内含 Hive/Spark SQL 等组件能很好应对PB级别以上的离线批处理任务;而 Kafka 流式引擎则适合实时在线消费推送模式下快速响应瞬息万变的事物动态变化情况; - **AI 平台** TensorFlow 或 PyTorch 提供了丰富的神经网络层库函数方便开发者搭建深度前馈反馈机制模拟人类大脑思维方式解决问题;Scikit-Learn 则专注于传统监督型分类回归问题提供了大量实用便捷的功能模块; - **可视化仪表盘** Tableau / PowerBI 这样的产品允许用户无需编程基础就能轻松创建美观大方又富含深刻意义的专业报表图表展示成果效果一目了然便于分享交流传播观点意见[^2]。 ```python import pandas as pd from sklearn.model_selection import train_test_split from sklearn.preprocessing import StandardScaler from sklearn.linear_model import LogisticRegression from sklearn.metrics import accuracy_score # 加载数据集 data = pd.read_csv('example.csv') # 特征工程:选取部分列作为输入变量X,另一列为标签y X = data[['feature_1', 'feature_2']] y = data['label'] # 将数据分为训练集和测试集 X_train, X_test, y_train, y_test = train_test_split(X, y) # 对数值属性实施缩放变换 scaler = StandardScaler().fit(X_train) scaled_X_train = scaler.transform(X_train) scaled_X_test = scaler.transform(X_test) # 构造逻辑斯蒂回归器实例对象lr并拟合参数估计最优解 lr = LogisticRegression() lr.fit(scaled_X_train, y_train) # 输出模型性能指标得分 print(f'Accuracy on test set: {accuracy_score(y_test, lr.predict(scaled_X_test)):.3f}') ```
评论 1
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

数字化刘老师

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值