大数据(读书笔记)

本文深入探讨了大数据的核心概念,包括预测、思维变革、商业与管理领域的革新。通过实例展示了大数据如何通过量化、创新定价策略和角色定位影响企业竞争力。同时,文章讨论了大数据带来的风险和责任,强调其作为参考答案而非最终答案的角色。

1. 基本概念

1.1 大数据的核心就是预测

1.2 思维变革

    1)更多:不是随机样本,而是全体数据 (大数据让我们更清楚地看到了样本无法揭示的细节信息,让数据发声

    2)更杂:不是精确性,而是混杂性

    3)更好: 不是因果关系,面是相关关系 (只需要知道是什么,而不需要知道为什么)

    大数据,改变人类探索世界的方法。

1.3 商业变革

    1)数据化:一切皆可“量化”

    2)价值:“取之不尽,用之不竭”的数据创新

    3)角色定位:数据、技术与思维的三足鼎立(大数据价值链的构成:大数据掌控公司<如:ITASoftware>、大数据技术公司<如:Farecast>、大数据思维公司和个人、全新的数据中间商)

    大数据,决定企业的竞争力。

1.4 管理变革

    1)风险:让数据主宰一切的隐忧

    2)掌控:责任与自由并举的信息管理

    大数据为我们提供的不是最终答案,只是参考答案,帮助是暂时的,而更好的方法和答案还在不久的未来。

1.5 实例

    1)验证(数学模型)预测是否准确的方法:根据过去几年的数据进行计算,看是否与过去的结果一致(Google预测流感采用此方案)。

    2)Farecast:埃齐奥尼创立的一个预测系统,它帮助虚拟的乘客节省了很多钱。这个预测系统建立在41天内价格波动产生的12000个价格样本基础之上,而这些信息都是从一个旅游网站<ITASoftware>上搜集的。这个预测系统并不能说明原因,只能推测会发生什么。它只知道利用其它航班的数据来预测未来机票价格的走势,能帮助消费者抓住最佳的购买时机。在Farecast得到投资之后 ,找到了一个行业机票预订数据库,如今Farecast已经拥有约2000亿条飞行数据记录。在Microsoft以1.1亿美元收购之后,其预测准确度高达75%,平均每张机票可节省50美元。

   3)数据的奥妙只为谦逊、愿意聆听且掌握了聆听手段的人所知。

   4)大数据是人们获得新的认知,创造新的价值的源泉;大数据还是改变市场、组织机构、以及政府与公民关系的方法。

   5)真正的革命并不在于分析数据的机器,而在于数据本身和我们如何运用数据。

   6)量变-->质变: 如纳米技术,是让一切变小而不是变大。其原理就是当事物到达分子的级别时,它的物理性质就会发生改变。一旦你知道这些新的性质,就可以用同样的原料来做以前无法做的事情。一旦到达纳米级别,金属可以变得柔软,陶土可以具有弹性。同样,当我们增加所利用的数据量时,我们就可以做多在小数据的基础上无法完成的事情。

   7)亚马逊可以帮我们推荐想要的书,google可以关联网站排序,facebook知道我们的喜好,而LinkedIn可以猜出我们认识谁。同样的技术也可以运用到疾病诊断、推荐治疗措施,甚至是识别潜在的犯罪分子。

   8)大数据已经成为解决紧迫世界性问题,如抑制全球变暖、消除疾病、提高执政能力和发展经济的一个有力武器。

2. 不是随机样本,而是全体数据

    1)随机采样的成功依赖于采样的绝对随机性,但是实现采样的随机性非常困难。一旦采样的随机性存在任何偏见,分析结果就会相去甚远。  

   


 

  

    

















### 关于大数据相关书籍及学习资料的推荐 对于希望深入理解并掌握大数据技术的学习者来说,以下是几本经典书籍以及一些高质量的学习资源: #### 1. **《大数据技术与实践》** 这本书提供了全面的大数据技术体系介绍,涵盖了从日志采集到数据同步、离线计算再到实时计算等多个方面的内容[^3]。书中不仅详细描述了具体的技术实现方法,还针对实际应用场景中的常见问题给出了有效的解决方案。 #### 2. **Hadoop生态系统的入门指南** 如果目标是了解如何构建基于Hadoop的数据处理平台,则可以参考一份专注于Hadoop的工作笔记。此文档特别提到了利用Flume来进行高效日志收集,并将其保存至HDFS或HBase中[^4]。这为初学者提供了一个清晰的操作路径来熟悉分布式文件系统及其周边工具链。 #### 3. **综合性的在线课程与教程** 除了纸质书之外,在网络上也有许多优质的视频讲座和互动练习可以帮助巩固理论知识。例如,“大数据产业”的定义及相关企业经济活动分析能够帮助我们更好地认识整个行业的背景和发展趋势[^1];而另一份材料则按照不同层次划分出了完整的技能树结构,适合按部就班地提升个人能力水平[^2]。 ```python # 示例代码展示简单的MapReduce逻辑 def map_function(data_chunk): results = [] for record in data_chunk: key, value = process_record(record) results.append((key,value)) return results def reduce_function(key_values_pair_list): aggregated_result={} for k,v in key_values_pair_list: if not k in aggregated_result.keys(): aggregated_result[k]=[] aggregated_result[k].append(v) final_output={k:sum(vs)/len(vs)for k,vs in aggregated_result.items()} return final_output ``` 以上就是关于大数据领域内值得阅读的一些参考资料汇总。每种形式都有其独特的优势所在,可以根据自己的偏好选择最适合的方式开启这段旅程!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值