《大数据互联网大规模数据挖掘与分布式处理》阅读笔记一

本文是《大数据互联网大规模数据挖掘与分布式处理》的阅读笔记,强调了大数据的核心在于数据分析和价值创造,而不仅仅是数据量。作者讨论了大数据的误解,包括将其视为技能而非能力,以及误认为数据越多越好。文章提到了数据挖掘的关键在于正确解读数据,介绍了数据挖掘的基础概念如频繁项集和相似项,以及统计限制如邦弗朗尼原理。同时,还涉及了TF-IDF权重计算和哈希函数等技术。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

                                                                                                                                                                                                                                     作者:沈慧

        在看书之前,先查了查到底啥是大数据,精炼《大数据的四大误区》中的观点,然后自己理解一下如下:

1.      大数据的数据量庞大是必要非充分条件,不仅要数据量有保证,更重要的是充分利用数据产生价值,分析数据才是核心!

2.      懂大数据是指能力,而非技能。不是很理解作者所讲的的能力的定义,私以为,在海量数据时代的数据压力和业务需求下,只有掌握了大数据分析的技能和方法ÿ

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值