什么是大数据?
数据:是被记录下来可以被鉴别的符号,它是未加工和解释的原始素材,没有回答任何问题,没有任何意义。
信息:是与已经被处理,具有逻辑关系的数据,是对数据的解释,这种信息阅读者是有意义的。
大数据是由数目庞大,结构复杂,类型繁杂的数据组成的数据集合,是基于云计算的数据处理与应用模式,通过对数据的整合共享,交叉复用,形成智力资源和知识服务能力。
大数据的特征:顾名思义、大数据具有“大”体量大,类型繁多,价值密度低(海量数据有价值的数据量少),商业价值高,处理速度快。
谈起大数据就会关联到人工智能,而人工智能又含有许多领域,其中机器学习对大数据具有密切的合作关系。机器学习就一个数据处理的过程。
数据:人而言,人的数据有姓名、性别、年龄、身高、体重、外貌体征(圆脸、方脸、长头发、短头发、衣着)、性格特征等等。大量人就产生了大量关于人的数据。
机器学习可分为:有监督学习和无监督学习,半监督学习
有监督学习
无监督学习
有监督学习:给定数据的标签:对于“人”大数据,其数据标签可选择任意标签,例如对以大数据进行“性格”作为标签,有监督学习就会自动归类性别。
无监督学习:分类前为给定数据标签,直接对数据进行分类。
半监督学习:一小部分给定数据标签,大部分数据没有给定数据标签。
大数据分析:通过对数据的处理进行判定:如“人”的大数据:通过分析归类其各种标签可总结出他的性格特征,外貌长相等等。对于我个人理解大数据分析就是对数据进行统计归类分析而得出大多数人的数据关联。