大数据

大数据:是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。

大数据是一种方法论:“一切都被记录,一切都被数字化,从数据中寻找需求,寻找知识,发掘价值”。

大数据技术:指从各种各样类型的数据中快速获得有价值信息的能力。

 

大数据的特点:数据体量巨大、数据类型繁多、价值密度低、产生和处理速度快

 

新的大数据处理平台:

开源:Hadoop、Spark(Apache)、Atorm(Twitter)、MongoDb

商用:IBMPureData、OracleExadata、SAP Hana、Teradata AsterData、EMC GreenPlum、HP Vertica

 

Hadoop的优势:

    低成本 基于来源软件,运行与通用硬件平台。

    高扩展性 在可用的计算机集簇间分配数据并完成计算任务,这些集簇可以方便的扩展到数以千计的节点中。

    高效性 在节点之间动态分配计算任务并保证各个节点的动态平衡,处理速度非常快。

    高容错性 自动保存数据的多个副本,并且能够自动将失败的任务重新分配。

 

Hadoop生态圈:

存储数据HDFS(Hadoop Distributed File System),运行在通用硬件上的分布式文件系统。具有高度容错性、高吞吐量的的特点。

处理数据MapReduce,它是一种编程模型,Map(映射)和Reduce(归约),它极大地方便了分布式并行编程,与hdfs的高度融合,它是基于java来进行编程的。

数据仓库工具Hive,处理结构化SQL查询功能,将sql语句解释为MapReduce编程进行数据的处理,只能进行结构化的查询。

Pig MapReduce之上的高级过程语言,查询大型的半结构化数据集,处理非结构化数据。

HBase(Hadoop Database) 它是一个适用于非结构化数据存储的数据库,基于列存储,不同行可有不同数据列,保留数据多个时间版本。

Zookeeper 分布式应用程序协调服务提供一致性服务。



传统数据存储,分析处理
      ·RDBMS关系型数据库系统
EDW数据仓库
      ·针对结构化数据
集中式存储
集中式处理OLTP


大数据平台:
      ·HDFS
      ·Hadoop Distributed File System (分布式系统)
      ·建立在网络之上的软件系统
      ·运行在通用硬件上
      ·分布式文件系统
      ·高度容错性
      ·高吞吐量的
大数据处理数据
MapReduce
一种编程模型
"Map(映射)"和"Reduce(归约)"
极大地方便了分布式并行编程
与HDFS的高度融合


HBase
































操作系统:Windows;Linux(一般用于服务器的系统);Mac OS;等


虚拟软件(虚拟机:Virtual Machine),常用的虚拟软件:
VMware workstation
VirtualBox


Linux,基于Unix开发的系统;主要有RedHat;CentOS;Ubuntu;等都是基于Linux内核开发的系统
Linux安装(不同版本的官网地址):
VirtualBox(www.virtualbox.org)
CentOS(www.centos.org)
Ubuntu(www.ubuntu.com)
Fedora(https://getfedore.org/)


Linux周边配套软件
远程连接工具Xshell/SecureCRT
远程FTP工具FileZilla
远程文本编辑工具TextWrangler/Notepad++


Linux配置
主机名设置:/etc/sysconfig/network
主机名及IP地址对应关系设置:/etc/hosts


Linux系统管理
网络设置
   http://reverland.bitbucket.org/VirtualBox_net.html
关机重启
   reboot
   shutdown -r now 立刻重启(root用户使用)
   shutdown -r 10 过10min自动重启(root用户使用)
   shutdown -r 20:35 在时间为20:35时候重启(root用户使用)






根据原作 https://pan.quark.cn/s/459657bcfd45 的源码改编 Classic-ML-Methods-Algo 引言 建立这个项目,是为了梳理总结传统机器学习(Machine Learning)方法(methods)或者算法(algo),各位同仁相互学习交流. 现在的深度学习本质上来自于传统的神经网络模型,很大程度上是传统机器学习的延续,同时也在不少时候需要结合传统方法来实现. 任何机器学习方法基本的流程结构都是通用的;使用的评价方法也基本通用;使用的一些数学知识也是通用的. 本文在梳理传统机器学习方法算法的同时也会顺便补充这些流程,数学上的知识以供参考. 机器学习 机器学习是人工智能(Artificial Intelligence)的一个分支,也是实现人工智能最重要的手段.区别于传统的基于规则(rule-based)的算法,机器学习可以从数据中获取知识,从而实现规定的任务[Ian Goodfellow and Yoshua Bengio and Aaron Courville的Deep Learning].这些知识可以分为四种: 总结(summarization) 预测(prediction) 估计(estimation) 假想验证(hypothesis testing) 机器学习主要关心的是预测[Varian在Big Data : New Tricks for Econometrics],预测的可以是连续性的输出变量,分类,聚类或者物品之间的有趣关联. 机器学习分类 根据数据配置(setting,是否有标签,可以是连续的也可以是离散的)任务目标,我们可以将机器学习方法分为四种: 无监督(unsupervised) 训练数据没有给定...
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值