
hadoop
wzz87
静心做事、一心一意
展开
-
并行计算与分布式计算的区别
并行计算: 空间复用多个处理器; Intel多媒体指令优化集是针对一个处理器,扩展处理额外的数据,属于特殊的并行计算优化; 多处理器系统,操作系统采用并行计算的调度方法,允许多个线程在多个处理器上同时执行。 分布式处理系统: 某种处理任务被分解到多个处理器上,系统为扁平结构,一般上层有一个控制中心,下层有多个处理单元,通过下层多个处理单元的数量/功能扩展,转载 2016-05-22 20:28:27 · 3084 阅读 · 0 评论 -
Hive、Hbase的介绍
HiveHive是基于Hadoop之上的数据仓库,可以通过使用类SQL的语句HQL来查询存放在HDFS上的数据;HQL是中类SQL语言,这种语言最终被转化为Map/Reduce,但是hive不能用于交互式查询;适用于海量离线数据的全量查询分析;Hbase...原创 2018-09-10 15:21:21 · 176 阅读 · 0 评论 -
Sqoop1.4.7数据迁移
Sqoop配置安装请参考本人发布的《Spark集群及相关生态链部署文档》https://download.youkuaiyun.com/download/wzz87/109548301、数据迁移简单版将mysql数据库中的表直接上传到HDFS中,并删除已经有的表,以逗号为分隔符./sqoop import --connect jdbc:mysql://10.x.x.x:3306/cqct --use...原创 2019-02-13 14:29:21 · 326 阅读 · 0 评论 -
shell脚本-sqoop->HDFS
场景:将mysql库中的数据传输到HDFS中,并且按照日期作为文件名来存放数据,方便数据的读取与处理如图所示:以日期来命名文件夹,存储当天的数据首先介绍一下shell脚本中的三个引号的适用与区别单引号(‘’)–所见即所得var1=‘helloworld’var2=’${var1}helloworld’echo $var2输出结果:${var1}helloworld双引号...原创 2019-02-13 14:32:02 · 578 阅读 · 0 评论