
大数据/云计算
文章平均质量分 74
九叶不睡觉
拔刀吧
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
kafka工作原理介绍
两张图读懂kafka应用:Kafka 中的术语 broker:中间的kafka cluster,存储消息,是由多个server组成的集群。 topic:kafka给消息提供的分类方式。broker用来存储不同topic的消息数据。 producer:往broker中某个topic里面生产数据。 consumer:从broker中某个topic获取数据。Kafka 中的术语设计:1、Broker ...原创 2018-06-27 11:55:56 · 97245 阅读 · 10 评论 -
hdfs数据迁移至hbase(python2.7版本)
惯例直接上详细注释的代码。 任务是将HDFS上多个需要重新编码的文件合并后写入HBASE。 python2.7完成,用3的话可能需要改hbase.py的一些源码。# -*- coding: utf-8 -*-"""Created on Thu Aug 9 09:09:56 2018@author: admin"""from hdfs import Clientfrom ...原创 2018-08-21 16:47:54 · 718 阅读 · 0 评论 -
python版MR任务完整过程(附代码)
将近期写的MR程序及过程记录下来。 简单介绍下环境:hadoop2.6.4hadoop-streaming-2.6.0.jar线上python2,线下python3都可以用首先放上需要的代码,定制python代码,很爽 mapper.py#!/usr/bin/python# -*- coding: UTF-8 -*-import sys#定义一个函数读标准输入或者...原创 2018-08-13 14:56:53 · 5078 阅读 · 0 评论 -
python3操作HDFS
直接贴代码# -*- coding: utf-8 -*-"""Created on Thu Aug 9 09:09:56 2018@author: admin"""from hdfs import Client#url:ip:端口,root:制定的hdfs根目录,proxy:制定登陆的用户身份,timeout:设置的超时时间client = Client("ht原创 2018-08-09 10:30:02 · 3781 阅读 · 1 评论 -
YARN工作全解
首先放张YARN官网的图便于理解: 讲一下YARN的优点(网上一搜一箩筐):首先要提一下MapReduce1,它只包含JobTracker(协调在集群上运行的所有作业)和TaskTracker(运行分配的任务并定期向 JobTracker 报告进度),主要存在这样几个问题:JobTracker容易存在单点故障; 既要负责资源管理,又要进行作业调度,负担重;当需处理太多任务时,会造...原创 2018-07-20 22:58:50 · 835 阅读 · 0 评论 -
场景下理解维度表,事实表,中间表
今天详细介绍一下数据仓库中的维度表,事实表与中间表: 什么是数据仓库? 数据仓库是决策支持系统(dss)和联机分析应用数据源的结构化数据环境。提数据仓库不得不提一下关系型数据库,关系型数据库主要是用来支撑即时操作,对数据库的性能和质量要求都比较高,通常设计操作型数据库的都要遵循3F范式的约束,具有ACID特性;而数据仓库的数据是来源于即时操作产生的数据,数据仓库的特征在于面向主题、集成性...原创 2018-07-18 18:31:05 · 6780 阅读 · 0 评论 -
记一次实际sqoop业务的理解(注释多)
最近梳理一项sqoop业务,整理如下(尽可能详细注释,表名,IP,账户密码,以及实际代码都做了处理,当作demo看完全可以的,可运行):1、mysql -> hive(创建任务->执行任务)创建用户任务脚本createUserJob.sh内容如下: - sqoop job --delete sqoop_job_1sqoop job --create sqoop_...原创 2018-07-18 16:56:08 · 735 阅读 · 0 评论 -
win10下kettle7.1连接hive1,mysql完整实例
最近想要在windows10上使用kettle做数据ETL,首先安装配置作为新手也是踩坑无数,主要环境版本目前不是本人能够修改的,而kettle这东西对版本对应要求又比较严格,虽然只是连接就已经踩坑无数,主要问题集中在连接hive的时候,下面看图说话: 测试环境版本: hadoop-2.6.4 apache-hive-0.13.0启动之后先连个MySQLkettle7.1下载地...原创 2018-07-11 10:03:30 · 6162 阅读 · 2 评论 -
hive数据处理及hdfs文件操作
写在前面: 本想使用hive调用python脚本实现统计分析movielens数据,但是最后一步调用脚本的地方不成功没找到问题所在,于是将过程中的一些经验写出来,非常详尽,对新手来说应该挺有用的。 另外调用脚本的程序和报错我会贴出来,应该是脚本写的有问题,后面找到问题或者有人告诉我我会更新。还拿hive与movie lens数据说事儿。1、首先进入hive数据库创建...原创 2018-06-28 15:02:35 · 13843 阅读 · 0 评论 -
zoopkeeper工作机制及原理
1、什么是zoopkeeper ? ZooKeeper是一种为分布式应用所设计的高可用、高性能且一致的开源协调服务。2、为什么要使用zoopkeeper?(顺序一致性)从同一个客户端发起的事务请求,最终将会严格按照其发起顺序被应用到zookeeper中;(原子性)所有事物请求的处理结果在整个集群中所有机器上的应用情况是一致的;(单一视图)无论客户端连接的是哪个zookeeper服务...原创 2018-07-03 19:42:02 · 6536 阅读 · 1 评论 -
sqoop实例操作及详细参数解析
1、MySQL数据库中的数据导入到Hadoop的HDFS: 使用命令: $ sqoop import $ sqoop-import示例:$ sqoop import \ --connect jdbc:mysql://localhost/userdb \ --username root \ --table emp \ --m 1 \...原创 2018-06-27 17:56:29 · 9532 阅读 · 0 评论 -
Flume详细解析
1、Flume简介 Apache flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统,用于有效地收集、聚合和将大量日志数据从许多不同的源移动到一个集中的数据存储(如文本、HDFS、Hbase等)。 其使用不仅仅限于日志数据聚合。因为数据源是可定制的(内置Avro,Thrift Syslog,Netcat),Flume可以用于传输大量事件数据,包括但不限于网络流量数...原创 2018-06-27 15:19:52 · 1923 阅读 · 0 评论 -
sqoop将hive中数据导入mysql(实例讲解)
假设这样一个场景: 数据已经导入hive(hive实例讲解看这里),现在要把hive中数据库导入出到(mysql)关系型数据库中,这里使用的工具是sqoop(sqoop详细讲解看这里)。该怎么处理呢? 首先,我们需要的是在mysql中建立对应的表,数据字段类型与hive数据表中要导出的数据类型保持一致; 然后,我们需要在假如你不是需要原样输出而是需要经过计算统计的话,就需要写在h...原创 2018-07-02 13:26:08 · 4096 阅读 · 0 评论 -
spark处理hive数据排序问题
新入坑数据挖掘,从一段spark入门级数据处理代码开始。涉及语言Scala、Sql,并涉及将DataFrame转换为Rdd,实现的是从hive读取数据,并根据字段进行分组排序的功能,代码如下:val df_sr = spark.sql(s"""SELECT pushConfigId, updatedFROM default.ods_flow_rye_PushScene...原创 2019-01-30 16:22:10 · 997 阅读 · 2 评论