
大数据
Hansionz
但愿一切
展开
-
spark内存计算框架(1)
spark内存计算框架1. spark是什么2. spark的四大特性2.1 速度快2.2 易用性2.3 通用性2.4 兼容性3. spark集群架构4. spark集群安装部署5. spark集群的启动和停止5.1 启动5.2 停止6. spark集群的web管理界面7. 初识spark程序7.1 普通模式提交 (指定活着的master地址)7.2 高可用模式提交 (集群有很多个master)8. spark-shell使用8.1 运行spark-shell --master local[N] 读取本地文转载 2020-05-28 10:36:16 · 1888 阅读 · 0 评论 -
Hbase基础入门
HBase1. HBase是什么1.1 HBase的概念1.2 HBase的特点2. HBase集群安装部署2.1 准备安装包2.2 修改HBase配置文件2.2.1 hbase-env.sh2.2.2 hbase-site.xml2.2.3 regionservers2.2.4 back-masters2.3 分发安装包2.4 创建软连接2.5 添加HBase环境变量2.6 HBase的启动与停止2.7 访问WEB页面2.8 停止HBase集群3. HBase表的数据模型3.1 rowkey行键3.2 C原创 2020-05-13 12:57:31 · 928 阅读 · 0 评论 -
hive综合案例实战
hive综合案例实战1、需求描述2、项目表字段2,1 数据结构3、ETL原始数据清洗4、项目建表并加载数据4.1 创建表4.2 导入ETL之后的数据(ODS层 textfile)4.3 向ORC表插入数据(DW层 ORC + snappy)5、业务分析5.1 统计视频观看数Top105.2 统计视频类别热度Top105.3 统计出视频观看数最高的20个视频的所属类别以及类别包含Top20视频的个数5.4 统计视频观看数Top50所关联视频的所属类别排名5.5 统计每个类别中的视频热度Top10,以Music原创 2020-05-11 19:53:42 · 2014 阅读 · 0 评论 -
数据仓库工具之hive调优(4)
大数据分析利器之hive1. hive表的文件存储格式1.1 列式存储和行式存储1.2 TEXTFILE格式1.3 ORC格式1.4 PARQUET格式1.5 主流文件存储格式对比实验1.5.1 TextFile1.5.2 ORC1.5.3 Parquet2、存储和压缩结合2.1 创建一个非压缩的的ORC存储方式2.2 创建一个SNAPPY压缩的ORC存储方式3. hive的SerDe3.1 hive的SerDe是什么3.2 hive的SerDe 类型3.3 企业实战3.3.1 通过MultiDelimi原创 2020-05-11 12:19:43 · 530 阅读 · 0 评论 -
数据仓库工具之hive(3)
大数据分析利器之hive(3)1、hive的参数传递1.1 Hive命令行hive [-hiveconf x=y]* [<-i filename>]* [<-f filename>|<-e query-string>] [-S]说明:1、 -i 从文件初始化HQL。2、 -e从命令行执行指定的HQL3、 -f 执行HQL脚本4、 -v 输出执行的HQL语句到控制台5、 -p connect to Hive Server on por原创 2020-05-10 20:41:34 · 867 阅读 · 0 评论 -
数据仓库工具之hive(2)
大数据分析利器之hive1、hive的分桶表2、Hive修改表结构2.1 修改表的名称2.2 表的结构信息2.3 增加/修改/替换列信息3. Hive数据导入1、直接向表中插入数据(强烈不推荐使用)2、通过load方式加载数据(必须掌握)3、通过查询方式加载数据(必须掌握)4、查询语句中创建表并加载数据5、创建表时通过location指定加载数据路径6、export导出与import 导入 hive表数据(内部表操作)4、Hive数据导出4.1 insert 导出4.2、 Hive Shell 命令导出4.原创 2020-05-09 22:22:48 · 604 阅读 · 0 评论 -
数据仓库工具之hive(1)
大数据分析利器之hive1.数据仓库介绍1.1 数据仓库的基本概念1.2 数据仓库的主要特征1.3 数据仓库与数据库区别1.4 数据仓库分层架构2. hive介绍2.1 什么hive2.2 Hive与数据库的区别2.3 Hive的优缺点2.4 Hive架构原理3. Hive的安装部署4. hive的交互方式4.1 Hive shell交互4.2 Hive JDBC服务4.3 Hive的命令5 Hive的数据类型5.1 基本数据类型5.2 复合数据类型6 Hive的DDL操作6.1 hive数据库DDL操作原创 2020-05-08 22:24:01 · 730 阅读 · 0 评论 -
工作流调度oozie
工作流调度oozie1.什么是oozie2.oozie的架构3.安装oozie3.1 修改core-site.xml3.2 上传oozie的安装包并解压3.3 解压hadooplibs到与oozie平行的目录3.4 创建libext目录3.5 拷贝依赖包到libext3.6 添加ext-2.2.zip压缩包3.7 修改oozie-site.xml3.8 创建mysql数据库3.9 上传oozie依...原创 2020-05-08 12:58:28 · 608 阅读 · 0 评论 -
大数据整合利器之HUE
大数据整合利器之HUE1、HUE的基本介绍1.1 什么是HUE1.2 HUE网站链接1.3 Hue的架构1.4 HUE核心功能2、Hue的安装第一步:下载Hue的压缩包并上传到linux解压第二步:编译安装启动2.1、linux系统安装依赖包2.2、配置Hue2.3、创建mysql数据库2.4、准备进行编译2.5、linux系统添加普通用户hue2.6、启动hue进程2.7、页面访问3、hue与其...原创 2020-05-08 10:53:11 · 1129 阅读 · 0 评论 -
工作流调度器之Azkaban
Azkaban工作流调度器1. 为什么需要工流调度系统2. Azkaban是什么3. Azkaban基本架构4. Azkaban架构的三种运行模式5. Azkaban安装部署6. Azkaban启动6.1 启动web server服务6.2 启动executor执行服务7. Azkaban实战7.1 command类型单一job7.2 command类型多job工作流7.3 HDFS操作任务7.4...原创 2020-05-07 20:21:55 · 437 阅读 · 0 评论 -
数据迁移工具之Sqoop
数据迁移工具之Sqoop1. Sqoop是什么2. Sqoop的工作机制3. Sqoop基本架构4. Sqoop安装部署5. Sqooq数据的导入5.1 列举出所有的数据库5.2 导入数据库表数据到HDFS5.3 导入数据库表数据到HDFS指定目录5.4 导入数据库表数据到HDFS指定目录并且指定数据字段的分隔符5.5 导入关系表到Hive中5.6 导入数据库表数据到hive中(并自动创建hive...原创 2020-05-07 13:09:07 · 407 阅读 · 0 评论 -
Flume日志采集框架
Flume日志采集框架1. Flume是什么2. Flume的架构3. Flume采集系统结构图3.1 简单结构3.2 复杂结构4. Flume安装部署5. Flume实战5.1 采集文件到控制台5.2 采集文件到HDFS5.3 采集目录到HDFS5.4 两个agent级联6. 高可用配置案例6.1 failover故障转移6.2 load balance负载均衡7. flume企业案例7.1 f...原创 2020-05-07 11:38:09 · 463 阅读 · 0 评论 -
大数据辅助框架之impala
大数据技术之impala0. 离线任务流程1、 impala的概述1.1 imala基本介绍1.2 impala与hive的关系1.3 impala的优点1.4 impala的缺点:1.5 impala的架构以及查询计划2、impala的安装环境准备3、下载impala的所有依赖包4、制作本地yum源5、开始安装impala6、所有节点配置impala第一步:修改hive-site.xml第二步...原创 2020-04-26 17:40:16 · 431 阅读 · 0 评论 -
ZooKeeper分布式协调框架学习总结(2)
ZooKeeper分布式协调框架8. HDFS HA方案8.1 ZooKeeper监听器8.2 类比举例8.3 HDFS HA原理9. ZooKeeper之读写数据9.1 ZooKeeper集群架构图9.2 读操作9.3 写操作10. ZooKeeper之安其内10.1 架构问题10.2 全新集群leader选举10.3 非全新集群leader选举11. ZAB算法11.1 仲裁quorum11...原创 2020-04-12 12:12:13 · 303 阅读 · 0 评论 -
ZooKeeper分布式协调框架学习总结(1)
ZooKeeper分布式协调框架1. 为什么要用ZooKeeper2. 什么是ZooKeeper?3. ZooKeeper初探3.1 zkCli命令行3.2 Java API编程4.基本概念和操作4.1 ZooKeeper数据结构**4.2 数据节点**ZNode4.3 会话(Session)**4.4 请求**4.5 事务zxid4.6 Watcher监视与通知4.7 总结5. ZooKeepe...原创 2020-04-12 11:26:15 · 570 阅读 · 0 评论 -
YARN资源调度系统
YARN资源调度系统1. YARN介绍2. YARN架构2.1 ResourceManager2.2 **NodeManager**2.3 Container2.4 **ApplicationMaster**2.5 Resource Request2.6 JobHistoryServer2.7 Timeline Server3. YARN应用运行原理图3.1 YARN应用提交过程3.2 MapRe...原创 2020-04-10 20:29:52 · 533 阅读 · 0 评论 -
MapReduce学习笔记(2)
MapReduce学习笔记(1):https://blog.youkuaiyun.com/hansionz/article/details/105408174MapReduce学习笔记1. 自定义分区1.1 分区原理1.2 默认分区1.3 自定义分区2. 自定义Combiner2.1 需求2.2 逻辑分析2.3 MR代码2.4 combine小结3. MR压缩3.1 需求3.2 逻辑分析3.3 MR代码4....原创 2020-04-09 15:43:06 · 389 阅读 · 0 评论 -
MapReduce学习笔记(1)
MapReduce学习笔记1. MapReduce编程模型- Hadoop架构图1.1 Map阶段1.2 Reduce阶段1.3 MapReduce模型图2. MapReduce编程示例2.1 MapReduce原理图2.2 MR中key的作用2.3 创建MAVEN工程2.4 MR参考代码3. MapReduce编程:数据清洗3.1 需求3.2 日志数据结构3.3 逻辑分析3.4 MR代码4. M...原创 2020-04-09 14:33:50 · 525 阅读 · 0 评论 -
分布式文件系统HDFS
分布式文件系统HDFS1. Hadoop简介1.1 Hadoop历史1.2 Hadoop架构2. HDFS是什么2.1 HDFS的优缺点3. HDFS初探3.1 HDFS命令3.2 WEB UI界面3.3 HDFS编程4. 核心概念block4.1 数据块block4.2 block副本4.3 机架存储策略4.4 block的一些操作5. HDFS架构5.1 NameNode5.2 DataNo...原创 2020-04-08 20:13:33 · 488 阅读 · 0 评论 -
HDFS常用命令总结
HDFS常用命令总结1. hdfs命令风格1.1 常用命令1.2 总结2. hdfs与getconf结合使用3. hdfs与dfsadmin结合使用4. hdfs与fsck结合使用5. 其他命令1. hdfs命令风格HDFS命令有两种风格:hadoop fs开头的 hdfs dfs开头的两种命令均可使用,效果相同1.1 常用命令如何查看hdfs或hadoop子命令的帮助信息...原创 2020-04-08 15:06:00 · 873 阅读 · 0 评论 -
机器学习之特征工程
机器学习之特征工程1.特征工程介绍1.1 为什么需要特征工程1.2 什么是特征工程1.3 特征工程内容2.特征提取2.1 字典特征提取2.2 文本特征提取2.3 Tf-idf文本特征提取3.特征预处理3.1 什么是特征预处理3.2 归一化3.3 标准化4.特征降维4.1 特征选择4.1.2 低方差特征过滤4.1. 3 皮尔逊相关系数4.2 主成分分析4.2.1 什么是主成分分析4.2.2 PCA的...原创 2020-04-08 13:41:13 · 471 阅读 · 0 评论