
复制粘贴玩大数据系列教程
文章平均质量分 90
邵奈一
全栈工程师、市场洞察者、微信:shaonaiyi888
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
网站用户行为分析项目之会话切割(六)=> 参数配置化
大家好,我是邵奈一,一个不务正业的程序猿、正儿八经的斜杠青年。1、世人称我为:被代码耽误的诗人、没天赋的书法家、五音不全的歌手、专业跑龙套演员、不合格的运动员…2、这几年,我整理了很多IT技术相关的教程给大家,主要是大数据教程,帮助了很多小伙伴入坑大数据行业。3、如果您觉得文章有用,请收藏,转发,评论,并关注我,谢谢!博客导航跳转(请收藏):邵奈一的技术博客导航| 公众号 | 微信 | 微博 | 优快云 | 简书 |教程目录0x00 教程内容0x01 运行模式配置化0x02 路径配置化0.原创 2020-10-31 09:51:36 · 630 阅读 · 0 评论 -
报错:org.apache.kafka.common.errors.TimeoutException: Expiring 1 record(s) for mySecondTopic-2:
大家好,我是邵奈一,一个不务正业的程序猿、正儿八经的斜杠青年。1、世人称我为:被代码耽误的诗人、没天赋的书法家、五音不全的歌手、专业跑龙套演员、不合格的运动员…2、这几年,我整理了很多IT技术相关的教程给大家,主要是大数据教程,帮助了很多小伙伴入坑大数据行业。3、如果您觉得文章有用,请收藏,转发,评论,并关注我,谢谢!博客导航跳转(请收藏):邵奈一的技术博客导航| 公众号 | 微信 | 微博 | 优快云 | 简书 |报错如下:java.util.concurrent.ExecutionE.原创 2020-10-19 17:11:18 · 5664 阅读 · 4 评论 -
Spark GraphX 快速入门
教程目录0x00 教程内容0x01 Spark GraphX 图计算1. GraphX 介绍2. GraphX 的使用场景0x02 GraphX 理论基础1. GraphX 的使用2. 属性图3. 属性图编程示例0xFF 总结0x00 教程内容0x01 Spark GraphX 图计算1. GraphX 介绍GraphX 是 Spark 四大核心组件之一,它也是使用 Spark 作为计算引擎的,GraphX 是用于图形和图形并行计算的组件,实现了大规模图计算的功能。GraphX 的出现使 S原创 2020-09-21 09:19:31 · 3231 阅读 · 0 评论 -
Spark SQL快速入门(进阶)
教程目录0x00 教程内容0x011.0xFF 总结缺图0xFF 总结0x00 教程内容0x011.a.b.c.0xFF 总结现在我们学完了 spark 利用 spark SQL 进行结构化和半结构化数据处理的方式。很多时候,我们会把 SQL 语言和其它编程语言结合起来使用,以充分利用 SQL 的简洁性和编程语言擅长表达复杂逻辑的优点。因此在spark进行数据处理的过程中,我们依然可以利用 spark SQL 对数据查询进行优化。实验知识点Spark SQL 简介Spar原创 2020-08-30 16:39:11 · 1210 阅读 · 0 评论 -
Spark综合小案例之莎士比亚诗文集词频统计
教程目录0x00 教程内容0x011.2.0x021.2.0xFF 总结0x00 教程内容实验知识点Spark 编程模型词频统计算法Scala 语言开发 Spark 应用编译打包提交到集群执行主要针对 RDD 进行各种操作,程序中的步骤:提取数据到 RDD 中,在本实验中我们将莎士比亚文集和停词表文件转换成 RDD。转换(transformations)操作,将已存在的数据集转换成新的数据集,例如 map。转换是惰性的,不会立刻计算结果,仅仅记录转换操作应用的目标数据集,当动原创 2020-08-13 00:57:52 · 1579 阅读 · 0 评论 -
网站用户行为分析项目之会话切割(五)=> 切割会话代码重构
文章目录0x00 文章内容0x01 实现切割会话代码的重构1. 抽离切割会话代码成方法2. 抽离切割会话方法成接口3. 校验结果0x021.0xFF 总结0x00 文章内容当前情况回顾,上一篇文章中我们已经实现了将输出代码重构成了一个接口组件,以达到可以选择输出TextFile格式文件或者Parquet格式文件。现在,我们回去看一下OneUserTrackerLogsProcesso...原创 2020-03-18 15:34:19 · 849 阅读 · 0 评论 -
Scala常规操作之数组、List、Tuple、Set、Map
本文会进行数组、List、元组的实操数组可以是val类型,但是数据里面的具体值也是可以变的,但其实数组本身是没有变的。一、数组1、创建数组有两种方式:第一种,new出来val arr = new Array[String](3)arr(0) = "hello"第二种,直接赋值val a = Array("nihao", "hello", "hi")2、定义可变长数组(需要先引...原创 2020-01-02 09:08:31 · 687 阅读 · 0 评论 -
IntelliJ IDEA编写Scala代码(安装Scala插件)
文章目录0x00 文章内容0x01 未安装Scala插件情况1. 无法引入Scala SDK2. 无法编写Scala代码0x02 安装Scala插件1. 自动下载安装Scala插件2. 手动下载安装Scala插件0xFF 总结0x00 文章内容未安装Scala插件情况安装Scala插件PS:IntelliJ IDEA想要编写Scala代码,需要安装Scala插件0x01 未安装Sca...原创 2019-12-31 17:01:50 · 1970 阅读 · 0 评论 -
网站用户行为分析项目之会话切割(四)=> 代码重构
文章目录0x00 文章内容0x01 实现输出代码的重构1. 抽离输出代码2. 重构输出路径3. 重构输出文件类型0x021.0xFF 总结0x00 文章内容0x01 实现输出代码的重构1. 抽离输出代码a. 因为SessionCutETL里的main方法写了比较多的代码,此时我们可以将第6步骤的输出代码进行抽离,全选,选中Refactor=>Extract=>Metho...原创 2019-12-31 00:09:15 · 562 阅读 · 0 评论 -
通过CombineTextInputFormat实现小文件优化(调优技能)
文章目录0x00 文章内容0x01 未修改前情况1. 当前文件情况2. 执行未修改前作业3. 查看结果0x02 CombineTextInputFormat实现小文件优化1. 修改代码2. 执行修改后作业3. 查看结果0xFF 总结0x00 文章内容未修改前情况CombineTextInputFormat实现小文件优化说明:本文章在MapReduce编程例子之Combiner与Part...原创 2019-12-30 17:58:51 · 956 阅读 · 0 评论 -
通过SequenceFile实现合并小文件(调优技能)
文章目录0x00 文章内容0x01 通过SequenceFile合并小文件1. 准备工作2. 完整代码0x02 检验结果1. 启动HDFS和YARN2. 执行作业3. 查看执行结果0xFF 总结0x00 文章内容通过SequenceFile合并小文件检验结果说明:Hadoop集群中,元数据是交由NameNode来管理的,每个小文件就是一个split,会有自己相对应的元数据,如果小文件很...原创 2019-12-30 17:36:31 · 2268 阅读 · 0 评论 -
Hadoop支持的文件格式之SequenceFile
文章目录0x00 文章内容0x01 SequenceFile格式概念1. SequenceFile是啥0x02 编码实现1. 写文件完整代码2. 读文件完整代码3. 写文件完整代码(HDFS)4. 读文件完整代码(HDFS)0x03 校验结果1. 启动集群2. 执行写SequenceFile文件格式代码3. 执行读SequenceFile文件格式代码4. 执行写SequenceFile文件格式代码...原创 2019-12-20 14:24:02 · 1130 阅读 · 0 评论 -
Hadoop支持的文件格式之Parquet
文章目录0x00 文章内容0x01 行存储与列存储1. Avro与Parquet0x02 编码实现Parquet格式的读写1. 编码实现读写Parquet文件2. 查看读写Parquet文件结果3. 编码实现读写Parquet文件(HDFS)4. 查看读写Parquet文件(HDFS)结果0x03 彩蛋0xFF 总结0x00 文章内容行存储与列存储编码实现Parquet格式的读写彩蛋...原创 2019-12-18 11:20:06 · 4587 阅读 · 0 评论 -
网站用户行为分析项目之会话切割(三)
文章目录0x00 文章内容0x01 配置Kryo序列化机制1. 情形解析0x02 调整控制台日志级别1. 编写log4j.properties文件0xFF 总结0x00 文章内容配置Kryo序列化机制调整控制台日志级别说明:本篇文章主要是对用户行为分析项目的小小调优及完善,后期还会进行代码的重构以及Debug过程。0x01 配置Kryo序列化机制1. 情形解析a. 回顾第一篇文章...原创 2019-12-17 23:14:03 · 647 阅读 · 0 评论 -
Hadoop支持的文件格式之Avro
文章目录0x00 文章内容0x01 行存储与列存储1. 行存储2. 列存储2. Avro与Parquet0x02 编码实现Avro格式的读写1. 编码实现读写Avro文件2. 查看读写Avro文件结果3. 编码实现读写Avro文件到HDFS4. 查看读写Avro文件结果(HDFS)0xFF 总结0x00 文章内容行存储与列存储编码实现Avro格式的读写0x01 行存储与列存储比如现在...原创 2019-12-17 17:44:39 · 1741 阅读 · 0 评论 -
Hadoop支持的文件格式之Text
文章目录0x00 文章内容0x01 Text格式概念1. Text是啥0x02 编码实现1. 写文件完整代码2. 读文件完整代码0x03 校验结果1. 启动集群2. 执行写Text文件格式代码3. 执行读Text文件格式代码0x04 可能出现的问题解决1. 类无法导入0xFF 总结0x00 文章内容Text格式概念编码实现校验结果可能出现的问题解决Hadoop支持的四种常用的文件格...原创 2019-12-17 15:36:52 · 2041 阅读 · 0 评论 -
Hadoop压缩机制及实操
文章目录0x00 文章内容0x01 Hadoop压缩机制1. 压缩的关键2. Hadoop支持的压缩工具0x02 代码实操1. 原理2. 代码及校验0xFF 总结0x00 文章内容Hadoop压缩机制代码实操压缩是一种通过特定的算法来减小计算机文件大小的机制。这种机制是一种很方便的发明,尤其是对网络用户,因为它可以减小文件的字节总数,使文件能够通过较慢的互联网连接实现更快传输,此外还...原创 2019-12-17 10:44:08 · 537 阅读 · 0 评论 -
Zookeeper之zkCli.sh客户端的使用
0x00 教程内容0x01 zkCli.sh的启动与帮助1. 启动2. 查看帮助命令0x02 zkCli.sh客户端的使用1. zkCli.sh基础操作2. zkCli.sh进阶操作0xFF 总结原创 2019-12-16 17:38:55 · 1668 阅读 · 0 评论 -
网站用户行为分析项目之会话切割(二)
教程目录0x00 教程内容0x01 项目分析1. 项目回顾2. 项目目标0x02 编程实现1. 按cookie进行分组2. 按user进行分组3. 将日志按时间进行排序4. 切割会话5. 生成会话6. 当前结果查看7. 实现domain_label字段8. 实现cookie_label字段9. 保存统计结果10. 解决报错0x03 结果展示0xFF 总结原创 2019-12-16 09:33:00 · 1115 阅读 · 0 评论 -
Windows本地安装Hadoop
文章目录0x00 文章内容0x01 下载并解压1. 下载Hadoop安装包2. 解压Hadoop安装包0x02 配置执行环境1. 配置环境变量2. 拷贝相关文件到相应目录0xFF 总结0x00 文章内容下载并解压配置执行环境0x01 下载并解压1. 下载Hadoop安装包a. 此步骤略过2. 解压Hadoop安装包a. 如果你的Win系统当前用户不是管理员用户,为了保险起见,需............原创 2019-12-15 23:58:41 · 3629 阅读 · 1 评论 -
Hadoop的序列化与反序列化实操
文章目录0x00 文章内容0x01 编写代码1. 编写对象类2. 编写调用测试代码0x02 测试结果1. 测试序列化2. 测试反序列化3. 测试修改对象代码0xFF 总结0x00 文章内容编写代码测试结果0x01 编写代码前提:因为需要用到Hadoop,所以需要先引入Hadoop相关的jar包<dependency> <groupId>org.apa...原创 2019-12-13 17:13:24 · 568 阅读 · 0 评论 -
Java的序列化与反序列化实操
文章目录0x00 文章内容0x01 编写代码1. 编写对象类2. 编写调用测试代码0x02 测试结果1. 测试序列化2. 测试反序列化3. 查看生成的文件大小4. 测试修改对象代码0xFF 总结0x00 文章内容编写代码测试结果0x01 编写代码1. 编写对象类a. 编写Block类package com.shaonaiyi.hadoop.serialize;import j...原创 2019-12-13 16:46:04 · 505 阅读 · 0 评论 -
D001.7 Docker搭建Hadoop集群(实践篇)
教程目录0x00 教程内容0x01 环境及资源准备1. 安装Docker2. 准备资源0x02 生产镜像1. 生成样本镜像2. 创建bigdata网络3. 启动容器0x03 检验Hadoop1. 启动Hadoop2. Web UI界面查看0xFF 总结0x00 教程内容环境及资源准备生产镜像检验Hadoop0x01 环境及资源准备1. 安装Docker请参考:D001...原创 2019-01-14 11:17:54 · 756 阅读 · 1 评论 -
使用Sqoop导出Mysql数据到Hive(实战案例)
教程目录0x00 教程内容0x01 SQL文件准备1. 准备sql脚本2. 执行sql脚本0x02 导出Mysql数据到Hive1. 导出数据到HDFS2. 构建Hive表关联HDFS(movie表)3. 构建Hive表关联HDFS(user_rating表)3.1 模拟增量添加数据操作4. 构建Hive表关联HDFS(users表)0xFF 总结0x00 教程内容SQL文件准备导出Mys...原创 2019-05-12 02:10:27 · 2503 阅读 · 0 评论 -
数据迁移的工具Sqoop的安装与配置
教程目录0x00 教程内容0x01 Sqoop的获取与上传1. 官网下载2. 上传安装包到节点0x02 安装并校验Sqoop1. 解压Sqoop安装包2. 配置Sqoop3. 校验Sqoop是否安装成功0x03 导入Mysql的movie表到Hive1. 启动HDFS与YARN2. 执行Sqoop操作0xFF 总结0x00 教程内容Sqoop的获取与上传安装并校验Sqoop导入Mysql...原创 2019-05-11 21:54:28 · 553 阅读 · 0 评论 -
IntelliJ IDEA实现Hadoop读写HDFS文件(非Maven、离线版)
教程目录0x00 教程内容0x01 新建Java项目1. 新建Java项目2. 项目配置0x02 编写HDFS代码1. 编写写HDFS代码2. 编写读HDFS代码0x03 打包到服务器执行1. 设置打包工程2. 打包操作3. 上传服务器并执行0x04 执行结果展示0xFF 总结0x00 教程内容新建Java项目编写HDFS读写代码打包到服务器执行实验前提:a. 安装好了JDK0x...原创 2019-05-10 23:28:35 · 4953 阅读 · 1 评论 -
MapReduce作业在YARN的内存分配设置
0x00 教程内容0x01 内存分配设置1. 目前YARN配置情况2. 配置MapReduce配置文件0x02 校验结果1. 重新执行MapReduce作业2. 查看作业执行情况0xFF 总结原创 2019-05-15 17:54:58 · 2288 阅读 · 0 评论 -
Storm第一个入门例子之Wordcount(windows本地)
教程目录0x00 教程内容0x01 新建Storm项目1. 项目结构2. 添加Maven依赖0x02 代码实现1. SentenceSpout2. SplitSentenceBolt3. WordCountBolt4. ReportBolt5. WordCountTopology0x03 效果校验1. 本地执行0xFF 总结原创 2019-05-20 19:02:48 · 1220 阅读 · 0 评论 -
IntelliJ IDEA开发Spark案例之WordCount(非Maven、离线版)
教程目录0x00 教程内容0x01 新建Scala项目1. 新建Scala项目2. 项目配置0x02 编写Scala代码1. 新建Scala类2. 编写WordCount代码3. 本地执行0x03 打包到服务器执行1. 设置打包工程2. 打包操作3. 上传服务器并执行0x04 统计结果展示0xFF 总结0x00 教程内容新建Scala项目编写Scala代码打包到服务器执行实验前提:...原创 2019-05-10 17:07:05 · 1156 阅读 · 1 评论 -
分布式消息队列Kafka之发布订阅消息系统
教程目录0x00 教程内容0x01 启动Kafka1. 启动Zookeeper2. 启动Kafka0x02 创建Topic1. 创建Topic0x03 启动生产者与消费者1. 启动生产者1. 启动消费者0x04 演示消息发布订阅1. 发送消息2. 订阅消息0xFF 总结0x00 教程内容启动Kafka创建Topic启动生产者与消费者演示消息发布订阅前提:先安装好Zookeeper...原创 2019-05-22 15:49:22 · 2134 阅读 · 0 评论 -
实时流处理框架之Storm的安装与部署
0x00 教程内容0x01 下载Storm1. 下载Storm2. 上传安装包到节点0x02 安装与配置Storm1. 解压Storm2. 配置Storm0x03 启动并校验Storm1. 启动Storm2. 校验Storm0xFF 总结原创 2019-06-05 14:14:56 · 868 阅读 · 0 评论 -
Flume入门案例之NetCat-Souces
教程目录0x00 教程内容0x01 Flume的使用1. 编写配置文件2. 安装telnet3. 校验结果0x02 简单讲解1. 流程讲解2. 组件讲解0xFF 总结0x00 教程内容Flume的使用简单讲解安装Flume,请参考教程:D009 复制粘贴玩大数据之安装与配置Flume集群非常简单,一解压就行了!0x01 Flume的使用1. 编写配置文件a. 编写配置文件c...原创 2019-06-05 16:21:03 · 1216 阅读 · 0 评论 -
HDFS的高可用性HA配置实战
0x01 HDFS之HA环境准备1. 集群规划2. 备份原本的配置3. 停止HDFS集群0x02 配置HA实战1. 修改hdfs-site.sh配置2. 修改core-site.sh配置3. 同步配置到slaves4. 启动journalnode并同步元数据5. 校验HA配置0x03 配置Zookeeper自动切换状态1. 配置hdfs-site.xml、core-site.xml2. 初始化ZooKeeperFailoverController3. 验证原创 2019-07-20 01:07:12 · 1436 阅读 · 1 评论 -
YARN的高可用性HA配置实战
0x00 教程内容0x01 配置YARN1. 备份yarn-site.xml2. 配置HA3. 同步到从节点0x02 校验结果1. 启动YARN2. 校验配置3. 查看ZK变化0x03 恢复回非HA模式0xFF 总结原创 2019-09-06 09:22:03 · 1229 阅读 · 6 评论 -
Sqoop1的安装配置及入门案例
教程目录0x00 教程内容0x01 Sqoop的下载与解压1. 下载2. 解压0x02 Sqoop的配置及校验1. 配置Sqoop环境变量2. 校验Sqoop0x03 Sqoop的入门案例1. 准备MySQL数据2. 导入MySQL数据到HDFS3. 校验是否导入成功0xFF 总结0x00 教程内容Sqoop的下载与解压Sqoop的配置及校验Sqoop的入门案例说明:1、Sqoop...原创 2019-09-09 17:44:46 · 992 阅读 · 1 评论 -
学习大数据常用Linux命令
0x00 教程内容0x01 Linux命令常用操作1. Linux命令常用操作2. vi 编辑器常用操作3. 注意事项0xFF 总结原创 2019-09-10 14:07:54 · 1866 阅读 · 0 评论 -
网站用户行为分析项目之会话切割(一)
项目背景我们在浏览网站的时候,我们的很多信息都会被网站的后台采集到,采集的方式有很多种,至于怎么采集,以后有机会再写教程详细说,这篇教程主要是讲解采集到了数据后,对数据进行一个切割的过程。关于信息的收集,可参考文章,自行了解一下:网站分析数据(即用户行为数据)的三种收集方式详解 如果有时间,再整理相应的实操教程出来。目前我们有三份数据数据一、网站用户点击日志(存储在HDFS),格式如下:...原创 2019-09-12 17:17:28 · 2613 阅读 · 1 评论 -
分布式消息队列Kafka理论(浅显易懂)
教程目录0x00 教程内容0x01 Kafka概述1. Kafka概述2. Kafka的作用0x02 Kafka的架构1. Kafka相关概念2. 图解Kafka概念0x03 Kafka的容错性测试1. 实践步骤2. 效果展示0xFF 总结0x00 教程内容Kafka概述Kafka的架构Kafka的容错性测试0x01 Kafka概述1. Kafka概述Apache Kafka® ...原创 2019-05-14 15:18:03 · 1056 阅读 · 0 评论 -
Hive的安装与部署之本地Mysql模式
教程目录0x00 教程内容0x01 环境准备1. 安装Hadoop2. 安装Hive3. 安装Mysql0x02 Mysql的使用1. 数据库操作2. 表操作0xFF 总结0x00 教程内容环境准备Mysql的使用0x01 环境准备1. 安装Hadoop安装Hadoop,请查看教程:Hadoop核心组件之HDFS的安装与配置2. 安装Hive安装Hive,请查看教程:D007 ...原创 2019-05-05 21:55:35 · 850 阅读 · 1 评论 -
D007 复制粘贴玩大数据之安装与配置Hive
0x00 教程内容0x01 Hive的获取1. 官网下载2. 添加微信:shaonaiyi8883. 关注公众号:邵奈一0x02 上传安装包到集群1. 上传安装包到虚拟机2. 复制安装包到master节点0x03 安装Hive1. 解压Hive2. 配置Hive0x04 Hive校验1. 启动Hadoop集群2. 启动Hive0xFF 总结原创 2019-03-01 17:54:19 · 882 阅读 · 0 评论