- 博客(72)
- 收藏
- 关注
原创 DataStream API
1.创建一个实现SourceFunction的类,创造数据//声明一个标志位@Override//生成随机数据//自定义选取的数据集id=1","./prod?id=2"};//循环生成的数据}}@Override}}2.实现自定义source输出/*用户自定义source测试*/}}
2022-10-18 23:08:08
908
原创 Flink部署
可以引入插件 maven-assembly-plugin 进行打包。在 FlinkTutorial 项目的 pom.xml 文件中添加打包插件的配置。执行脚本命令向 YARN 集群申请资源,开启一个 YARN 会话,启动 Flink 集群。修改conf的masters和workers。在hadoop103上开启。开放hadoop102。
2022-10-12 20:27:41
551
原创 Flink快速入门
添加项目依赖配置日志管理在目录 src/main/resources 下添加文件:log4j.properties,内容配置如下编写代码批处理在words.txt中输入一些文字新建 Java 类 BatchWordCount,在静态 main 方法中编写测试代码。
2022-10-09 18:52:44
614
原创 Presto
进入到/opt/module/presto目录,并创建存储数据文件夹创建存储配置文件文件夹进入etcPresto可以支持多个数据源,在Presto里面叫catalog,这里我们配置支持Hive的数据源,配置一个Hive的catalog分发之后,分别进入hadoop102、hadoop103、hadoop104三台主机的/opt/module/presto/etc的路径。配置node属性,node id每个节点都不一样。Presto是由一个coordinator节点和多个worker节点组成。
2022-10-06 15:59:46
127
原创 Superset
Miniconda安装完成后,每次打开终端都会激活其默认的base环境,我们可通过以下命令,禁止激活默认base环境。加载配置文件,使之生效。
2022-09-30 22:49:44
900
原创 数仓搭建-ODS层
(1)在hadoop102的/opt/module/hadoop-3.1.3/etc/hadoop/capacity-scheduler.xml文件中修改如下参数值已成功。
2022-09-05 12:24:52
367
原创 数仓环境搭建Hive
例如,数据仓库中可能需要累积或者存储订单从下订单开始,到订单商品被打包、运输、和签收的各个业务阶段的时间点数据来跟踪订单声明周期的进展情况。当这个业务过程进行时,事实表的记录也要不断更新。每一个事实表的行包括:具有可加性的数值型的度量值、与维表相连接的外键,通常具有两个和两个以上的外键。一旦事务被提交,事实表数据被插入,数据就不再进行更改,其更新方式为增量更新。例如每天或者每月的销售额,或每月的账户余额等。累计快照事实表用于跟踪业务事实的变化。“事实”这个术语表示的是业务事件的。通过insert测试效果。
2022-09-01 23:01:08
208
原创 Flume(二)
MemoryChannel传输数据速度更快,但因为数据保存在JVM的堆内存中,Agent进程挂掉会导致数据丢失,适用于对数据质量要求不高的需求。在hadoop104的/opt/module/flume/conf目录下创建kafka-flume-hdfs.conf文件。FileChannel传输速度相对于Memory慢,但数据安全保障高,Agent进程挂掉也可以从失败中恢复数据。传输的是普通日志信息(京东内部一天丢100万-200万条,这是非常正常的),通常选择MemoryChannel。
2022-08-22 17:43:53
773
原创 采集日志Flume
在/opt/module/flume/conf目录下创建file-flume-kafka.conf文件。需要先将打好的包放入到hadoop102的/opt/module/flume/lib文件夹下面。将 lib 文件夹下的guava-11.0.2.jar 删除以兼容 Hadoop 3.1.3。创建Maven工程flume-interceptor。在pom.xml文件中添加如下配置。创建ETCInterceptor类。JSONUtils类。
2022-08-22 00:25:30
334
原创 Hadoop(六)
分别在hadoop103,hadoop104上修改broker.id为1,2.虚拟机-->右击-->设置-->网络适配器-->高级。myid里面的虚拟机id号应不同。
2022-08-17 19:26:38
426
原创 Hadoop(四)
配置mapred-site.xml。一、配置yarn-site.xml。配置hdfs-site.xml。配置yarn-site.xml。
2022-08-12 12:05:41
1075
1
原创 Hadoop(二)
2.把准备好的JDK拖到xshell里安装新的JDK。1.来到目录下把准备好的日志拖到进入的文件夹中。进入log,查看对应日志。3.配置环境变量并分发。1.卸载原有的JDK。
2022-08-07 21:22:49
427
原创 Hadoop(一)
1.关闭防火墙,关闭防火墙开机自启小贴士:在xshell中怎样添加复制粘贴功能1.点击工具,选择里面的按键对应2.点击新建,输入组合键,类型选择菜单,菜单选择复制或粘贴2.创建一个用户,并修改用户密码3.配置用户具有root权限,方便后期加sudo执行root命令4.在/opt目录下创建文件夹,并修改所属组和用户组5.卸载虚拟机自带的JDK6.重启虚拟机。...
2022-08-02 18:26:30
1865
原创 Linux
目录网页连接模式桥接模式NAT模式仅主机模式配置主机名进程和服务systemctl系统运行级别关机重启命令虚拟机直接连接外部物理网络的模式,主机起到了网桥的作用。这种模式下,虚拟机可以直接访问外部网络,并且对外部网络是可见的。虚拟机和主机构建一个专用网络,并通过虚拟网络地址转换(NAT)设备对IP进行转换。虚拟机通过共享主机IP可以访问外部网络,但外部网络无法访问虚拟机。虚拟机仅与主机共享一个专用网络,与外部网络无法通信。基本语法:hostname(查看当前服务器的主机名称)vi/etc/hostname(
2022-07-04 16:36:57
75
原创 Linux(目录 编译器)
目录目录结构VI/VIM编译器模式间的转换常用语法(一般模式)编辑模式常用语法常用模式基本语法vi/vim键盘图Linux系统中一切皆文件。目录结构/bin:存放二进制可执行文件(ls,cat,mkdir),常用命令一般都在这里。/etc:存放系统管理和配置文件。/home:存放所有用户文件的根目录,是用户主目录的基点。/usr:用于存放系统应用程序,比较重要的目录/usr/local本地系统管理员软件安装目录(安装系统级的应用)。/usr/.
2022-05-30 11:22:47
752
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人