大数据
文章平均质量分 74
ykqidev
不在沉默中爆发,就在沉默中灭亡--奋斗吧
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
kettle的下载安装以及问题点
6)把工程达成jar包,名称参考安装版 plugins/pentaho-big-data-plugin/下的pentaho-big-data-plugin-版本号.jar的名字,然后替换安装版这个jar包为工程导出的jar包,重启kettle,DB连接的HadoopHive2连接的特征列表的supportsBatchUpdate已经是Y了,实际转换中的表输出速度也提高到几千条每秒。异常原因:在kettle的big-data-plugin插件的源码中把批量提交的方法关闭了,所以其只能单挑插入,效率就非常低。原创 2023-01-04 18:09:53 · 10647 阅读 · 0 评论 -
大数据 —— CentOS虚拟机配置
1.1 linux100虚拟机配置要求如下(本文Linux系统全部以CentOS-7.5-x86-1804为例)1)使用yum安装需要虚拟机可以正常上网,yum安装前可以先测试下虚拟机联网情况[root@linux100 ~]# ping www.baidu.comPING www.baidu.com (14.215.177.39) 56(84) bytes of data.64 bytes from 14.215.177.39 (14.215.177.39): icmp_seq=1 tt原创 2022-01-04 22:02:18 · 1783 阅读 · 0 评论 -
VMware、CentOS的安装
1 VMware安装1.1 进入VMware双击VMware图标,看到如下界面1.2 自定义新的虚拟机1.3 解决虚拟机的兼容性1.4 选择当前虚拟机的操作系统1.5 选择虚拟机将来需要安装的系统1.6 配置电脑1.7 设置虚拟机处理器的数量(两者相乘不能超过物理机的cpu个数)1.8 设置虚拟机的内存内存大小有一定要求,建议4G,不能给太多,后期会有多台虚拟机同时启动1.9 选择虚拟机上网方式1)选择NAT的方式2).原创 2022-01-04 17:48:06 · 523 阅读 · 0 评论 -
Apache Airflow
Airflow官网:https://airflow.apache.org/集群运行任务情况:大概1300+10min任务:3630min任务:311h任务:45剩下的天、周、月级任务(主要天级):1200+任务挂了的操作:1)运行成功或者失败都会发邮件、发钉钉、集成自动打电话(项目中遇到的问题)2)最主要的解决方案就是重新跑。3)第三方报警网站:http://www.onealert.com/...原创 2021-11-16 09:45:37 · 501 阅读 · 0 评论 -
Apache Zookeeper
1、选举机制半数机制:2n+1,安装奇数台10台服务器:3台20台服务器:5台100台服务器:11台台数多,好处:提高可靠性;坏处:影响通信延时2、常用命令ls、get、create、delete3、Paxos算法(扩展)注意:暂时先不用看。如果后期准备面今日头条,需要认真准备,其他公司几乎都不问。Paxos算法一种基于消息传递且具有高度容错特性的一致性算法。分布式系统中的节点通信存在两种模型:共享内存(Shared memory)和消息传递(Messages p原创 2021-11-15 17:03:54 · 1827 阅读 · 0 评论 -
Apache Kafka
有replica.lag.max.messages(延迟条数)和replica.lag.time.max.ms(延迟时间)两个参数决定一台服务是否可以加入ISR副本队列,在0.10版本移除了replica.lag.max.messages参数,防止服务频繁的进去队列。发送的消息可以是网站的页面访问、服务器日志,也可以是CPU和内存相关的系统资源信息。这个key的作用是为消息选择存储分区,key可以为空,当指定key且不为空的时候,Kafka是根据key的hash值与分区数取模来决定数据存储到那个分区。...原创 2021-11-14 19:20:45 · 569 阅读 · 0 评论 -
Linux&Shell
1 Hive的架构Hive元数据默认存储在derby数据库,不支持多客户端访问,所以将元数据存储在MySQl,支持多客户端访问。2 Hive和数据库比较Hive和数据库除了拥有类似的查询语言,再无类似之处。1)数据存储位置Hive存储在HDFS。数据库将数据保存在块设备或者本地文件系统中。2)数据更新Hive中不建议对数据的改写。而数据库中的数据通常是需要经常进行修改的, 3)执行延迟Hive执行延迟较高。数据库的执行延迟较低。当然,这个是有条件的...原创 2021-11-12 18:23:38 · 1081 阅读 · 0 评论 -
Apache Hadoop
1 Hadoop常用端口号 hadoop2.x Hadoop3.x 访问HDFS端口 50070 9870 访问MR执行情况端口 8088 8088 历史服务器 19888 19888 客户端访问集群端口 ...原创 2021-11-12 15:45:42 · 229 阅读 · 0 评论 -
Apache Hive
1 Hive的架构Hive元数据默认存储在derby数据库,不支持多客户端访问,所以将元数据存储在MySQl,支持多客户端访问。2 Hive和数据库比较Hive和数据库除了拥有类似的查询语言,再无类似之处。1)数据存储位置Hive存储在HDFS。数据库将数据保存在块设备或者本地文件系统中。2)数据更新Hive中不建议对数据的改写。而数据库中的数据通常是需要经常进行修改的,3)执行延迟Hive执行延迟较高。数据库的执行延迟较低。当然,这个是有条件的,即数据规模...原创 2021-11-10 15:35:09 · 532 阅读 · 0 评论 -
Apache Sqoop
1 Sqoop参数/opt/module/sqoop/bin/sqoop import \--connect \--username \--password \--target-dir \--delete-target-dir \--num-mappers \--fields-terminated-by \--query "$2" ' and $CONDITIONS;'2 Sqoop导入导出Null存储一致性问题Hive中的Null在底层是以“\N”来存储..原创 2021-11-10 14:05:57 · 1680 阅读 · 0 评论
分享