
DATAS
文章平均质量分 83
java资深菜鸟
多年java开发经验,从事过运营商、电力、医疗等行业软件开发
熟练掌握java web管理系统开发,熟悉常规BS开发模式,全栈开发
展开
-
datax-web
(此处datax-admin设定的端口需要与datax-executor中配置的admin.addresses端口完全一致,否则会导致执行器无法正确注册,datax-executor的端口可以自行配置,但是不能与datax-executor配置的executor.port重复,否则会发生端口被占用的情况,此处还不是明白为啥一个程序要两个端口)总结:datax-web 相当如给datax提供了界面话的一些功能和监控。可以结合使用,反正datax-web是依赖datax的。原创 2023-06-16 10:31:09 · 1558 阅读 · 0 评论 -
datax安装部署使用 windows
通过querysql方式"job": {"speed": {},],},原创 2023-06-16 10:28:41 · 3452 阅读 · 0 评论 -
datax总览
当用户配置了这一项之后,DataX系统就会忽略table,column这些配置型,直接使用这个配置项的内容对数据进行筛选,例如需要进行多表join后同步数据,使用select a,b from table_a join table_b on table_a.id = table_b.id <br />`当用户配置querySql时,MysqlReader直接忽略table、column、where条件的配置`,querySql优先级大于table、column、where选项。* 默认值:无 <br />原创 2023-06-16 10:27:58 · 403 阅读 · 0 评论 -
Hive 库表相关操作
在使用metastore的方式启动hive服务时,如果你是从hive客户端linux文件系统中上传文件,就加上local,如果是从hdfs的文件系统中上传数据文件,就不需要加local,inpath后面的路径参数就是你要上传的文件的路径,这个路径可以是相对路径也可以是绝对路径,但是如果你写相对路径,要特别注意这个相对路径是相对于你当前进入hive时所在的位置,也就是你从哪个路径的位置登创建的hive session,那么相对路径就是从这个位置算起的。注意,一个是拷贝,一个是移动。原创 2023-06-16 10:28:31 · 2169 阅读 · 0 评论 -
hadoop 相关环境搭建
备注。因为beeline一直报错,最有一怒之下把hive的lib下所有jar都拷贝到hadoop的share\hadoop\common\lib各软件的相关命令最好到各自安装目录或者bin目录下执行,防止初始化目录的时候位置不对。原创 2023-06-16 15:00:00 · 2254 阅读 · 0 评论 -
大数据相关概念了解
Apache Hadoop软件库是一个框架,允许使用简单的编程模型在计算机集群之间对大型数据集进行分布式处理。它旨在从单个服务器扩展到数千台计算机,每台计算机都提供本地计算和存储。库本身不是依靠硬件来提供高可用性,而是旨在检测和处理应用程序层的故障,因此在计算机群集(每台计算机都可能容易出现故障)之上提供高可用性服务。离线数据开发与存储HDFS的英文全称是Hadoop Distributed File System,即Hadoop分布式文件系统,它是Hadoop的核心子项目。原创 2023-06-16 10:26:39 · 1378 阅读 · 0 评论 -
CLickhouse 物化视图--干货记录(亲验证)
验证后自己的理解ClickHouse 的物化视图原理并不复杂,在基表有新的数据写入时,如果检测到有物化视图跟它关联,会针对这批写入的数据进行物化操作。带来的问题:每次物化都会产生新的记录,即相同的聚合维度,在视图optimize(自动/手动)前会有重复数据,每次写入重复一次。原创 2023-06-16 10:25:56 · 2511 阅读 · 0 评论 -
CLickhouse 引擎--干货记录(亲验证)
1、MergeTree 系列表引擎是官方主推的存储引擎 (系列)2、MergeTree 引擎会在插入数据 15 分钟左右,将同一个分区的各个分区文件片段合并成一整个分区文件3、MergeTree 引擎表中主键并不用于去重,而是用于索引,加快查询速度4、分区提升查询效率,只有 MergeTree 家族系列的表引擎才支持数据分区5、ReplacingMergeTree:同分区内相同主键的数据进行去重,有延迟,时间不可控。保留最新。原创 2023-06-16 10:25:09 · 1118 阅读 · 0 评论 -
CLickHouse 入门理论学习
本篇不属于安装使用,限于入门理论了解开源列式数据库,主要用于数据分析(OLAP)。那么clickhouse的主要使用场景、特点以及核心概念有哪些?原创 2023-06-16 10:21:33 · 1254 阅读 · 0 评论