
Mysql
kaloKu
要与不要
展开
-
Spark 上下游数据校验及重新处理方法
需求场景如下:上游mysql数据库每天经过sqoop导入hive中的分区表,在导入过程中sqoop偶尔会产生error等问题,导致下游数据与上游数据产生偏差,现在需要方法校验数据,以及对数据进行重跑,考虑过后决定使用重刷的方式进行处理数据质量校验1.先使用count进行数量上的校验,当上下游相同批次数据条数相同时则无需进行处理2.当上下游数据量不同时 对下游数据进行重刷数据重刷spa...原创 2019-12-04 14:44:03 · 1052 阅读 · 0 评论 -
以简单场景为基础归纳mysql基本语法
以简单场景为基础归纳mysql基本语法1.创建需要用到的表并填充测试数据:--部门表dept部门表(deptno部门编号/dname部门名称/loc地点)create table dept ( deptno numeric(2), dname varchar(14), loc varchar(13));insert into dept values (10,...原创 2019-02-13 18:32:19 · 181 阅读 · 0 评论 -
SparkSQL 读取mysql大表速度过慢解决方法
问题背景在使用sqarksql.read读取mysql表时(大约为2400万条左右) val scholarDF = spark.read .format("jdbc") .option("url", "jdbc:mysql://192.168.60.49:3306/test") .option("dbtable", "scholar_2") .o...原创 2019-07-08 12:13:00 · 5448 阅读 · 0 评论