项目中涉及到从oracle库抽取数据到hive库,出现了这样一个bug,抽取到hive库的数字小数位数格外的多,甚至有些出现了科学计数问题。
oracle的数据
从oracle抽取到hive库的数据
刚开始以为是代码中map部分的转换造成的
于是将转换的部分注释了起来,直接取oracle的值总归是没错的吧。信誓旦旦的就把bug返了回去。
结果……没过多久bug又回来了,仔细一看,问题依旧如故。怎么会出现这样的问题呢?明明是直接从oracle查了数据直接插入hive,中间没有其他的转换。
于是在代码中将查询的oracle数据show()了一下,才发现,原来查出来的dataset中就已经是多了很多位了(以后不亲眼看到执行完的数据,坚决不返bug)。苦思不得,问问度娘先。
参考1:https://blog.youkuaiyun.com/qq_14950717/article/details/51323679
从这篇博客中得知
在1.6以前的版本中,当Oracle表字段为Number时,对应DataType为decimal
但是如何解决呢?
参考2:https://bbs.aliyun.com/detail/337340.html?page=e
这篇博客讲到了spark 读取oracle,字段类型为Date的处理
和我的问题很相似,于是乎看了看源码org.apache.spark.sql.jdbc.OracleDialect
private case object OracleDialect extends JdbcDialect {
override def canHandle(url: String): Boolean = url.startsWith("jdbc:oracle")
override