自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 记录sqoop导入过程中出现的问题

java.io.IOException: No columns to generate for ClassWriter 可以通过添加这个–driver com.mysql.jdbc.Driver 来修改 还遇到另一个错误,但是尚未处理,报错是找不到导入过来的temporary文件,查询得知可能是因为map作业的推测机制,因为另开作业之后删除了另一个作业的临时文件,所以报错,可以关闭这个推测机制,但...

2019-08-22 13:45:29 400

原创 idea标签和project问题

project打开后左侧没有树状结构,在view 中连续选择两个第一个选项可以调出来 idea打开的标签不是在代码的正上面,参考 https://my.oschina.net/sprouting/blog/710429。 ...

2019-08-02 10:25:47 257

原创 动态挂在分区脚本

#/usr/bin/env python2.7 -- coding: utf-8 -- import os import string import datetime from pyspark.sql.types import * from pyspark.sql import SparkSession os.environ[‘PYSPARK_PYTHON’]=’/appcom/service/p...

2019-07-19 10:10:42 159

原创 hive中导入文件小文件问题

问题描述: 参考https://www.iteblog.com/archives/1533.html 一个表里面每个分区又300个小文件,小文件数量太多,就想把文件导入一个新表每个分区一个文件,这样就是只有map的任务 第一种方式: SET hive.exec.dynamic.partition=true; SET hive.exec.dynamic.partition.mode=nonstric...

2019-07-17 18:10:11 339

原创 mysql中判断某一条数据是否存在

SELECT IFNULL((SELECT ‘Y’ from yimei.boy where grade = 54 limit 1),‘N’),mysql中用ifnull,hive中可以用isnull,这个用来替代case when count(*) > 0 then ‘Y’ else ‘N’ end ,这种会采用聚合索引查询,浪费内存,但是上面那个不会,同时limit1限制了只要查询到一...

2019-04-25 10:44:20 26937

原创 hive优化

压缩之后的文件可以直接load到hive中去 查看系统压缩方式的命令 Hadoop checknative 为false的说明没有安装 实操过程中发现,当系统的某一资源繁忙时,之前的处理速度和实际处理速度会相差很大,而且调整一些参数也并没有特别明显的效果。 系统整体运行很吃资源的时候,采取以下几个方案: 表格修改为orc格式,不但减少空间同时增加查询速度 在orc格式的基础上可以开启矢量化...

2019-03-14 09:35:16 136

原创 spark还有hive调优

提交的种类有很多种,spark sql 、submit等等,不过都是分配资源方面的,可以再去了解一下 提交这个任务的话默认并行度是200,就是说reduce会产生200个文件,这会产生大量的小文件问题,–设置spark并行度为1,解决小文件过多问题 set spark.sql.shuffle.partitions=1,但是大多数情况下如果数据量过大的话,还要提高并行度的,所以这里是个奇葩。 当初...

2019-03-07 11:02:01 217

转载 Sqoop

Sqoop优化 参考这个https://blog.youkuaiyun.com/u010185220/article/details/79085119 出现的问题,map数设置默认128M一个为宜,n个map就会产生n+1个数据块,所以设置过多好像也不太好哦,不过这也不算小文件,没有影响(我猜的嘻嘻) 如何判断读取的数据是否完整?可以采用 也可以使用count * 计算是否行数一样 为什么多个map之后会有...

2019-02-28 17:04:10 550

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除