weixin_43454942-优快云博客

原创记录sqoop导入过程中出现的问题

java.io.IOException: No columns to generate for ClassWriter 可以通过添加这个–driver com.mysql.jdbc.Driver 来修改还遇到另一个错误，但是尚未处理，报错是找不到导入过来的temporary文件，查询得知可能是因为map作业的推测机制，因为另开作业之后删除了另一个作业的临时文件，所以报错，可以关闭这个推测机制，但...

2019-08-22 13:45:29 400

原创 idea标签和project问题

project打开后左侧没有树状结构，在view 中连续选择两个第一个选项可以调出来 idea打开的标签不是在代码的正上面，参考 https://my.oschina.net/sprouting/blog/710429。 ...

2019-08-02 10:25:47 257

原创动态挂在分区脚本

#/usr/bin/env python2.7 -- coding: utf-8 -- import os import string import datetime from pyspark.sql.types import * from pyspark.sql import SparkSession os.environ[‘PYSPARK_PYTHON’]=’/appcom/service/p...

2019-07-19 10:10:42 159

原创 hive中导入文件小文件问题

问题描述：参考https://www.iteblog.com/archives/1533.html 一个表里面每个分区又300个小文件，小文件数量太多，就想把文件导入一个新表每个分区一个文件，这样就是只有map的任务第一种方式： SET hive.exec.dynamic.partition=true; SET hive.exec.dynamic.partition.mode=nonstric...

2019-07-17 18:10:11 339

原创 mysql中判断某一条数据是否存在

SELECT IFNULL((SELECT ‘Y’ from yimei.boy where grade = 54 limit 1),‘N’)，mysql中用ifnull，hive中可以用isnull，这个用来替代case when count(*) > 0 then ‘Y’ else ‘N’ end ,这种会采用聚合索引查询，浪费内存，但是上面那个不会，同时limit1限制了只要查询到一...

2019-04-25 10:44:20 26937

原创 hive优化

压缩之后的文件可以直接load到hive中去查看系统压缩方式的命令 Hadoop checknative 为false的说明没有安装实操过程中发现，当系统的某一资源繁忙时，之前的处理速度和实际处理速度会相差很大，而且调整一些参数也并没有特别明显的效果。系统整体运行很吃资源的时候，采取以下几个方案：表格修改为orc格式，不但减少空间同时增加查询速度在orc格式的基础上可以开启矢量化...

2019-03-14 09:35:16 136

原创 spark还有hive调优

提交的种类有很多种，spark sql 、submit等等，不过都是分配资源方面的，可以再去了解一下提交这个任务的话默认并行度是200,就是说reduce会产生200个文件，这会产生大量的小文件问题，–设置spark并行度为1，解决小文件过多问题 set spark.sql.shuffle.partitions=1，但是大多数情况下如果数据量过大的话，还要提高并行度的，所以这里是个奇葩。当初...

2019-03-07 11:02:01 217

转载 Sqoop

Sqoop优化参考这个https://blog.youkuaiyun.com/u010185220/article/details/79085119 出现的问题，map数设置默认128M一个为宜，n个map就会产生n+1个数据块,所以设置过多好像也不太好哦，不过这也不算小文件，没有影响（我猜的嘻嘻）如何判断读取的数据是否完整？可以采用也可以使用count * 计算是否行数一样为什么多个map之后会有...

2019-02-28 17:04:10 550

weixin_43454942的博客