- 博客(68)
- 资源 (1)
- 收藏
- 关注
原创 补全缺失日期和计算累计值
数仓开发或者报表开发中可能会遇到这种需求,比如计算一个店铺的一个商品sku的从出现至今的销售量的累计值,并且某一天没有销售也要能看到。
2025-03-05 14:56:45
302
原创 部署和使用dinky问题总结
flink1.16官方部署文档:http://www.dlink.top/docs/0.7/deploy_guide/build/github部署文档:https://github.com/DataLinkDC/dinky/blob/v0.7.4/docs/docs/deploy_guide/deploy.md。
2023-09-20 13:24:09
877
1
原创 sanic整合tortoise-orm时区问题
用python测试了一下通过接口和model写数据到数据库,发现时区是UTC时区,也就是北京时间减8小时的时间值,经过查找发现有两种解决方法,一个是配置里加上。
2023-03-10 13:42:18
887
原创 cdh部署成功后无法安装集群无法进入安装向导
cdh部署成功之后,登录后本应该出现安装向导,但是中间却是一片空白。右下角有返回按钮,旁边继续按钮是一个灰框,没有文字,后来按了F12后,发现控制台console里有2个js文件未加载,1个js文件报错,以为是部署有问题,后来认为是访问了官网的资源,在host里加了官网还是不行。最后发现是浏览器的问题,因为用的火狐浏览器安装了广告屏蔽插件,把js脚本给禁止加载了,着实坑了自己一把。...
2022-01-06 10:08:37
422
原创 Linux每次登录用户会提示未找到的命令
[root@hadoop203 ~]# su - hadoopLast login: Thu Dec 30 14:15:12 CST 2021 on pts/0-bash: hadoop: command not found登录hadoop用户会提示没有命令,一直不知道为什么会出现这种情况,后来发现是在hadoop用户的.bash_profile文件里加了export HADOOP_CLASSPATH=`hadoop classpath`导致的...
2021-12-30 14:26:37
1885
2
原创 hadoop集群启动和关闭脚本
开启集群:#!/bin/bash#start zookeeperssh hadoop001 "$ZOOKEEPER_HOME/bin/zkServer.sh start"ssh hadoop002 "$ZOOKEEPER_HOME/bin/zkServer.sh start"ssh hadoop003 "$ZOOKEEPER_HOME/bin/zkServer.sh start"sleep 8#start hdfs+yarn+jobhistoryssh hadoop001 "$HADO
2021-12-28 21:54:21
1338
原创 hive报错Could not get block locations. Source file “/user/hive/warehouse/xxx
hive报错Could not get block locations. Source file "/user/hive/warehouse/xxx...以及Caused by: org.apache.hadoop.hive.ql.metadata.HiveException: Error while processing row (tag=0)...是因为链接超时了设置set mapred.task.timeout=600000;为10分钟或更长即可...
2021-12-24 20:44:24
3528
原创 impala运行sql文件无法正确转换为decimal(没有四舍五入)
一次迁移发现,生产和测试的结果不太一样,生产用的impala,测试用hive,同一个值,在转换为decimal(8,2)时,impala没有四舍五入,hive有,查看日志发现impala出现了警告:WARNINGS: UDF WARNING: String to Decimal parse failedUDF WARNING: String to Decimal parse failed查了很久才发现是因为impala配置文件里配置了SET DECIMAL_V2=FALSE;使用hue测试了一下S
2021-12-23 11:26:14
3082
原创 flink遇到的问题
报错Could not find Flink jobJob has been submitted with JobID 52e00d8f89544a7df6de38b45e33686e------------------------------------------------------------ The program finished with the following exception:org.apache.flink.client.program.ProgramInvocation
2021-11-15 23:23:03
7503
1
原创 sqoop参数和样例
原文:https://zhuanlan.zhihu.com/p/163266351相关参数含义1.数据导入:sqoop import可通过 sqoop import --help 命令查看参数 说明普通参数–connect 指定JDBC连接字符串–connection-manager 指定连接管理器类名–connection-param-file 指定连接参数文件–driver 手动指定要使用的JDBC驱动程序类–hadoop-home 覆盖 $HADOOP_MAPR ED_HOME_AR
2021-10-25 19:17:53
635
原创 org.apache.spark.SparkException: A master URL must be set in your configuration
spark maven项目本地测试报错:org.apache.spark.SparkException: A master URL must be set in your configuration原因是没有指定master,spark不知道运行在什么上面,可以指定的有:local 本地单线程local[K] 本地多线程(指定K个内核)local[*] 本地多线程(指定所有可用内核)spark://HOST:PORT 连接到指定的 Spark standalone cluster master
2021-08-05 16:41:53
857
原创 spark本地测试报错:java.lang.NoClassDefFoundError: org/apache/spark/sql/SparkSessio
spark maven项目本地测试报错:Error: A JNI error has occurred, please check your installation and try againException in thread "main" java.lang.NoClassDefFoundError: org/apache/spark/sql/SparkSession原因是我在pom文件里引入的sparksql依赖加了<scope>provided</scope>标签
2021-08-05 16:24:01
2778
原创 重装本机系统导致的虚拟机静态IP无法修改
重装系统导致的虚拟机静态IP无法修改修改/etc/sysconfig/network-scripts/ifcfg-eth0 文件的内容,把物理地址改为ip addr或者ifconfig命令显示的物理地址,注意要大写...
2020-04-02 23:24:39
597
转载 Redis的持久化:RDB与AOF讲解
原文链接:https://blog.youkuaiyun.com/pengzonglu7292/article/details/89343266一、RDB(Redis Database)1、基础知识1、基础: 默认的持久化机制。 可以定时备份内存中的数据集。 每个某段时间内,如果发生了超过特定次数的写操作,则进行持久化。 生成的持久文件为/opt/apps/redis-2...
2019-04-27 22:26:22
183
原创 maxwell把数据同步给kafka的注意点
1、注意maxwell的schema_database数据库和表是不监控的,在这个数据库里插入或删除数据不会被kafka消费。2、mysql中配置binlog,开启后通过show variables like 'log_bin';查看是否ON的状态mysql中配置binlog的输出格式为row,开启后通过show variables like 'binlog_format';查看mysq...
2019-03-26 21:52:44
2101
原创 CDH Service Monitor角色错误
Failed to open or create partitioncom.cloudera.cmon.tstore.leveldb.LDBPartitionManager$LDBPartitionException: Unable to open DB in directory /var/lib/cloudera-service-monitor/ts/stream/partitions/str...
2019-03-19 14:17:48
2297
4
原创 Linux下查找目录中所有文件中含有某个字符串,并且只打印出文件名
查找目录下的所有文件中是否含有某个字符串 查找目录下的所有文件中是否含有某个字符串 find .|xargs grep -ri &quot;IBM&quot; 查找目录下的所有文件中是否含有某个字符串,并且只打印出文件名 find .|xargs grep -ri &quot;IBM&quot; -l 1.正则表达式 (1)正则表达式一般用来描述文本模式的特殊用法,由普通字符(例如字符a-z)以及特殊字符(称为元字
2019-03-07 17:02:16
11506
转载 记录配置HDFS HA后,hive抛错Wrong FS
转自:http://blog.itpub.net/31451369/viewspace-2153698/1.问题:在CDH5.x或者Apache环境下,配置了NameNode的HA后,Hive无正常查询数据了。Hive查询会出现如下异常:FAILED: SemanticException Unable to determine if hdfs://hadoop-01:8020/user/h...
2019-01-10 16:24:59
987
转载 This account is currently not available 解决办法
转自:http://blog.51cto.com/ichange/1285751今天建立跳转机用户登录,出现异常,提示“This account is currently not available”。由于是分两批次建立的,中间改过脚本文件,不确定问题原因。逐台登录看用户权限。问题原因:shell是/sbin/nologindaniao❌503:503::/home/daniao:/sb...
2019-01-05 18:06:18
10363
原创 升级CDH集群(离线)
官网参考:https://www.cloudera.com/documentation/enterprise/upgrade/topics/ug_overview.html注意:下文中的ip需要改成自己的ip1、升级注意点升级包括两个主要步骤,升级Cloudera Manager和升级CDH,在升级之前需要注意:CDH 5和Cloudera Manager 5要求和支持的版本注意JDK版...
2019-01-03 01:42:37
1487
原创 CDH安装Kafka
环境:三台机器(CentOS6.5)CDH:5.7.0下载parcel包CDH的parcel包中不含有Kafka,需要单独下载http://archive.cloudera.com/kafka/parcels/在这里选择版本对于不同的CDH版本,对应的Kafka版本也不同官网给出的对应关系:注意Kafka所对应的系统,EL6 is the download for Red H...
2018-12-02 16:11:33
2798
原创 Flume Sink到Kafka遇到的问题
1、版本问题2018-12-02 15:23:06,334 (conf-file-poller-0) [ERROR - org.apache.flume.node.AbstractConfigurationProvider.loadSinks(AbstractConfigurationProvider.java:427)] Sink k1 has been removed due to an e...
2018-12-02 16:05:03
4275
原创 修改Hadoop日志格式为json
CDH只需要在页面上的配置里搜索即可,然后改成log4j.appender.RFA.layout.ConversionPattern = {&quot;time&quot;:&quot;%d{yyyy-MM-dd HH:mm:ss,SSS}&quot;,&quot;logtype&quot;:&quot;%p&quot;,&quot;loginfo&am
2018-11-29 16:13:05
419
原创 Kafka监控
监控软件KafkaManager:https://github.com/yahoo/kafka-managerKafka-eagle:https://github.com/smartloli/kafka-eagleCDH自带有很好的监控JMXtrans + InfluxDB + Grafana实现Kafka性能指标监控安装JMXtrans收集来自已经启动jmx的kafka服务的数据...
2018-11-19 16:49:11
402
原创 CDH安装注意的点
1、数据库版本例如:CDH4.x 可以是MySQL5.5.11CDH5.x 可以是MySQL5.6.232、防火墙需要关闭防火墙及自动运行chkconfig iptables offchkconfig --list | grep iptables3、使用Oracle jdkopen jdk可能会有不兼容的情况4、注意主机hosts文件/etc/hosts文件内,不仅需要有集群...
2018-11-19 16:10:21
268
原创 Kafka安装和简单使用
安装准备首先安装zookeeper和scala安装Zookeeper下载解压(先安装一台),修改配置文件zoo.cfg[root@hadoop001 conf]# cp zoo_sample.cfg zoo.cfg[root@hadoop001 conf]# vi zoo.cfg # The number of milliseconds of each ticktickTime=20...
2018-11-19 15:25:06
108
转载 CDH 系统优化之关闭透明大页面及设置swappiness
原文:https://blog.youkuaiyun.com/Post_Yuan/article/details/54967508安装完CDH后,CDH Manager一般会提示用户需要做一些Linux系统层面的优化,主要包括两类:禁止透明大页面及交换分区设置。详情请参考Cloudera官方网址:https://www.cloudera.com/documentation/enterprise/latest...
2018-11-14 00:20:42
2833
原创 开机自启动非root用户的服务
设置非root用户的服务开机自启动比如:chkconfig mysql on是无效的可以这样设置:在root用户下vi /etc/rc.local或者vi /etc/rc.d/rc.local在最后一行加上su - mysqladmin -c "/usr/local/mysql/startMysql.sh"其中mysqladmin是管理mysql的用户,"/usr/loc...
2018-11-13 16:12:57
4840
2
原创 Spark SQL部分简单使用详解
Spark SQL简介Spark SQL是Spark处理数据的一个模块,跟基本的Spark RDD的API不同,Spark SQL中提供的接口将会提供给Spark更多关于结构化数据和计算的信息。Spark SQL is not about SQLSpark SQL is about more than SQL从严格意义上来说sparkSQL不仅仅是SQL,更加准确的来说,他是超乎SQL的作...
2018-10-31 22:15:03
833
原创 运行Spark SQL报The specified datastore driver ("com.mysql.jdbc.Driver") was not found in the CLASSPATH.
想启动spark-sql,结果报了Caused by: org.datanucleus.store.rdbms.connectionpool.DatastoreDriverNotFoundException: The specified datastore driver (“com.mysql.jdbc.Driver”) was not found in the CLASSPATH. Pleas...
2018-10-31 12:32:01
2857
1
原创 Spark执行流程
我们使用spark-submit提交一个Spark作业之后,这个作业就会启动一个对应的Driver进程。根据你使用的部署模式(deploy-mode)不同,Driver进程可能在本地启动,也可能在集群中某个工作节点上启动。Driver进程本身会根据我们设置的参数,占有一定数量的内存和CPU core。而Driver进程要做的第一件事情,就是向集群管理器(可以是Spark Standalone集群,...
2018-10-31 12:05:21
163
原创 Spark的cache缓存、存储级别、shuffle弊端与coalesce
官网:http://spark.apache.org/docs/latest/rdd-programming-guide.html#rdd-persistenceCachecache(缓存)和persist(持久化)的区别cache源码里面调用的是persist,persist里面传的是 存储化级别是内存cache lazy(spark core里面是lazy的,spark sql不是la...
2018-10-26 00:08:34
1178
原创 Spark中Java序列化和Kryo序列化结果比较
序列化序列化:Java序列化 Kryo序列化官网:http://spark.apache.org/docs/latest/tuning.html如果对象比较大,需要添加一个参数spark.kryoserializer.buffer(默认64k)(有点小需要调大一点)spark.kryoserializer.buffer.max(默认64m)(需要大于对象尝试序列化的数据的大小,并且小于2...
2018-10-25 23:08:31
1117
1
原创 spark调优的一些点
1.RDD的优化不要创建数据相同的RDD两次(多次)通常创建一个RDD(读取HDFS或者Hive中的文件),然后对这个RDD做一些算子操作,得到下一个RDD,如果同一个RDD创建了两遍(数据相同),就会从磁盘中读取两次,会浪费大量的时间和性能。RDD要尽可能的复用如果需要RDD中的部分值,不需要创建一个新的RDD,这样会多使用一次spark算子。比如需要tuple中的第二个值,可以用tu...
2018-10-24 17:14:45
250
原创 启动Spark出现Operation category READ is not supported in state standby.
出现这个错误是spark读取standby状态的namenode导致的,出现原因是访问到了非active节点,只要在active节点启动就行了。如果还不行,先检查一下hosts文件,看看对应的ip和主机名有没有问题。然后检查Spark的配置文件,看看有没有写固定路径,如果写固定路径而那个节点是standby状态的话,就会出现这个错误。...
2018-10-23 12:31:11
3791
原创 Linux中的shell脚本
1.shell脚本入门1.1定义[root@hadoop000 shell]# vi wordcount.sh#!/bin/bashecho “www.ruozedata.com”[root@hadoop000 shell]# /opt/shell/wordcount.sh-bash: /opt/shell/wordcount.sh: Permission denied[root@h...
2018-10-16 10:45:45
275
转载 Spark on Yarn 详解(转)
1、spark on yarn有两种模式,一种是cluster模式,一种是client模式。a.执行命令“./spark-shell --master yarn”默认运行的是client模式。b.执行"./spark-shell --master yarn-client"或者"./spark-shell --master yarn --deploy-mode client"运行的也是clien...
2018-10-13 20:20:04
742
原创 Spark编译
Spark编译准备分布式计算框架1.首先安装好maven(3.3.9)和scala(2.11.8)2.安装 Git(建议安装一下,编译的时候可能用到,脚本里有提:sudo yum install git本文档spark版本:2.2.0建议不要用最后一个是0的,因为没有修复过bug,最后一位代表修改过bug的版本。官网building spark地址:http://spark.apac...
2018-10-07 18:52:27
256
原创 压缩与存储格式
压缩压缩是调优的重要的点。另外不一定非要用带split的压缩方式,如果前期做的比较好,每个块都分割成128M(一般是比block块小一点,比如256M就放250M),就可以不用带split的压缩了。文件的存储格式Hive可以支持多种格式,主要有:SEQUENCEFILE,TEXTFILE,RCFILE,ORCPARQUET。其中Hive默认的文件格式是TextFile。设定文件格式的语句...
2018-10-07 18:15:17
558
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人