万事于足下-优快云博客

原创补全缺失日期和计算累计值

数仓开发或者报表开发中可能会遇到这种需求，比如计算一个店铺的一个商品sku的从出现至今的销售量的累计值，并且某一天没有销售也要能看到。

2025-03-05 14:56:45 302

原创部署和使用dinky问题总结

flink1.16官方部署文档：http://www.dlink.top/docs/0.7/deploy_guide/build/github部署文档：https://github.com/DataLinkDC/dinky/blob/v0.7.4/docs/docs/deploy_guide/deploy.md。

2023-09-20 13:24:09 877 1

原创 sanic整合tortoise-orm时区问题

用python测试了一下通过接口和model写数据到数据库，发现时区是UTC时区，也就是北京时间减8小时的时间值，经过查找发现有两种解决方法，一个是配置里加上。

2023-03-10 13:42:18 887

原创 cdh部署成功后无法安装集群无法进入安装向导

cdh部署成功之后，登录后本应该出现安装向导，但是中间却是一片空白。右下角有返回按钮，旁边继续按钮是一个灰框，没有文字，后来按了F12后，发现控制台console里有2个js文件未加载，1个js文件报错，以为是部署有问题，后来认为是访问了官网的资源，在host里加了官网还是不行。最后发现是浏览器的问题，因为用的火狐浏览器安装了广告屏蔽插件，把js脚本给禁止加载了，着实坑了自己一把。...

2022-01-06 10:08:37 422

[root@hadoop203 ~]# su - hadoopLast login: Thu Dec 30 14:15:12 CST 2021 on pts/0-bash: hadoop: command not found登录hadoop用户会提示没有命令，一直不知道为什么会出现这种情况，后来发现是在hadoop用户的.bash_profile文件里加了export HADOOP_CLASSPATH=`hadoop classpath`导致的...

2021-12-30 14:26:37 1885 2

原创 hadoop集群启动和关闭脚本

开启集群：#!/bin/bash#start zookeeperssh hadoop001 "$ZOOKEEPER_HOME/bin/zkServer.sh start"ssh hadoop002 "$ZOOKEEPER_HOME/bin/zkServer.sh start"ssh hadoop003 "$ZOOKEEPER_HOME/bin/zkServer.sh start"sleep 8#start hdfs+yarn+jobhistoryssh hadoop001 "$HADO

2021-12-28 21:54:21 1338

原创 hive报错Could not get block locations. Source file “/user/hive/warehouse/xxx

hive报错Could not get block locations. Source file "/user/hive/warehouse/xxx...以及Caused by: org.apache.hadoop.hive.ql.metadata.HiveException: Error while processing row (tag=0)...是因为链接超时了设置set mapred.task.timeout=600000;为10分钟或更长即可...

2021-12-24 20:44:24 3528

原创 impala运行sql文件无法正确转换为decimal（没有四舍五入）

一次迁移发现，生产和测试的结果不太一样，生产用的impala，测试用hive，同一个值，在转换为decimal(8,2)时，impala没有四舍五入，hive有，查看日志发现impala出现了警告：WARNINGS: UDF WARNING: String to Decimal parse failedUDF WARNING: String to Decimal parse failed查了很久才发现是因为impala配置文件里配置了SET DECIMAL_V2=FALSE;使用hue测试了一下S

2021-12-23 11:26:14 3082

原创 flink遇到的问题

报错Could not find Flink jobJob has been submitted with JobID 52e00d8f89544a7df6de38b45e33686e------------------------------------------------------------ The program finished with the following exception:org.apache.flink.client.program.ProgramInvocation

2021-11-15 23:23:03 7503 1

原创 sqoop参数和样例

原文：https://zhuanlan.zhihu.com/p/163266351相关参数含义1.数据导入:sqoop import可通过 sqoop import --help 命令查看参数说明普通参数–connect 指定JDBC连接字符串–connection-manager 指定连接管理器类名–connection-param-file 指定连接参数文件–driver 手动指定要使用的JDBC驱动程序类–hadoop-home 覆盖 $HADOOP_MAPR ED_HOME_AR

2021-10-25 19:17:53 635

原创 org.apache.spark.SparkException: A master URL must be set in your configuration

spark maven项目本地测试报错：org.apache.spark.SparkException: A master URL must be set in your configuration原因是没有指定master，spark不知道运行在什么上面，可以指定的有：local 本地单线程local[K] 本地多线程（指定K个内核）local[*] 本地多线程（指定所有可用内核）spark://HOST:PORT 连接到指定的 Spark standalone cluster master

2021-08-05 16:41:53 857

原创 spark本地测试报错：java.lang.NoClassDefFoundError: org/apache/spark/sql/SparkSessio

spark maven项目本地测试报错：Error: A JNI error has occurred, please check your installation and try againException in thread "main" java.lang.NoClassDefFoundError: org/apache/spark/sql/SparkSession原因是我在pom文件里引入的sparksql依赖加了<scope>provided</scope>标签

2021-08-05 16:24:01 2778

原创重装本机系统导致的虚拟机静态IP无法修改

重装系统导致的虚拟机静态IP无法修改修改/etc/sysconfig/network-scripts/ifcfg-eth0 文件的内容，把物理地址改为ip addr或者ifconfig命令显示的物理地址，注意要大写...

2020-04-02 23:24:39 597

转载 Redis的持久化：RDB与AOF讲解

原文链接：https://blog.youkuaiyun.com/pengzonglu7292/article/details/89343266一、RDB（Redis Database）1、基础知识1、基础：默认的持久化机制。可以定时备份内存中的数据集。每个某段时间内，如果发生了超过特定次数的写操作，则进行持久化。生成的持久文件为/opt/apps/redis-2...

2019-04-27 22:26:22 183

原创 maxwell把数据同步给kafka的注意点

1、注意maxwell的schema_database数据库和表是不监控的，在这个数据库里插入或删除数据不会被kafka消费。2、mysql中配置binlog，开启后通过show variables like 'log_bin';查看是否ON的状态mysql中配置binlog的输出格式为row，开启后通过show variables like 'binlog_format';查看mysq...

2019-03-26 21:52:44 2101

原创 CDH Service Monitor角色错误

Failed to open or create partitioncom.cloudera.cmon.tstore.leveldb.LDBPartitionManager$LDBPartitionException: Unable to open DB in directory /var/lib/cloudera-service-monitor/ts/stream/partitions/str...

2019-03-19 14:17:48 2297 4

原创 Linux下查找目录中所有文件中含有某个字符串，并且只打印出文件名

查找目录下的所有文件中是否含有某个字符串查找目录下的所有文件中是否含有某个字符串 find .|xargs grep -ri &quot;IBM&quot; 查找目录下的所有文件中是否含有某个字符串,并且只打印出文件名 find .|xargs grep -ri &quot;IBM&quot; -l 1.正则表达式（1）正则表达式一般用来描述文本模式的特殊用法，由普通字符（例如字符a-z）以及特殊字符（称为元字

2019-03-07 17:02:16 11506

转载记录配置HDFS HA后，hive抛错Wrong FS

转自：http://blog.itpub.net/31451369/viewspace-2153698/1.问题:在CDH5.x或者Apache环境下，配置了NameNode的HA后，Hive无正常查询数据了。Hive查询会出现如下异常：FAILED: SemanticException Unable to determine if hdfs://hadoop-01:8020/user/h...

2019-01-10 16:24:59 987

转载 This account is currently not available 解决办法

转自：http://blog.51cto.com/ichange/1285751今天建立跳转机用户登录，出现异常，提示“This account is currently not available”。由于是分两批次建立的，中间改过脚本文件，不确定问题原因。逐台登录看用户权限。问题原因：shell是/sbin/nologindaniao❌503:503::/home/daniao:/sb...

2019-01-05 18:06:18 10363

原创升级CDH集群（离线）

官网参考：https://www.cloudera.com/documentation/enterprise/upgrade/topics/ug_overview.html注意：下文中的ip需要改成自己的ip1、升级注意点升级包括两个主要步骤，升级Cloudera Manager和升级CDH，在升级之前需要注意：CDH 5和Cloudera Manager 5要求和支持的版本注意JDK版...

2019-01-03 01:42:37 1487

原创 CDH安装Kafka

环境：三台机器（CentOS6.5）CDH：5.7.0下载parcel包CDH的parcel包中不含有Kafka，需要单独下载http://archive.cloudera.com/kafka/parcels/在这里选择版本对于不同的CDH版本，对应的Kafka版本也不同官网给出的对应关系：注意Kafka所对应的系统，EL6 is the download for Red H...

2018-12-02 16:11:33 2798

原创 Flume Sink到Kafka遇到的问题

1、版本问题2018-12-02 15:23:06,334 (conf-file-poller-0) [ERROR - org.apache.flume.node.AbstractConfigurationProvider.loadSinks(AbstractConfigurationProvider.java:427)] Sink k1 has been removed due to an e...

2018-12-02 16:05:03 4275

原创修改Hadoop日志格式为json

CDH只需要在页面上的配置里搜索即可，然后改成log4j.appender.RFA.layout.ConversionPattern = {&quot;time&quot;:&quot;%d{yyyy-MM-dd HH:mm:ss,SSS}&quot;,&quot;logtype&quot;:&quot;%p&quot;,&quot;loginfo&am

2018-11-29 16:13:05 419

原创 Kafka监控

监控软件KafkaManager:https://github.com/yahoo/kafka-managerKafka-eagle:https://github.com/smartloli/kafka-eagleCDH自带有很好的监控JMXtrans + InfluxDB + Grafana实现Kafka性能指标监控安装JMXtrans收集来自已经启动jmx的kafka服务的数据...

2018-11-19 16:49:11 402

原创 CDH安装注意的点

1、数据库版本例如：CDH4.x 可以是MySQL5.5.11CDH5.x 可以是MySQL5.6.232、防火墙需要关闭防火墙及自动运行chkconfig iptables offchkconfig --list | grep iptables3、使用Oracle jdkopen jdk可能会有不兼容的情况4、注意主机hosts文件/etc/hosts文件内，不仅需要有集群...

2018-11-19 16:10:21 268

原创 Kafka安装和简单使用

安装准备首先安装zookeeper和scala安装Zookeeper下载解压（先安装一台），修改配置文件zoo.cfg[root@hadoop001 conf]# cp zoo_sample.cfg zoo.cfg[root@hadoop001 conf]# vi zoo.cfg # The number of milliseconds of each ticktickTime=20...

2018-11-19 15:25:06 108

转载 CDH 系统优化之关闭透明大页面及设置swappiness

原文：https://blog.youkuaiyun.com/Post_Yuan/article/details/54967508安装完CDH后，CDH Manager一般会提示用户需要做一些Linux系统层面的优化，主要包括两类：禁止透明大页面及交换分区设置。详情请参考Cloudera官方网址：https://www.cloudera.com/documentation/enterprise/latest...

2018-11-14 00:20:42 2833

原创开机自启动非root用户的服务

设置非root用户的服务开机自启动比如：chkconfig mysql on是无效的可以这样设置：在root用户下vi /etc/rc.local或者vi /etc/rc.d/rc.local在最后一行加上su - mysqladmin -c "/usr/local/mysql/startMysql.sh"其中mysqladmin是管理mysql的用户，"/usr/loc...

2018-11-13 16:12:57 4840 2

原创 Spark SQL部分简单使用详解

Spark SQL简介Spark SQL是Spark处理数据的一个模块，跟基本的Spark RDD的API不同，Spark SQL中提供的接口将会提供给Spark更多关于结构化数据和计算的信息。Spark SQL is not about SQLSpark SQL is about more than SQL从严格意义上来说sparkSQL不仅仅是SQL，更加准确的来说，他是超乎SQL的作...

2018-10-31 22:15:03 833

原创运行Spark SQL报The specified datastore driver ("com.mysql.jdbc.Driver") was not found in the CLASSPATH.

想启动spark-sql，结果报了Caused by: org.datanucleus.store.rdbms.connectionpool.DatastoreDriverNotFoundException: The specified datastore driver (“com.mysql.jdbc.Driver”) was not found in the CLASSPATH. Pleas...

2018-10-31 12:32:01 2857 1

原创 Spark执行流程

我们使用spark-submit提交一个Spark作业之后，这个作业就会启动一个对应的Driver进程。根据你使用的部署模式（deploy-mode）不同，Driver进程可能在本地启动，也可能在集群中某个工作节点上启动。Driver进程本身会根据我们设置的参数，占有一定数量的内存和CPU core。而Driver进程要做的第一件事情，就是向集群管理器（可以是Spark Standalone集群，...

2018-10-31 12:05:21 163

原创 Flume简单使用

erfg

2018-10-28 14:49:06 257

原创 Spark的cache缓存、存储级别、shuffle弊端与coalesce

官网：http://spark.apache.org/docs/latest/rdd-programming-guide.html#rdd-persistenceCachecache（缓存）和persist（持久化）的区别cache源码里面调用的是persist，persist里面传的是存储化级别是内存cache lazy（spark core里面是lazy的，spark sql不是la...

2018-10-26 00:08:34 1178

原创 Spark中Java序列化和Kryo序列化结果比较

序列化序列化：Java序列化 Kryo序列化官网：http://spark.apache.org/docs/latest/tuning.html如果对象比较大，需要添加一个参数spark.kryoserializer.buffer（默认64k）（有点小需要调大一点）spark.kryoserializer.buffer.max（默认64m）（需要大于对象尝试序列化的数据的大小，并且小于2...

2018-10-25 23:08:31 1117 1

原创 spark调优的一些点

1.RDD的优化不要创建数据相同的RDD两次（多次）通常创建一个RDD（读取HDFS或者Hive中的文件），然后对这个RDD做一些算子操作，得到下一个RDD，如果同一个RDD创建了两遍（数据相同），就会从磁盘中读取两次，会浪费大量的时间和性能。RDD要尽可能的复用如果需要RDD中的部分值，不需要创建一个新的RDD，这样会多使用一次spark算子。比如需要tuple中的第二个值，可以用tu...

2018-10-24 17:14:45 250

原创启动Spark出现Operation category READ is not supported in state standby.

出现这个错误是spark读取standby状态的namenode导致的，出现原因是访问到了非active节点，只要在active节点启动就行了。如果还不行，先检查一下hosts文件，看看对应的ip和主机名有没有问题。然后检查Spark的配置文件，看看有没有写固定路径，如果写固定路径而那个节点是standby状态的话，就会出现这个错误。...

2018-10-23 12:31:11 3791

原创 Linux中的shell脚本

1.shell脚本入门1.1定义[root@hadoop000 shell]# vi wordcount.sh#!/bin/bashecho “www.ruozedata.com”[root@hadoop000 shell]# /opt/shell/wordcount.sh-bash: /opt/shell/wordcount.sh: Permission denied[root@h...

2018-10-16 10:45:45 275

转载 Spark on Yarn 详解（转）

1、spark on yarn有两种模式，一种是cluster模式，一种是client模式。a.执行命令“./spark-shell --master yarn”默认运行的是client模式。b.执行"./spark-shell --master yarn-client"或者"./spark-shell --master yarn --deploy-mode client"运行的也是clien...

2018-10-13 20:20:04 742

原创 Spark编译

Spark编译准备分布式计算框架1.首先安装好maven（3.3.9）和scala（2.11.8）2.安装 Git(建议安装一下，编译的时候可能用到，脚本里有提：sudo yum install git本文档spark版本：2.2.0建议不要用最后一个是0的，因为没有修复过bug，最后一位代表修改过bug的版本。官网building spark地址：http://spark.apac...

2018-10-07 18:52:27 256

原创压缩与存储格式

压缩压缩是调优的重要的点。另外不一定非要用带split的压缩方式，如果前期做的比较好，每个块都分割成128M（一般是比block块小一点，比如256M就放250M），就可以不用带split的压缩了。文件的存储格式Hive可以支持多种格式，主要有：SEQUENCEFILE，TEXTFILE，RCFILE，ORCPARQUET。其中Hive默认的文件格式是TextFile。设定文件格式的语句...

2018-10-07 18:15:17 558

数据挖掘ID3算法java和c++代码实现

空空如也