小亚文-优快云博客

原创 scala 2.12 error: value foreach is not a member of Object

如图所示：在scala 2.11的时候下面的不报错，但是在2.12下报错了。经过查找资料得到：df 后面加上rdd 即可。

2024-09-26 17:10:25 609

原创 tez优化措施

如果group by数据倾斜：可以修改如下参数设置。如果内存不够：可以修改如下参数设置。

2024-08-05 09:56:53 317

原创 hive1--＞hive2代码冲突

1、‘“” —》’\“” 后面使双引号的前面加两个\。2、关键字：date，update 改成下面格式。

2024-07-04 14:32:06 167

原创大数据组件--Hue

1.进入hue，首先创建一个shell脚本，点击hdfs进入文件目录。2.然后进入editor 你想要的脚本，比如一个shell脚本。3.进入Scheduler中的workflow。点击右边new，创建文件夹或者文件。点击下方红框按钮可以直接运行。选择文件，右边出现文件浏览。

2024-06-25 11:05:24 766

原创 hbase版本从1.2升级到2.1 spark读取hive数据写入hbase 批量写入类不存在问题

在hbase1.2版本中，pom.xml中引入hbase-server1.2…0和hbase-client1.2.0就已经可以有如下图的类。但是在hbase2.1.0版本中增加这两个不行。hbase-server2.1.0中没有mapred包，同时mapreduce下就2个类。在2.1.0版本中增加hbase-mapreduce包就可以支持了。

2024-05-24 10:54:11 427

原创 kettle中JavaScript使用例子

输入为20240216则Alert输出20240215 日期减一。1.将输入日期减一后，得到对应格式的输出。

2024-02-18 15:40:05 439

原创 kettle--JavaScript脚本日期使用

输入日期为20240216，运行如下代码，结果为true。

2024-02-17 16:23:22 684

原创 hive输出到csv文件

hive -e “” | tr “\t” “,” >文件.csv。

2024-01-31 16:07:59 274

原创查看hadoop下文件列表并按日期排序

查看hadoop下文件列表并按日期排序。

2023-09-13 11:24:32 857

原创 ES 索引重命名--Reindex（一）

步骤（1）：每次写入把之前的索引删除再重新创建索引，然后判断索引是否创建成功，由于创建成功返回结果是json，因此用Json Input插件去解析json获得字段，然后用Switch/case插件判断是否成功。删除旧索引别名，对新索引进行添加别名，即reindex的新索引。步骤（2）：re_index。

2023-08-21 18:02:21 2259

原创 hive--给表名和字段加注释

增加之后的注释，会在元数据库（一般在MySQL 中的 hive 库）中的 TABLE_PARAMS 表中显示，该表存储表/视图的属性信息。注意：comment一定要是小写的，不能是COMMENT，且必须要加单引号！4.字段名修改添加注释。

2023-08-17 11:12:35 5337

原创 CDH6.3.2搭建HIVE ON TEZ

如果内存不够：可以修改如下参数设置。----配置hive运行引擎。

2023-08-14 15:39:13 1212

原创 [Azkaban] No active executors found

然后再进入azkaban exe 文件夹运行 bin/start.sh ，然后再查看select * from executors;actvie是否为1，查看日志是否成功。当active=0，更新为1时，用 netstat -ntpl|grep 12321 查看哪个程序占用，然后kill -9 那个ID。然后进入azkaban-web文件夹重启，再次启动azkaban上运行脚本。

2023-08-14 10:56:10 520

原创 shell脚本指定日期格式处理

【代码】shell脚本指定日期格式处理。

2023-08-11 14:45:44 372

原创 kettle之转换嵌套转换问题

在kettle中如果转换中还调用了转换，需要用过滤记录和中止来判断是否转换内容成功。否则，运行失败了，也会显示成功。这样计算数据会出现问题。如下图中用ExecutionNrErrors参数个数是否大于0判断运行成功与否。如果大于0说明失败，则进行中止。

2023-08-08 17:00:42 620

原创 kettle之Switch/Case 插件

插件运行下一步的表输入中执行hivesql需选上下面红色方框的，否则Switch/Case分支不生效!Switch/Case 插件存在于转换中，用于进行分支选择。

2023-08-08 16:48:16 641

原创 linux 之if [ ]

是shell变量,表示"最后一次执行命令"的退出状态.0为成功,非0为失败.-le 小于等于,如:if [“<= 小于等于(需要双括号),如:((“= 大于等于(需要双括号),如:((“-ne 不等于,如:if [“-ge 大于等于,如:if [“-lt 小于,如:if [“-eq 等于,如:if [“-gt 大于,如:if [“< 小于(需要双括号),如:((“大于(需要双括号),如:((“

2023-06-16 14:55:20 768

原创测试hadoop服务器NodeManager无法连接ResourceManager问题

解决方案：删除该nodemanager所在机器的 /var/lib/hadoop-yarn/yarn-nm-recovery/yarn-nm-state 文件夹下的全部信息。

2023-03-20 10:58:13 744 2

转载 SparkContext、SparkConf和SparkSession的说明

SparkContext 和 SparkConf　　任何Spark程序都是SparkContext开始的，SparkContext的初始化需要一个SparkConf对象，SparkConf包含了Spark集群配置的各种参数。初始化后，就可以使用SparkContext对象所包含的各种方法来创建和操作RDD和共享变量。al conf = new SparkConf().setMaster("master").setAppName("appName")val sc = new SparkContext(

2021-06-07 18:41:03 3934

转载 Logger日志级别说明及设置方法

日志记录器(Logger)是日志处理的核心组件。log4j具有5种正常级别(Level)。日志记录器(Logger)的可用级别Level (不包括自定义级别 Level)，以下内容就是摘自log4j API (http://jakarta.apache.org/log4j/docs/api/index.html):static Level WARNWARN level表明会出现潜在错误的情形。static Level ERRORERROR level指出虽然发生错误事件，但仍然不影响系统的继续运行

2021-06-07 13:58:09 2259

原创 hive 基本处理--权重采样和

1.权重采样:权重weight越大，采样的频率越高pow(rand(), 1/(weight+0.01))2.hive 增加字段和删除字段增加字段示例：一次增加一个列(默认添加为最后一列)ALTER TABLE table ADD COLUMNS (new_col int); 删除示例：原有Hive表table_test中有a,b,c,d,e这几个字段将从table_test中删除“d”列: ALTER TABLE table_testREPLACE COLUMNS (a int,

2021-02-09 16:47:50 1256

原创 flink ---ncat windows 安装产生数据流

下载地址：https://eternallybored.org/misc/netcat/解压将nc.exe 复制到C:\Windows\System32的文件夹下然后打开cmd 输入nc -l -p 9000按回车，输入想要输入的单词，同时运行flink程序，就能看到想要的结果

2020-10-30 15:39:25 562

原创 python 工程在服务器上运行，如何将各模块之间关联

直接将本地pycharm 上的工程放到服务器上，并做如下操作即可：管理员权限修改：/etc/profile。在最后一行加上exportPYTHONPATH=$PYTHONPATH:项目目录然后运行如下代码，更新立即生效source/etc/profile...

2020-07-08 17:13:12 470

原创 mahout中k-means算法运行与查看

1.首先，下载数据集synthetic_control.data，并将其导入到分布式文件系统上。运行hadoop 命令建立testdata文件夹:$HADOOP_HOME/bin/hadoop fs -mkdir testdata并将该文件放入改文件夹下面 $HADOOP_HOME/bin/hadoop fs -put synthetic_control.data testdata运行mahout上的kmeans例子$HADOOP_HOME/ 为hadoop 安装目录$HADOOP_H

2020-06-22 11:46:21 452

原创 Hbase 删除表格问题--- Table already exists

1. 首先输入$hbase zkcli命令进入zookeeper client模式2. 在zk client模式下输入ls /hbase/table命令看到zombie table，查看有哪些表此时可以在正常模式下看下当前有哪些表3. 然后使用 rmr /hbase/table/TABLE_NAME 命令删除zombie table，重启hbase即可...

2020-05-06 13:49:48 1046

原创 hive 中join和Group的优化

group by 优化set hive.map.aggr = true; //是否在 Map 端进行聚合，默认为 Trueset hive.groupby.mapaggr.checkinterval = 100000000; //在 Map 端进行聚合操作的条目数目set hive.groupby.skewindata = true; //解决数据倾斜的万能钥匙join 优化s...

2020-02-20 18:03:23 745

原创查看liunx 下查看磁盘空间的几个命令

执行命令 df -h ，查看当前占用情况[ops@djl-data3 data]$ df -h Filesystem Size Used Avail Use% Mounted on/dev/vda3 36G 7.6G 28G 22% /devtmpfs 7.8G 0 7.8G 0% /devtmpfs ...

2020-02-17 15:05:00 390

原创 hive 中mapjoin 出现情况分析

1.当两个表join的时候，当一方表数据量比较小的时候，运行hive的时候会自动进行mapjoin，但是进行mapjoin数据又跑不动，现在需要运行的时候加一句：关闭mapjionset hive.auto.convert.join = false; 2.mapjoin 优化，使用一张表数据小于1000行3....

2020-01-02 16:56:54 902

原创 Google机器学习课程（二)降低损失（1）--迭代方法

得到

2019-08-11 12:15:21 179

原创 Google机器学习课程（一）--训练与损失

线性回归按机器学习，线性回归模型方程式:y’=w1*x1+b其中：y′ 指的是预测标签（理想输出值）。b 指的是偏差（y 轴截距）。而在一些机器学习文档中，它称为 w0。w1 指的是特征 1 的权重。权重与线性函数中的“斜率”的概念相同。x1 指的是特征（已知输入项）。该式表示有一个特征的方程式，具有三个特征的模型可以采用以下方程式：y’=b+w1x1+w2x2+w3*x3训练...

2019-08-06 21:51:24 406

原创 Google机器学习课程--机器学习术语

(监督式）机器学习定义：机器学习系统通过学习如何组合输入信息来对从未见过的数据做出有用的预测

2019-08-06 21:13:56 164

转载查看HDFS上的文件，文件是否为空的命令总结

-test -[defsz] 测试文件是否存在:Answer various questions about , with result via exit status.-d return 0 if is a directory.-e return 0 if exists.-f return 0 if is a file.-s return 0 if file is great...

2019-07-30 10:37:25 1587

原创 Windows下如何将一个文件夹上传到git

原文：https://blog.youkuaiyun.com/geerniya/article/details/79552247以下给出详细步骤：1、首先得安装git客户端安装方法很简单，跟安装QQ之类的一样，进入官网：https://git-scm.com/ ，点击右侧下载windows版本的软件包，然后双击安装，一步一步下一步就可以了。安装完成之后，在开始菜单可以看到如下就算是成功了：如下图，点...

2019-01-02 11:51:29 2735

原创 hive表在join on和在where上过滤对比

一、left join 在on 和where 过滤对比A表结构以及数据：id name grade dept1 cid1 100 102 cid2 90 203 cid3 60 104 cid4 80 105 cid5 70 20B表结构以及数据：id name10 IT120 I...

2018-11-19 11:46:49 973

转载 csr_matrix(Compressed Sparse Row matrix)存储模式 ---稀疏数据的压缩

压缩稀疏矩阵的某种存储方式>>> indptr = np.array([0, 2, 3, 6])>>> indices = np.array([0, 2, 2, 0, 1, 2])>>> data = np.array([1, 2, 3, 4, 5, 6])>>> csr_matrix((data, indices,...

2018-08-13 17:23:14 853

转载 CNN卷积神经网络原理

转载：https://www.cnblogs.com/skyfsm/p/6790245.html 最近看了cnn神经网络，发现这篇博文很好，通俗易懂。神经网络的结构是这样的：那卷积神经网络跟它是什么关系呢？其实卷积神经网络依旧是层级网络，只是层的功能和形式做了变化，可以说是传统神经网络的一个改进。比如下图中就多了许多传统神经网络没有的层次卷积神经网络的层级结构： ...

2018-07-11 17:42:49 1706

原创 tensorflow-CNN实例图像分类

https://www.cnblogs.com/denny402/p/6931338.html (cnn 图片分类）http://blog.youkuaiyun.com/csuzhaoqinghui/article/details/51377941（Tensorflow之构建自己的图片数据集TFrecords）http://blog.youkuaiyun.com/BeautyJingJing/article/det...

2018-07-11 17:00:34 4831

原创 MovieTaster-使用Item2Vec做电影推荐代码解析

在做推荐的时候了解到，可以将电影进行向量的训练，根据向量的相似度来做推荐，下载了MovieTaster代码，源代码地址 https://github.com/lujiaying/MovieTaster-Open，根据代码的数据来运行了一遍该程序。1.是process.py ，代码中iteritems()在python3中为items()import jsonDoulistFile = ...

2018-07-11 15:03:46 2369

SOM数据集，用于机器学习中SOM分类使用

python数据分析与挖掘实战---基于水色图像的水质评价数据集（包括该章数据集和拓展训练数据集）

空空如也