- 博客(93)
- 资源 (2)
- 收藏
- 关注
原创 scala 2.12 error: value foreach is not a member of Object
如图所示:在scala 2.11的时候下面的不报错,但是在2.12下报错了。经过查找资料得到:df 后面加上rdd 即可。
2024-09-26 17:10:25
480
原创 大数据组件--Hue
1.进入hue,首先创建一个shell脚本,点击hdfs进入文件目录。2.然后进入editor 你想要的脚本,比如一个shell脚本。3.进入Scheduler中的workflow。点击右边new,创建文件夹或者文件。点击下方红框按钮可以直接运行。选择文件,右边出现文件浏览。
2024-06-25 11:05:24
595
原创 hbase版本从1.2升级到2.1 spark读取hive数据写入hbase 批量写入类不存在问题
在hbase1.2版本中,pom.xml中引入hbase-server1.2…0和hbase-client1.2.0就已经可以有如下图的类。但是在hbase2.1.0版本中增加这两个不行。hbase-server2.1.0中没有mapred包,同时mapreduce下就2个类。在2.1.0版本中增加hbase-mapreduce包就可以支持了。
2024-05-24 10:54:11
342
原创 kettle中JavaScript使用例子
输入为20240216则Alert输出20240215 日期减一。1.将输入日期减一后,得到对应格式的输出。
2024-02-18 15:40:05
329
原创 ES 索引重命名--Reindex(一)
步骤(1):每次写入把之前的索引删除再重新创建索引,然后判断索引是否创建成功,由于创建成功返回结果是json,因此用Json Input插件去解析json获得字段,然后用Switch/case插件判断是否成功。删除旧索引别名,对新索引进行添加别名,即reindex的新索引。步骤(2):re_index。
2023-08-21 18:02:21
2080
原创 hive--给表名和字段加注释
增加之后的注释,会在元数据库(一般在MySQL 中的 hive 库)中的 TABLE_PARAMS 表中显示,该表存储 表/视图 的属性信息。注意:comment一定要是小写的,不能是COMMENT,且必须要加单引号!4.字段名修改添加注释。
2023-08-17 11:12:35
4639
原创 [Azkaban] No active executors found
然后再进入azkaban exe 文件夹运行 bin/start.sh ,然后再查看select * from executors;actvie是否为1,查看日志是否成功。当active=0,更新为1时,用 netstat -ntpl|grep 12321 查看哪个程序占用 ,然后kill -9 那个ID。然后进入azkaban-web文件夹重启,再次启动azkaban上运行脚本。
2023-08-14 10:56:10
459
原创 kettle之转换嵌套转换问题
在kettle中如果转换中还调用了转换,需要用过滤记录和中止来判断是否转换内容成功。否则,运行失败了,也会显示成功。这样计算数据会出现问题。如下图中用ExecutionNrErrors参数个数是否大于0判断运行成功与否。如果大于0说明失败,则进行中止。
2023-08-08 17:00:42
514
原创 kettle之Switch/Case 插件
插件运行下一步的表输入中执行hivesql需选上下面红色方框的,否则Switch/Case分支不生效!Switch/Case 插件存在于转换中,用于进行分支选择。
2023-08-08 16:48:16
517
原创 linux 之if [ ]
是shell变量,表示"最后一次执行命令"的退出状态.0为成功,非0为失败.-le 小于等于,如:if [“<= 小于等于(需要双括号),如:((“= 大于等于(需要双括号),如:((“-ne 不等于,如:if [“-ge 大于等于,如:if [“-lt 小于,如:if [“-eq 等于,如:if [“-gt 大于,如:if [“< 小于(需要双括号),如:((“大于(需要双括号),如:((“
2023-06-16 14:55:20
616
原创 测试hadoop服务器NodeManager无法连接ResourceManager问题
解决方案:删除该nodemanager所在机器的 /var/lib/hadoop-yarn/yarn-nm-recovery/yarn-nm-state 文件夹下的全部信息。
2023-03-20 10:58:13
591
1
转载 SparkContext、SparkConf和SparkSession的说明
SparkContext 和 SparkConf 任何Spark程序都是SparkContext开始的,SparkContext的初始化需要一个SparkConf对象,SparkConf包含了Spark集群配置的各种参数。初始化后,就可以使用SparkContext对象所包含的各种方法来创建和操作RDD和共享变量。al conf = new SparkConf().setMaster("master").setAppName("appName")val sc = new SparkContext(
2021-06-07 18:41:03
3694
转载 Logger日志级别说明及设置方法
日志记录器(Logger)是日志处理的核心组件。log4j具有5种正常级别(Level)。日志记录器(Logger)的可用级别Level (不包括自定义级别 Level), 以下内容就是摘自log4j API (http://jakarta.apache.org/log4j/docs/api/index.html):static Level WARNWARN level表明会出现潜在错误的情形。static Level ERRORERROR level指出虽然发生错误事件,但仍然不影响系统的继续运行
2021-06-07 13:58:09
2215
原创 hive 基本处理--权重采样和
1.权重采样:权重weight越大,采样的频率越高pow(rand(), 1/(weight+0.01))2.hive 增加字段和删除字段增加字段示例:一次增加一个列(默认添加为最后一列)ALTER TABLE table ADD COLUMNS (new_col int); 删除示例:原有Hive表table_test中有a,b,c,d,e这几个字段 将从table_test中删除“d”列: ALTER TABLE table_testREPLACE COLUMNS (a int,
2021-02-09 16:47:50
1191
原创 flink ---ncat windows 安装产生数据流
下载地址 :https://eternallybored.org/misc/netcat/解压将nc.exe 复制到C:\Windows\System32的文件夹下然后打开cmd 输入nc -l -p 9000按回车,输入想要输入的单词,同时运行flink程序,就能看到想要的结果
2020-10-30 15:39:25
484
原创 python 工程在服务器上运行,如何将各模块之间关联
直接将本地pycharm 上的工程放到服务器上,并做如下操作即可:管理员权限修改:/etc/profile。在最后一行加上exportPYTHONPATH=$PYTHONPATH:项目目录然后运行如下代码,更新立即生效source/etc/profile...
2020-07-08 17:13:12
446
原创 mahout中k-means算法运行与查看
1.首先,下载数据集synthetic_control.data,并将其导入到分布式文件系统上。运行hadoop 命令建立testdata文件夹:$HADOOP_HOME/bin/hadoop fs -mkdir testdata并将该文件放入改文件夹下面 $HADOOP_HOME/bin/hadoop fs -put synthetic_control.data testdata运行mahout上的kmeans例子$HADOOP_HOME/ 为hadoop 安装目录$HADOOP_H
2020-06-22 11:46:21
397
原创 Hbase 删除表格问题--- Table already exists
1. 首先输入$hbase zkcli命令进入zookeeper client模式2. 在zk client模式下输入ls /hbase/table命令看到zombie table,查看有哪些表 此时可以在正常模式下看下当前有哪些表3. 然后使用 rmr /hbase/table/TABLE_NAME 命令删除zombie table,重启hbase即可...
2020-05-06 13:49:48
998
原创 hive 中join和Group的优化
group by 优化set hive.map.aggr = true; //是否在 Map 端进行聚合,默认为 Trueset hive.groupby.mapaggr.checkinterval = 100000000; //在 Map 端进行聚合操作的条目数目set hive.groupby.skewindata = true; //解决数据倾斜的万能钥匙join 优化s...
2020-02-20 18:03:23
702
原创 查看liunx 下查看磁盘空间的几个命令
执行命令 df -h ,查看当前占用情况[ops@djl-data3 data]$ df -h Filesystem Size Used Avail Use% Mounted on/dev/vda3 36G 7.6G 28G 22% /devtmpfs 7.8G 0 7.8G 0% /devtmpfs ...
2020-02-17 15:05:00
358
原创 hive 中mapjoin 出现情况分析
1.当两个表join的时候,当一方表数据量比较小的时候,运行hive的时候会自动进行mapjoin,但是进行mapjoin数据又跑不动,现在需要运行的时候加一句:关闭mapjionset hive.auto.convert.join = false; 2.mapjoin 优化,使用一张表数据小于1000行3....
2020-01-02 16:56:54
831
原创 Google机器学习课程(一)--训练与损失
线性回归按机器学习,线性回归模型方程式:y’=w1*x1+b其中:y′ 指的是预测标签(理想输出值)。b 指的是偏差(y 轴截距)。而在一些机器学习文档中,它称为 w0。w1 指的是特征 1 的权重。权重与线性函数中的“斜率”的概念相同。x1 指的是特征(已知输入项)。该式表示有一个特征的方程式,具有三个特征的模型可以采用以下方程式:y’=b+w1x1+w2x2+w3*x3训练...
2019-08-06 21:51:24
323
转载 查看HDFS上的文件,文件是否为空的命令总结
-test -[defsz] 测试文件是否存在:Answer various questions about , with result via exit status.-d return 0 if is a directory.-e return 0 if exists.-f return 0 if is a file.-s return 0 if file is great...
2019-07-30 10:37:25
1536
原创 Windows下如何将一个文件夹上传到git
原文:https://blog.youkuaiyun.com/geerniya/article/details/79552247以下给出详细步骤:1、首先得安装git客户端安装方法很简单,跟安装QQ之类的一样,进入官网:https://git-scm.com/ ,点击右侧下载windows版本的软件包,然后双击安装,一步一步下一步就可以了。安装完成之后,在开始菜单可以看到如下就算是成功了:如下图,点...
2019-01-02 11:51:29
2623
原创 hive表在join on和在where上过滤对比
一、left join 在on 和where 过滤对比A表结构以及数据:id name grade dept1 cid1 100 102 cid2 90 203 cid3 60 104 cid4 80 105 cid5 70 20B表结构以及数据:id name10 IT120 I...
2018-11-19 11:46:49
921
转载 csr_matrix(Compressed Sparse Row matrix)存储模式 ---稀疏数据的压缩
压缩稀疏矩阵的某种存储方式>>> indptr = np.array([0, 2, 3, 6])>>> indices = np.array([0, 2, 2, 0, 1, 2])>>> data = np.array([1, 2, 3, 4, 5, 6])>>> csr_matrix((data, indices,...
2018-08-13 17:23:14
801
转载 CNN卷积神经网络原理
转载:https://www.cnblogs.com/skyfsm/p/6790245.html 最近看了cnn神经网络,发现这篇博文很好,通俗易懂。神经网络的结构是这样的: 那卷积神经网络跟它是什么关系呢? 其实卷积神经网络依旧是层级网络,只是层的功能和形式做了变化,可以说是传统神经网络的一个改进。比如下图中就多了许多传统神经网络没有的层次 卷积神经网络的层级结构: ...
2018-07-11 17:42:49
1620
原创 tensorflow-CNN实例图像分类
https://www.cnblogs.com/denny402/p/6931338.html (cnn 图片分类)http://blog.youkuaiyun.com/csuzhaoqinghui/article/details/51377941(Tensorflow之构建自己的图片数据集TFrecords)http://blog.youkuaiyun.com/BeautyJingJing/article/det...
2018-07-11 17:00:34
4795
原创 MovieTaster-使用Item2Vec做电影推荐代码解析
在做推荐的时候了解到,可以将电影进行向量的训练,根据向量的相似度来做推荐,下载了MovieTaster代码,源代码地址 https://github.com/lujiaying/MovieTaster-Open,根据代码的数据来运行了一遍该程序。1.是process.py ,代码中iteritems()在python3中为items()import jsonDoulistFile = ...
2018-07-11 15:03:46
2309
python数据分析与挖掘实战---基于水色图像的水质评价数据集(包括该章数据集和拓展训练数据集)
2018-05-23
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人