- 博客(32)
- 资源 (3)
- 收藏
- 关注
原创 spark mllib window运行demo 抛异常NativeSystemBLAS
Failed to load implementation from: com.github.fommil.netlib.NativeSystemBLAS原因是:java在用jni调度dll库,确不能发现依赖的netlib-native_system-win-x86_64.dll解决方法:1.下载dll库文件 csdn:http://download.youkuaiyun.com/detai
2017-11-29 15:53:20
3186
2
原创 spark 运行内存异常及参数调整
主要异常信息:org.apache.spark.shuffle.MetadataFetchFailedException: Missing an output location for shuffle 0解决方法:加大executor内存,减少executor个数,加大executor并发度主要异常信息:ExecutorLostFailure (executor 3 exited cau
2017-07-19 19:14:31
1637
原创 hadoop的lzo插件安装
由于lzo的压缩/解压速度也比较快,合理的压缩率;支持split,是hadoop中最流行的压缩格式;支持hadoop native库;可以在linux系统下安装lzop命令,使用方便。所以选lzo作为hadoop中hdfs的压缩文件的格式,但是lzo文件需要手动安装,下面介绍Hadoop的lzo插件的安装,以及测试是否安装成功。 在ambari环境中1.hadoop-lzo-0.4.2
2016-11-07 16:25:32
982
原创 Hbase rowkey 热点问题
最近通过映射查询hbase的数据、非常慢、造成热点原因是rowkey设计不合理。造成数据倾斜都存在同一个reginserver上。所有的请求都跑到同一个reginserver上。 当处理由连续事件得到的数据时,即时间上连续的数据。这些数据可能来自于某个传感器网络、证券交易或者一个监控系统。它们显著的特点就是rowkey中含有事件发生时间。带来的一个问题便是HBase对于row的不
2016-03-01 15:32:23
921
原创 hive实例讲解实现in和not in子句
目前hive不支持 in或not in 中包含查询子句的语法,所以只能通过left join实现。假设有一个会员表tb_member(当天会员记录,只有一个memberid),和一个会员消费表tb_sales(当天会员消费,字段有一个memberid),这两个表都包含一个字段,memberid。in查询如果要查询当天会员的会员消费,需要用in查询,hive sql如下:se
2016-02-18 09:40:30
4319
原创 shell awk 检查程序是否执行
1.Linux中怎样判断某一进程是不是运行?2.Linux中怎样倒排序查看,服务器各类进程数?3.Linux中怎样利用awk检查程序是否执行?通过shell结合awk可以很好判断某一进程是不是运行,或者某一程序文件是否被执行,下面以php为例来说明一下。定义一个crontab,每一分钟执行一次,时间间隔为一分钟,可能下一次执行的时候,上次还没有执行完,所以我们要做一下判断。
2016-02-16 14:42:43
633
原创 使用hbase版本异常
Failing Oozie Launcher, Main class [org.apache.oozie.action.hadoop.JavaMain], main() threw exception, java.lang.NoSuchMethodError: org.apache.hadoop.hbase.protobuf.generated.ClientProtos$Result$Builde
2016-02-15 17:42:38
2099
原创 oozie 客户端常用命令
常用命令1.提交作业,作业进入PREP状态 oozie job -oozie http://XXXXXX:11000/oozie -config job.properties -submit job: 14-20090525161321-oozie-joe2.执行已提交的作业oozie job -ooziehttp://XXXXXX:11000/oozie -sta
2016-02-01 09:57:20
543
原创 hadoop append 追加文件 错误
2016-01-25 22:13:11,601 ERROR [Thread-173] org.apache.hadoop.mapreduce.jobhistory.JobHistoryEventHandler: Error writing History Event: org.apache.hadoop.mapreduce.jobhistory.TaskFinishedEvent@57aa9c83
2016-01-26 10:05:04
4952
原创 sorl创建core和删除core
solr删除corehttp://dmhadoop009:8900/solr/admin/collections?action=DELETE&name=XXXXsolr创建corehttp://dmhadoop009:8900/solr/admin/collections?action=CREATE&name=XXXX&numShards=3&replicationFactor=3&m
2016-01-12 18:45:15
1924
原创 服务器时间没同步.---ntpdate
Failing Oozie Launcher, Main class [org.apache.oozie.action.hadoop.JavaMain], main() threw exception, begin > end in range (begin, end): (1452509988017, 1452509976937)java.lang.IllegalArgumentExcept
2016-01-12 11:41:07
601
原创 hadoop 读取文件异常
Error: java.lang.ClassCastException: org.apache.hadoop.io.LongWritable cannot be cast to org.apache.hadoop.io.Text at com.symbol.data.tech.consumer_hot.ConsumerHotMapper.map(ConsumerHotMapper
2015-10-20 14:23:48
598
原创 crontab执行报异常
异常信息:nohup: failed to run command `java': No such file or directory/data/om-analytics/business/hive_hbase/workwf.sh: line 4: 4: command not found这就是由于环境变量引起的,这种情况出现时,只需要在你的脚本中,比如XX.sh中加入以下两条语句
2015-10-16 15:29:10
552
原创 hdfs访问异常
Exception in thread "main" java.lang.IllegalArgumentException: Wrong FS: hdfs://nameservice1/user/dub/data/analyze/CY001/20151014/memberdata, expected: file:/// at org.apache.hadoop.fs.File
2015-10-16 14:57:19
1573
原创 hive 高级查询常用函数关键字总结
最近需求变动数据量在疯涨、学习了hive的高级函数查询的总结。聚合函数1.count计数count(*):求计数 同时运用group by的功能分值出求出它的次数2.sum求和sum(可转成数字的值)返回bigint,比如求和后加1,1必须转化成为bigint类型,sum(col)+cast(1 as bigint)3.avg求平均值avg(可转化成数字的值)返
2015-08-30 13:15:56
944
原创 hive的异常
java.lang.ClassNotFoundException: org.apache.hive.jdbc.HiveDriver at java.net.URLClassLoader$1.run(URLClassLoader.java:366) at java.net.URLClassLoader$1.run(URLClassLoader.java:355)
2015-08-14 11:26:14
697
原创 hbas连接异常
java.io.IOException: Call to dmhadoop005/192.168.28.76:60020 failed on local exception: java.io.IOException: Call 246130 not added as the connection dmhadoop005/192.168.28.76:60020/ClientService/dub (
2015-08-10 17:43:53
931
原创 hbase client访问的超时时间、重试次数、重试间隔时间的配置
socket超时你认为有几种?1:建立连接的超时时间;2:读数据的超时时间。可以配置如下几个参数:1. hbase.rpc.timeout:rpc的超时时间,默认60s,不建议修改,避免影响正常的业务,在线上环境刚开始配置的是3秒,运行半天后发现了大量的timeout error,原因是有一个region出现了如下问题阻塞了写操作:“Blocking updates …
2015-08-09 12:33:20
6836
原创 hbase 查询大量数据异常并解决方法
java.lang.RuntimeException: org.apache.hadoop.hbase.client.ScannerTimeoutException: 66216ms passed since the last invocation, timeout is currently set to 60000 at org.apache.hadoop.hbase.cl
2015-08-07 17:27:13
14994
原创 练习--hive查询实例和Shell去重
一、HIVE查询hive中students表nid nname ncourse ngrade1 张三 yuwen 852 李四 yuwen 753 张三 shuxue 754 李四 shuxue 955 张三 yingyu 656
2015-07-31 09:57:08
482
原创 storm系统监控脚本
关于nimbus没有自动重启机制,如何保证系统挂掉后重启的问题。写了个集群免登陆的脚本,及集群ZK操作的脚本。免登陆后再执行zk操作脚本,我们就可以在一台机子上启动集群的ZK、停止ZK及查看ZK状态等等。nimbus监控脚本,只需要后台让他执行就行了,他会自动检测nimbus是否挂掉,如果挂掉就会重启他,有点像nimbus守护进程类似的东西,顺便还给他写了monitor监控的log,方便查询。
2015-07-26 17:50:28
710
转载 Spark Core---从作业提交到任务调度完整生命周期浅析
1.Spark作业提交到执行是一个怎样的过程?2.Driver任务提交是一个怎样的过程?3.作业从提交到任务调度经历了一个怎样的生命周期?引言这一小节我们将就之前写的几篇博文,从提交Job,到Stage划分,到任务分发,再到任务的执行,这一完整过程做一系统的回顾。在这一过程中理清思路,明确几篇文章中涉及到的调度关系和逻辑关系。Spark作业提交到执行过程
2015-07-26 17:03:08
519
原创 hive查询报错误
hive> select ip,time from dataclean;Total jobs = 1Launching Job 1 out of 1Number of reduce tasks is set to 0 since there's no reduce operatorStarting Job = job_1437186236276_0047, Tracking URL
2015-07-24 16:18:23
1062
转载 storm是如何保证at least once语义的
问题导读1.spout、bolt、acker的关系是什么?2.storm如何如何追踪消息(tuple)的处理?3.2.storm示例说明什么问题?背景本篇看看storm是通过什么机制来保证消息至少处理一次的语义的。storm中的一些原语要说明上面的问题,得先了解storm中的一些原语,比如:tuple和message 在sto
2015-07-24 13:57:00
496
转载 storm基础框架分析
问题导读1.在Topology中我们可以指定spout、bolt的并行度,在提交Topology时Storm如何将spout、bolt自动发布到每个服务器并且控制服务的CPU、磁盘等资源的?2.worker、executor、task之间有什么关系?3.线程模型与消息系统的基本关系?4.topology提交是一个怎么的过程?背景本篇来建立一个基本的背景,来大
2015-07-24 13:39:43
519
转载 hadoop2提交到Yarn: Mapreduce执行过程分析
问题导读1.为什么会产生Yarn?2.Configuration类的作用是什么?3.GenericOptionsParser类的作用是什么?4.如何将命令行中的参数配置到变量conf中?5.哪个方法会获得传入的参数?6.如何在命令行指定reduce的个数?7.默认情况map、reduce为几?8.setJarByClass的作用是什么?9.如果想在控制台
2015-07-20 09:45:38
398
转载 MapReduce的笔记
一、MR作业运行过程 JobClient的runJob()方法:新建JobClient实例,并调用其submitJob()方法。提交作业后,runJob()每秒轮询作业进度,如果发现上次上报后信息有改动,则把进度报告输出到控制台。作业完成,成功则显示作业计数器;失败则输出错误到控制台。 (一)JobClient的submitJob()的作业提交过程:1. 向JobTr
2015-07-20 09:34:08
351
转载 Spark生态和Spark架构
问题导读1.什么是Spark?2.Spark生态系统包括哪些?3.Spark的依赖有哪些?4.了解Spark架构是怎样的?5.Spark是如何运行的?6.Spark架构有哪些组件?Spark概览Spark 是一个通用的大规模数据快速处理引擎。可以简单理解为 Spark 就是一个大数据分布式处理框架。Spark是基于map reduce算法实现的分
2015-07-20 09:20:00
1349
转载 机器学习和统计模型的差异
问题导读:1、什么是机器学习、统计模型?2、从本文中的商业案例中理解统计模型和机器学习算法的差别?3、机器学习和统计模型的差异有哪些?在各种各样的数据科学论坛上这样一个问题经常被问到——机器学习和统计模型的差别是什么?这确实是一个难以回答的问题。考虑到机器学习和统计模型解决问题的相似性,两者的区别似乎仅仅在于数据量和模型建立者的不同。这里有一张覆盖机
2015-07-16 09:40:28
973
转载 Apache Spark新手入门学习
本文聚焦Apache Spark入门,了解其在大数据领域的地位,覆盖Apache Spark的安装及应用程序的建立,并解释一些常见的行为和操作。一、 为什么要使用Apache Spark时下,我们正处在一个“大数据”的时代,每时每刻,都有各种类型的数据被生产。而在此紫外,数据增幅的速度也在显著增加。从广义上看,这些数据包含交易数据、社交媒体内容(比如文本、图像和视频)以及传感器数据
2015-07-15 09:48:52
890
转载 hadoop学习之基础Java GC详解
1. GC特性以及各种GC的选择1.1 垃圾回收器的特性该回收的对象一定要回收,不该回收的对象一定不能回收 一定要有效,并且要快!尽可能少的暂停应用的运行 需要在时间,空间,回收频率这三个要素中平衡 内存碎片的问题(一种解决内存碎片的方法,就是压缩) 可扩展性和可伸缩性(内存的分配和回收,不应该成为跑在多核多线程应用上的瓶颈) 对垃圾回收器的选择1.
2015-07-14 09:24:40
569
翻译 HBase在线数据备份
hbase-0.90.0的一个重要改进是引入了replication机制,使它的数据完整性得到了进一步的保障。 hbase的replication机制很像mysql statement-based replication。它是通过WALEdit和HLog来实现的。当请求发送给master cluster时,HLog日志放入hdfs的同时进入replication队列,由slave cluste
2015-07-13 09:40:40
594
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人