dub_lys-优快云博客

原创 spark mllib window运行demo 抛异常NativeSystemBLAS

Failed to load implementation from: com.github.fommil.netlib.NativeSystemBLAS原因是:java在用jni调度dll库,确不能发现依赖的netlib-native_system-win-x86_64.dll解决方法:1.下载dll库文件 csdn:http://download.youkuaiyun.com/detai

2017-11-29 15:53:20 3186 2

原创 spark 运行内存异常及参数调整

主要异常信息:org.apache.spark.shuffle.MetadataFetchFailedException: Missing an output location for shuffle 0解决方法：加大executor内存，减少executor个数，加大executor并发度主要异常信息:ExecutorLostFailure (executor 3 exited cau

2017-07-19 19:14:31 1637

原创 hadoop的lzo插件安装

由于lzo的压缩/解压速度也比较快，合理的压缩率；支持split，是hadoop中最流行的压缩格式；支持hadoop native库；可以在linux系统下安装lzop命令，使用方便。所以选lzo作为hadoop中hdfs的压缩文件的格式，但是lzo文件需要手动安装，下面介绍Hadoop的lzo插件的安装，以及测试是否安装成功。在ambari环境中1.hadoop-lzo-0.4.2

2016-11-07 16:25:32 982

原创 Hbase rowkey 热点问题

最近通过映射查询hbase的数据、非常慢、造成热点原因是rowkey设计不合理。造成数据倾斜都存在同一个reginserver上。所有的请求都跑到同一个reginserver上。当处理由连续事件得到的数据时，即时间上连续的数据。这些数据可能来自于某个传感器网络、证券交易或者一个监控系统。它们显著的特点就是rowkey中含有事件发生时间。带来的一个问题便是HBase对于row的不

2016-03-01 15:32:23 921

原创 hive实例讲解实现in和not in子句

目前hive不支持 in或not in 中包含查询子句的语法,所以只能通过left join实现。假设有一个会员表tb_member(当天会员记录,只有一个memberid),和一个会员消费表tb_sales(当天会员消费,字段有一个memberid),这两个表都包含一个字段,memberid。in查询如果要查询当天会员的会员消费,需要用in查询,hive sql如下:se

2016-02-18 09:40:30 4319

原创 shell awk 检查程序是否执行

1.Linux中怎样判断某一进程是不是运行？2.Linux中怎样倒排序查看，服务器各类进程数？3.Linux中怎样利用awk检查程序是否执行？通过shell结合awk可以很好判断某一进程是不是运行，或者某一程序文件是否被执行，下面以php为例来说明一下。定义一个crontab，每一分钟执行一次，时间间隔为一分钟，可能下一次执行的时候，上次还没有执行完，所以我们要做一下判断。

2016-02-16 14:42:43 633

Failing Oozie Launcher, Main class [org.apache.oozie.action.hadoop.JavaMain], main() threw exception, java.lang.NoSuchMethodError: org.apache.hadoop.hbase.protobuf.generated.ClientProtos$Result$Builde

2016-02-15 17:42:38 2099

原创 oozie 客户端常用命令

常用命令1.提交作业，作业进入PREP状态 oozie job -oozie http://XXXXXX:11000/oozie -config job.properties -submit job: 14-20090525161321-oozie-joe2.执行已提交的作业oozie job -ooziehttp://XXXXXX:11000/oozie -sta

2016-02-01 09:57:20 543

原创 hadoop append 追加文件错误

2016-01-25 22:13:11,601 ERROR [Thread-173] org.apache.hadoop.mapreduce.jobhistory.JobHistoryEventHandler: Error writing History Event: org.apache.hadoop.mapreduce.jobhistory.TaskFinishedEvent@57aa9c83

2016-01-26 10:05:04 4952

原创 sorl创建core和删除core

solr删除corehttp://dmhadoop009:8900/solr/admin/collections?action=DELETE&name=XXXXsolr创建corehttp://dmhadoop009:8900/solr/admin/collections?action=CREATE&name=XXXX&numShards=3&replicationFactor=3&m

2016-01-12 18:45:15 1924

原创服务器时间没同步.---ntpdate

Failing Oozie Launcher, Main class [org.apache.oozie.action.hadoop.JavaMain], main() threw exception, begin > end in range (begin, end): (1452509988017, 1452509976937)java.lang.IllegalArgumentExcept

2016-01-12 11:41:07 601

原创 hadoop 读取文件异常

Error: java.lang.ClassCastException: org.apache.hadoop.io.LongWritable cannot be cast to org.apache.hadoop.io.Text at com.symbol.data.tech.consumer_hot.ConsumerHotMapper.map(ConsumerHotMapper

2015-10-20 14:23:48 598

原创 crontab执行报异常

异常信息：nohup: failed to run command `java': No such file or directory/data/om-analytics/business/hive_hbase/workwf.sh: line 4: 4: command not found这就是由于环境变量引起的，这种情况出现时，只需要在你的脚本中，比如XX.sh中加入以下两条语句

2015-10-16 15:29:10 552

原创 hdfs访问异常

Exception in thread "main" java.lang.IllegalArgumentException: Wrong FS: hdfs://nameservice1/user/dub/data/analyze/CY001/20151014/memberdata, expected: file:/// at org.apache.hadoop.fs.File

2015-10-16 14:57:19 1573

原创 hive 高级查询常用函数关键字总结

最近需求变动数据量在疯涨、学习了hive的高级函数查询的总结。聚合函数1.count计数count(*)：求计数同时运用group by的功能分值出求出它的次数2.sum求和sum(可转成数字的值)返回bigint，比如求和后加1,1必须转化成为bigint类型，sum(col)+cast(1 as bigint)3.avg求平均值avg(可转化成数字的值)返

2015-08-30 13:15:56 944

原创 hive的异常

java.lang.ClassNotFoundException: org.apache.hive.jdbc.HiveDriver at java.net.URLClassLoader$1.run(URLClassLoader.java:366) at java.net.URLClassLoader$1.run(URLClassLoader.java:355)

2015-08-14 11:26:14 697

原创 hbas连接异常

java.io.IOException: Call to dmhadoop005/192.168.28.76:60020 failed on local exception: java.io.IOException: Call 246130 not added as the connection dmhadoop005/192.168.28.76:60020/ClientService/dub (

2015-08-10 17:43:53 931

原创 hbase client访问的超时时间、重试次数、重试间隔时间的配置

socket超时你认为有几种？1：建立连接的超时时间；2：读数据的超时时间。可以配置如下几个参数：1. hbase.rpc.timeout：rpc的超时时间，默认60s，不建议修改，避免影响正常的业务，在线上环境刚开始配置的是3秒，运行半天后发现了大量的timeout error，原因是有一个region出现了如下问题阻塞了写操作：“Blocking updates …

2015-08-09 12:33:20 6836

原创 hbase 查询大量数据异常并解决方法

java.lang.RuntimeException: org.apache.hadoop.hbase.client.ScannerTimeoutException: 66216ms passed since the last invocation, timeout is currently set to 60000 at org.apache.hadoop.hbase.cl

2015-08-07 17:27:13 14994

原创练习--hive查询实例和Shell去重

一、HIVE查询hive中students表nid nname ncourse ngrade1 张三 yuwen 852 李四 yuwen 753 张三 shuxue 754 李四 shuxue 955 张三 yingyu 656

2015-07-31 09:57:08 482

原创 storm系统监控脚本

关于nimbus没有自动重启机制，如何保证系统挂掉后重启的问题。写了个集群免登陆的脚本，及集群ZK操作的脚本。免登陆后再执行zk操作脚本，我们就可以在一台机子上启动集群的ZK、停止ZK及查看ZK状态等等。nimbus监控脚本，只需要后台让他执行就行了，他会自动检测nimbus是否挂掉，如果挂掉就会重启他，有点像nimbus守护进程类似的东西，顺便还给他写了monitor监控的log，方便查询。

2015-07-26 17:50:28 710

转载 Spark Core---从作业提交到任务调度完整生命周期浅析

1.Spark作业提交到执行是一个怎样的过程？2.Driver任务提交是一个怎样的过程？3.作业从提交到任务调度经历了一个怎样的生命周期？引言这一小节我们将就之前写的几篇博文，从提交Job，到Stage划分，到任务分发，再到任务的执行，这一完整过程做一系统的回顾。在这一过程中理清思路，明确几篇文章中涉及到的调度关系和逻辑关系。Spark作业提交到执行过程

2015-07-26 17:03:08 519

原创 hive查询报错误

hive> select ip,time from dataclean;Total jobs = 1Launching Job 1 out of 1Number of reduce tasks is set to 0 since there's no reduce operatorStarting Job = job_1437186236276_0047, Tracking URL

2015-07-24 16:18:23 1062

转载 storm是如何保证at least once语义的

问题导读1.spout、bolt、acker的关系是什么？2.storm如何如何追踪消息（tuple）的处理？3.2.storm示例说明什么问题？背景本篇看看storm是通过什么机制来保证消息至少处理一次的语义的。storm中的一些原语要说明上面的问题，得先了解storm中的一些原语，比如：tuple和message 在sto

2015-07-24 13:57:00 496

转载 storm基础框架分析

问题导读1.在Topology中我们可以指定spout、bolt的并行度，在提交Topology时Storm如何将spout、bolt自动发布到每个服务器并且控制服务的CPU、磁盘等资源的？2.worker、executor、task之间有什么关系？3.线程模型与消息系统的基本关系？4.topology提交是一个怎么的过程？背景本篇来建立一个基本的背景，来大

2015-07-24 13:39:43 519

转载 hadoop2提交到Yarn： Mapreduce执行过程分析

问题导读1.为什么会产生Yarn？2.Configuration类的作用是什么？3.GenericOptionsParser类的作用是什么？4.如何将命令行中的参数配置到变量conf中？5.哪个方法会获得传入的参数？6.如何在命令行指定reduce的个数？7.默认情况map、reduce为几？8.setJarByClass的作用是什么？9.如果想在控制台

2015-07-20 09:45:38 398

转载 MapReduce的笔记

一、MR作业运行过程 JobClient的runJob()方法：新建JobClient实例，并调用其submitJob()方法。提交作业后，runJob()每秒轮询作业进度，如果发现上次上报后信息有改动，则把进度报告输出到控制台。作业完成，成功则显示作业计数器；失败则输出错误到控制台。（一）JobClient的submitJob()的作业提交过程：1. 向JobTr

2015-07-20 09:34:08 351

转载 Spark生态和Spark架构

问题导读1.什么是Spark?2.Spark生态系统包括哪些？3.Spark的依赖有哪些？4.了解Spark架构是怎样的？5.Spark是如何运行的？6.Spark架构有哪些组件？Spark概览Spark 是一个通用的大规模数据快速处理引擎。可以简单理解为 Spark 就是一个大数据分布式处理框架。Spark是基于map reduce算法实现的分

2015-07-20 09:20:00 1349

转载机器学习和统计模型的差异

问题导读：1、什么是机器学习、统计模型？2、从本文中的商业案例中理解统计模型和机器学习算法的差别？3、机器学习和统计模型的差异有哪些？在各种各样的数据科学论坛上这样一个问题经常被问到——机器学习和统计模型的差别是什么？这确实是一个难以回答的问题。考虑到机器学习和统计模型解决问题的相似性，两者的区别似乎仅仅在于数据量和模型建立者的不同。这里有一张覆盖机

2015-07-16 09:40:28 973

转载 Apache Spark新手入门学习

本文聚焦Apache Spark入门，了解其在大数据领域的地位，覆盖Apache Spark的安装及应用程序的建立，并解释一些常见的行为和操作。一、为什么要使用Apache Spark时下，我们正处在一个“大数据”的时代，每时每刻，都有各种类型的数据被生产。而在此紫外，数据增幅的速度也在显著增加。从广义上看，这些数据包含交易数据、社交媒体内容（比如文本、图像和视频）以及传感器数据

2015-07-15 09:48:52 890

转载 hadoop学习之基础Java GC详解

1. GC特性以及各种GC的选择1.1 垃圾回收器的特性该回收的对象一定要回收，不该回收的对象一定不能回收一定要有效，并且要快！尽可能少的暂停应用的运行需要在时间，空间，回收频率这三个要素中平衡内存碎片的问题（一种解决内存碎片的方法，就是压缩）可扩展性和可伸缩性（内存的分配和回收，不应该成为跑在多核多线程应用上的瓶颈）对垃圾回收器的选择1.

2015-07-14 09:24:40 569

翻译 HBase在线数据备份

hbase-0.90.0的一个重要改进是引入了replication机制，使它的数据完整性得到了进一步的保障。 hbase的replication机制很像mysql statement-based replication。它是通过WALEdit和HLog来实现的。当请求发送给master cluster时，HLog日志放入hdfs的同时进入replication队列，由slave cluste

2015-07-13 09:40:40 594

dub_lys的博客