weixin_36607803-优快云博客

转载 java命令执行jar包的方式

大家都知道一个java应用项目可以打包成一个jar，当然你必须指定一个拥有main函数的main class作为你这个jar包的程序入口。具体的方法是修改jar包内目录META-INF下的MANIFEST.MF文件。比如有个叫做test.jar的jar包，里面有一个拥有main函数的main class：test.someClassName我们就只要在MANIFEST.MF里面添加如下一句话：...

2018-04-11 14:39:02 373

原创 Hive sql面试笔记

Hive sql面试，教训惨痛，特此记录select store,count(distinct uid) as uv from Visit group by store;select * from Users order by age desc, total;select stage_someone, count(distinct UID) from LifeStage lateral ...

2018-03-12 17:51:46 5253

转载深入学习HBase架构原理

https://www.cnblogs.com/qiaoyihang/p/6246424.html

2017-12-21 15:34:07 342

原创 Spark工作笔记

package bd.export.ent;import java.io.BufferedWriter;import java.io.FileNotFoundException;import java.io.FileWriter;import java.io.IOException;import java.text.ParseException;import jav

2017-06-02 11:27:11 1005

原创 SQL语句总结

本文主要总结本人工作中遇到过的SQL语句，学习，备忘1. select * from tablename a where (select count(*) from tablename b where a.id注解：查询按id排序后的倒数第2条，（若=2，则是取倒数第3条，以此类推。。。）

2017-03-16 17:31:51 331

原创阿里OSS API总结

分两种：第一种是单机模式访问oss的ossclient客户端；第二种是MR程序访问oss的API，由emr封装了的API，对于MR程序来说此种方法更可靠。（亲身经历过：MR程序用ossclient访问有时候会因为网络问题导致下载oss失败，后来换成第二种API后不再出现此类问题）第一种：package com.jianfeitech.bd.res.db.oss.acce

2017-03-16 17:00:09 6217

转载 spark与storm的对比

对比点StormSpark Streaming实时计算模型纯实时，来一条数据，处理一条数据准实时，对一个时间段内的数据收集起来，作为一个RDD，再处理实时计算延迟度毫秒级秒级吞吐量低高事务机制支持完善

2016-12-15 10:45:55 474

转载 Hive启动报错

问题：Exception in thread “main” java.lang.RuntimeException: Hive metastore database is not initialized. Please use schematool (e.g. ./schematool -initSchema -dbType …) to create the schema.原因：由于没有初始

2016-12-09 16:30:06 528

原创 HA集群环境下的Hbase的集群搭建

由于本人hadoop环境是HA，在此基础上搭建Hbase集群时遇到HRegionServer启动后莫名挂掉的情况，现对搭建过程做下记录：服务器环境为自己电脑的三台虚拟机：hadoop01 hadoop02 hadoop031.下载并解压hbase，此处是hbase-1.1.7-bin.tar.gz2. 配置hbase-env.sh，把Java环境变量告诉HBase，并配置Zoo

2016-12-08 14:33:51 430

原创 spring + springMVC + spring Data + jpa + maven +（Restful风格）项目框架搭建（即sssp框架）

本文主要总结本人工作中曾用的web项目框架，由于全权交于我一人，故从头搭起，各种查资料，趟坑。。。一度想照搬http://www.cnblogs.com/007sx/p/5658194.html上的，但有点问题，tamcat一直启动超时，貌似是无法连接数据库，不知道是数据源dataSource的原因还是什么，探究无果后放弃。。。开始参照之前学习过的sssp框架自己搭建，以下是搭建详细过程：首先，用...

2016-12-07 18:11:22 2014

原创 hive练习数据

create table student(Sno int,Sname string,Sex string,Sage int,Sdept string)row format delimited fields terminated by ','stored as textfile;create table course(Cno int,Cname string) row format delimi

2016-12-02 12:06:49 707

原创 hive练习

查询全体学生的学号与姓名　　hive> select Sno,Sname from student;查询选修了课程的学生姓名　　hive> select distinct Sname from student inner join sc on student.Sno=Sc.Sno;----hive的group by 和集合函数查询学生的总人数　　hi

2016-12-02 12:05:36 801

原创 Zookeeper-HA-配置文件(详解)及启动步骤

参考：http://www.open-open.com/lib/view/open1436855630959.html集群部署节点角色的规划（3节点）server01 namenode resourcemanager zkfc nodemanager datanode zookeeper journal nodeserver02 namenode r

2016-12-02 12:03:53 2398

原创 Zookeeper-HA-配置文件(配置粘贴)

core-site.xmlfs.defaultFShdfs://ns1/ hadoop.tmp.dir/home/hadoop/hadoop-2.7.1/hadoopdata ha.zookeeper.quorum hadoop-01-server:2181,hadoop-

2016-12-02 12:03:09 298

原创 Storm-知识点汇总

Storm是一个免费开源、分布式、高容错的实时计算系统。Storm令持续不断的流计算变得容易，弥补了Hadoop批处理所不能满足的实时要求。Storm经常用于在实时分析、在线机器学习、持续计算、分布式远程调用和ETL等领域。Storm的部署管理非常简单，而且，在同类的流式计算工具，Storm的性能也是非常出众的。 Storm主要分为两种组件Nimbus和Supervisor。这两

2016-12-02 12:02:23 704

原创 sqoop笔记-new

Linux、Hadoop命令汇总：netstat -nltp | grep 3306 查看端口3306的占用情况sqoop的使用----sqoop是一个用来在hadoop体系和关系型数据库之间进行数据互导的工具----实质就是将导入导出命令转换成mapreduce程序来实现sqoop安装：sqoop和hive一样只是一个工具，哪用哪安装，安装在一台节点上就可以

2016-12-02 12:01:55 275

原创 MRwordCount

mapreduce代码部分：wordcount新建工程，导入jar包：C:\hadoop-2.7.1\share\hadoop\common （公共jar包）：hadoop-common-2.7.1、C:\hadoop-2.7.1\share\hadoop\common\lib下所有C:\hadoop-2.7.1\share\hadoop\hdfs （hdfs部分jar包）：

2016-12-02 12:01:27 372

原创 Hive知识点总结

Linux命令汇总:tar -zxvf *.tar.gz -C /test ----将*.tar.gz解压到/test下rpm -ivh MySQL-server-5.1.73-1.glibc23.i386.rpm ----安装*.rpmuname -a ---查看本机信息Hive的引入：1、hive是一个将sql语句转换成mapreduce程序的工具，不需

2016-12-02 11:58:56 424

原创 Hbase-知识点总结

Linux命令汇总：：/XXX ---- 定位寻找XXX Hbase数据库（hadoop database）参考网址：HBase以表的形式存储数据。表有行和列组成。行由行键(Row Key)来标识，列划分为若干个列族(row family).Hbase表结构HBase中的表一般有这样的特点：1 大：一个表可以有上亿行，上百万列2 面向列:面向列(族)的存储

2016-12-02 11:58:34 814

原创 Hadoop-ZooKeeper知识点汇总

相关Linux命令总结：echo ${JAVA_HOME} 显示出jdk的安装目录echo 2 > myid 把2写到myid文件（覆盖原内容）cat myid 查看myid文件的内容zkServer.sh start 启动zookeeperzkServer.sh status 查看zookeeper的启动状态netstat -n

2016-12-02 11:58:05 309

原创 Hadoop-Mapreduc知识点汇总

Linux命令汇总：hadoop辅助yarn运行mapreduce程序命令：hadoop jar 包名主类名读取文件名输出目录查看文件权限：ls -la修改文件权限：chmod 600(755、777) 文件名修该属主：（root权限下）chown （-R、*）用户名1：用户名2 （其中-R表示递归、*表示所有文件文件夹）

2016-12-02 11:57:27 692

原创 Hadoop-HDFS知识点汇总

LINUX命令汇总：ipconfig ----查看ipservice network restart ----重新启动网络setup ----setup是一个设置公用程序，提供图形界面的操作方式。在setup中可设置7类的选项：　 1.登陆认证方式　 2.键盘组态设置　 3.鼠标组态设置　 4.开机时所要启动的系统服务　 5.声卡组态设置

2016-12-02 11:56:34 542

原创 spark使用案例

package com.jianfeitech.bd.mod.spark.query.export.publicsecurity;import java.io.Serializable;import java.util.HashMap;import java.util.Map;import org.apache.spark.SparkContext;import org

2016-11-24 10:42:28 657

原创阿里云ODPS使用总结

从阿里云官网下载ODPS的客户端odpscmd_public.zip，该客户端在linux和windows环境上都可用。进入该客户端的配置文件odps_client/conf/odps_config.ini ，进行配置，主要配置前三项：project_name=XXXXXXaccess_id=XXXXXXaccess_key=XXXXXXend_point=http://s

2016-11-22 22:14:09 13097

转载阿里云ODPS（现名MaxCompute，原名ODPS）介绍

什么是ODPS（一）阿里云开放数据处理服务(Open Data Processing Service，简称ODPS) 是构建在飞天系统上的大规模分布式数据处理服务。ODPS以REST API的形式，支持用户提交类SQL的查询语言，对海量数据进行处理。在API之上，还提供SDK开发包和命令行工具，Aliyun.com上还有一个Web演示界面。什么是ODPS（二）与传统数据仓库工具相比

2016-11-22 21:42:24 10161

转载搭建 Hadoop2.7.2 + Spark1.6环境

服务器上已经有了 hadoop2.7.2环境，这次只用配置spark1.6就可以。服务器操作系统为centOS6.51、安装Scala 下载地址：http://www.scala-lang.org/download/ 注：我下载的是scala-2.11.8.tgz将压缩上传至/usr/local 目录解压缩tar -zxvf scal

2016-11-20 15:17:17 482

转载 Linux软连接和硬链接

1.Linux链接概念Linux链接分两种，一种被称为硬链接（Hard Link），另一种被称为符号链接（Symbolic Link）。默认情况下，ln命令产生硬链接。【硬连接】硬连接指通过索引节点来进行连接。在Linux的文件系统中，保存在磁盘分区中的文件不管是什么类型都给它分配一个编号，称为索引节点号(Inode Index)。在Linux中，多个文件名指向同一索引节点是存在的。一

2016-11-20 15:16:39 286

转载 [转载]Linux系统如何用shell命令获取文件或字符串的MD5值

原文地址：Linux系统如何用shell命令获取文件或字符串的MD5值作者：流泪鱼Linux系统如何用shell命令获取文件或字符串的MD5值：获取字符串的MD5值：字符串“hello”的MD5： $ echo -n 'hello'|md5sum|cut -d ' ' -f1得到的MD5值： 5d41402abc4b2a76b9719d911017c59

2016-11-18 17:28:32 441

转载在Spark集群中，集群的节点个数、RDD分区个数、cpu内核个数三者与并行度的关系？？

作者：Mr Rex链接：https://www.zhihu.com/question/33270495/answer/88953826来源：知乎著作权归作者所有，转载请联系作者获得授权。图来自官方 Cluster Mode OverviewSpark集群的节点个数为集群的机器的数量。一个机器上有几个worker，一个woker可以申请多少core是可配置的。一个常用的配

2016-11-18 11:30:02 2581

转载 ssh 免密码登录

ssh 无密码登录要使用公钥与私钥。linux下可以用用ssh-keygen生成公钥/私钥对，下面我以CentOS为例。有机器A(192.168.1.155)，B(192.168.1.181)。现想A通过ssh免密码登录到B。1.在A机下生成公钥/私钥对。[chenlb@A ~]$ ssh-keygen -t rsa -P ''-P表示密码，-P '' 就表示空

2016-11-14 10:33:37 257

转载 Linux下的压缩zip,解压缩unzip命令详解及实例

Linux下的压缩解压缩命令详解及实例实例：压缩服务器上当前目录的内容为xxx.zip文件zip -r xxx.zip ./*解压zip文件到当前目录unzip filename.zip============================另：有些服务器没有安装zip包执行不了zip命令，但基本上都可以用tar命令的，实例如下： tar -zcvf /home/z

2016-11-14 09:14:26 564

转载 Crontab定时任务配置

CRONTAB概念/介绍 crontab命令用于设置周期性被执行的指令。该命令从标准输入设备读取指令，并将其存放于“crontab”文件中，以供之后读取和执行。cron 系统调度进程。可以使用它在每天的非高峰负荷时间段运行作业，或在一周或一月中的不同时段运行。cron是系统主要的调度进程，可以在无需人工干预的情况下运行作业。crontab命令允许用户提交、编辑或删除相应的作业。

2016-11-09 09:48:04 286

转载 Java读取配置文件之----------getResourceAsStream的用法

首先，Java中的getResourceAsStream有以下几种： 1. Class.getResourceAsStream(String path) ： path 不以’/'开头时默认是从此类所在的包下取资源，以’/'开头则是从ClassPath根下获取。其只是通过path构造一个绝对路径，最终还是由ClassLoader获取资源。 2. Class.getClassLoader.

2016-11-05 22:17:17 548

转载使用Apache Commons Configuration读取配置信息

在项目中使用一些比较新的库总会给你带来很多快乐，在这篇文章中，我将会给你介绍一个在Java中读取配置文件的框架——Apache Commons Configuration framework. 你会了解到 ·从XML文件中获取数据 ·访问环境变量 ·连接不同类型的配置信息（基于XML的，基于环境变量的，等等） ·在程序改变后自

2016-11-05 21:55:17 515

weixin_36607803的博客