- 博客(34)
- 收藏
- 关注
转载 java命令执行jar包的方式
大家都知道一个java应用项目可以打包成一个jar,当然你必须指定一个拥有main函数的main class作为你这个jar包的程序入口。 具体的方法是修改jar包内目录META-INF下的MANIFEST.MF文件。 比如有个叫做test.jar的jar包,里面有一个拥有main函数的main class:test.someClassName我们就只要在MANIFEST.MF里面添加如下一句话:...
2018-04-11 14:39:02
345
原创 Hive sql面试笔记
Hive sql面试,教训惨痛,特此记录select store,count(distinct uid) as uv from Visit group by store;select * from Users order by age desc, total;select stage_someone, count(distinct UID) from LifeStage lateral ...
2018-03-12 17:51:46
5217
原创 Spark工作笔记
package bd.export.ent;import java.io.BufferedWriter;import java.io.FileNotFoundException;import java.io.FileWriter;import java.io.IOException;import java.text.ParseException;import jav
2017-06-02 11:27:11
952
原创 SQL语句总结
本文主要总结本人工作中遇到过的SQL语句,学习,备忘1. select * from tablename a where (select count(*) from tablename b where a.id注解:查询按id排序后的倒数第2条,(若=2,则是取倒数第3条,以此类推。。。)
2017-03-16 17:31:51
306
原创 阿里OSS API总结
分两种:第一种是单机模式访问oss的ossclient客户端;第二种是MR程序访问oss的API,由emr封装了的API,对于MR程序来说此种方法更可靠。(亲身经历过:MR程序用ossclient访问有时候会因为网络问题导致下载oss失败,后来换成第二种API后不再出现此类问题)第一种:package com.jianfeitech.bd.res.db.oss.acce
2017-03-16 17:00:09
6128
转载 spark与storm的对比
对比点StormSpark Streaming实时计算模型纯实时,来一条数据,处理一条数据准实时,对一个时间段内的数据收集起来,作为一个RDD,再处理实时计算延迟度毫秒级秒级吞吐量低高事务机制支持完善
2016-12-15 10:45:55
311
转载 Hive启动报错
问题:Exception in thread “main” java.lang.RuntimeException: Hive metastore database is not initialized. Please use schematool (e.g. ./schematool -initSchema -dbType …) to create the schema.原因:由于没有初始
2016-12-09 16:30:06
496
原创 HA集群环境下的Hbase的集群搭建
由于本人hadoop环境是HA,在此基础上搭建Hbase集群时遇到HRegionServer启动后莫名挂掉的情况,现对搭建过程做下记录:服务器环境为自己电脑的三台虚拟机:hadoop01 hadoop02 hadoop031.下载并解压hbase,此处是hbase-1.1.7-bin.tar.gz2. 配置hbase-env.sh,把Java环境变量告诉HBase,并配置Zoo
2016-12-08 14:33:51
407
原创 spring + springMVC + spring Data + jpa + maven +(Restful风格) 项目框架搭建(即sssp框架)
本文主要总结本人工作中曾用的web项目框架,由于全权交于我一人,故从头搭起,各种查资料,趟坑。。。一度想照搬http://www.cnblogs.com/007sx/p/5658194.html上的,但有点问题,tamcat一直启动超时,貌似是无法连接数据库,不知道是数据源dataSource的原因还是什么,探究无果后放弃。。。开始参照之前学习过的sssp框架自己搭建,以下是搭建详细过程:首先,用...
2016-12-07 18:11:22
1977
原创 hive练习数据
create table student(Sno int,Sname string,Sex string,Sage int,Sdept string)row format delimited fields terminated by ','stored as textfile;create table course(Cno int,Cname string) row format delimi
2016-12-02 12:06:49
683
原创 hive练习
查询全体学生的学号与姓名 hive> select Sno,Sname from student;查询选修了课程的学生姓名 hive> select distinct Sname from student inner join sc on student.Sno=Sc.Sno;----hive的group by 和集合函数查询学生的总人数 hi
2016-12-02 12:05:36
735
原创 Zookeeper-HA-配置文件(详解)及启动步骤
参考:http://www.open-open.com/lib/view/open1436855630959.html集群部署节点角色的规划(3节点)server01 namenode resourcemanager zkfc nodemanager datanode zookeeper journal nodeserver02 namenode r
2016-12-02 12:03:53
2320
原创 Zookeeper-HA-配置文件(配置粘贴)
core-site.xmlfs.defaultFShdfs://ns1/ hadoop.tmp.dir/home/hadoop/hadoop-2.7.1/hadoopdata ha.zookeeper.quorum hadoop-01-server:2181,hadoop-
2016-12-02 12:03:09
273
原创 Storm-知识点汇总
Storm是一个免费开源、分布式、高容错的实时计算系统。Storm令持续不断的流计算变得容易,弥补了Hadoop批处理所不能满足的实时要求。Storm经常用于在实时分析、在线机器学习、持续计算、分布式远程调用和ETL等领域。Storm的部署管理非常简单,而且,在同类的流式计算工具,Storm的性能也是非常出众的。 Storm主要分为两种组件Nimbus和Supervisor。这两
2016-12-02 12:02:23
655
原创 sqoop笔记-new
Linux、Hadoop命令汇总:netstat -nltp | grep 3306 查看端口3306的占用情况sqoop的使用----sqoop是一个用来在hadoop体系和关系型数据库之间进行数据互导的工具----实质就是将导入导出命令转换成mapreduce程序来实现sqoop安装:sqoop和hive一样只是一个工具,哪用哪安装,安装在一台节点上就可以
2016-12-02 12:01:55
248
原创 MRwordCount
mapreduce代码部分:wordcount新建工程,导入jar包:C:\hadoop-2.7.1\share\hadoop\common (公共jar包):hadoop-common-2.7.1、C:\hadoop-2.7.1\share\hadoop\common\lib下所有C:\hadoop-2.7.1\share\hadoop\hdfs (hdfs部分jar包):
2016-12-02 12:01:27
338
原创 Hive知识点总结
Linux命令汇总:tar -zxvf *.tar.gz -C /test ----将*.tar.gz解压到/test下rpm -ivh MySQL-server-5.1.73-1.glibc23.i386.rpm ----安装*.rpmuname -a ---查看本机信息Hive的引入:1、hive是一个将sql语句转换成mapreduce程序的工具,不需
2016-12-02 11:58:56
385
原创 Hbase-知识点总结
Linux命令汇总::/XXX ---- 定位寻找XXX Hbase数据库(hadoop database)参考网址:HBase以表的形式存储数据。表有行和列组成。行由行键(Row Key)来标识,列划分为若干个列族(row family).Hbase表结构HBase中的表一般有这样的特点:1 大:一个表可以有上亿行,上百万列2 面向列:面向列(族)的存储
2016-12-02 11:58:34
783
原创 Hadoop-ZooKeeper知识点汇总
相关Linux命令总结:echo ${JAVA_HOME} 显示出jdk的安装目录echo 2 > myid 把2写到myid文件(覆盖原内容)cat myid 查看myid文件的内容zkServer.sh start 启动zookeeperzkServer.sh status 查看zookeeper的启动状态netstat -n
2016-12-02 11:58:05
283
原创 Hadoop-Mapreduc知识点汇总
Linux命令汇总:hadoop辅助yarn运行mapreduce程序命令:hadoop jar 包名 主类名 读取文件名 输出目录查看文件权限:ls -la修改文件权限:chmod 600(755、777) 文件名修该属主:(root权限下)chown (-R、*) 用户名1:用户名2 (其中-R表示递归、*表示所有文件文件夹)
2016-12-02 11:57:27
665
原创 Hadoop-HDFS知识点汇总
LINUX命令汇总:ipconfig ----查看ipservice network restart ----重新启动网络setup ----setup是一个设置公用程序,提供图形界面的操作方式。在setup中可设置7类的选项: 1.登陆认证方式 2.键盘组态设置 3.鼠标组态设置 4.开机时所要启动的系统服务 5.声卡组态设置
2016-12-02 11:56:34
512
原创 spark使用案例
package com.jianfeitech.bd.mod.spark.query.export.publicsecurity;import java.io.Serializable;import java.util.HashMap;import java.util.Map;import org.apache.spark.SparkContext;import org
2016-11-24 10:42:28
600
原创 阿里云ODPS使用总结
从阿里云官网下载ODPS的客户端odpscmd_public.zip,该客户端在linux和windows环境上都可用。进入该客户端的配置文件odps_client/conf/odps_config.ini ,进行配置,主要配置前三项:project_name=XXXXXXaccess_id=XXXXXXaccess_key=XXXXXXend_point=http://s
2016-11-22 22:14:09
12867
转载 阿里云ODPS(现名MaxCompute,原名ODPS)介绍
什么是ODPS(一)阿里云开放数据处理服务(Open Data Processing Service,简称ODPS) 是构建在飞天系统上的大规模分布式数据处理服务。ODPS以REST API的形式,支持用户提交类SQL的查询语言,对海量数据进行处理。在API之上,还提供SDK开发包和命令行工具,Aliyun.com上还有一个Web演示界面。什么是ODPS(二)与传统数据仓库工具相比
2016-11-22 21:42:24
9640
转载 搭建 Hadoop2.7.2 + Spark1.6环境
服务器上已经有了 hadoop2.7.2环境,这次只用配置spark1.6就可以。服务器操作系统为centOS6.51、安装Scala 下载地址:http://www.scala-lang.org/download/ 注:我下载的是scala-2.11.8.tgz将压缩上传至/usr/local 目录 解压缩tar -zxvf scal
2016-11-20 15:17:17
455
转载 Linux软连接和硬链接
1.Linux链接概念Linux链接分两种,一种被称为硬链接(Hard Link),另一种被称为符号链接(Symbolic Link)。默认情况下,ln命令产生硬链接。【硬连接】硬连接指通过索引节点来进行连接。在Linux的文件系统中,保存在磁盘分区中的文件不管是什么类型都给它分配一个编号,称为索引节点号(Inode Index)。在Linux中,多个文件名指向同一索引节点是存在的。一
2016-11-20 15:16:39
255
转载 [转载]Linux系统如何用shell命令获取文件或字符串的MD5值
原文地址:Linux系统如何用shell命令获取文件或字符串的MD5值作者:流泪鱼Linux系统如何用shell命令获取文件或字符串的MD5值:获取字符串的MD5值:字符串“hello”的MD5: $ echo -n 'hello'|md5sum|cut -d ' ' -f1得到的MD5值: 5d41402abc4b2a76b9719d911017c59
2016-11-18 17:28:32
410
转载 在Spark集群中,集群的节点个数、RDD分区个数、cpu内核个数三者与并行度的关系??
作者:Mr Rex链接:https://www.zhihu.com/question/33270495/answer/88953826来源:知乎著作权归作者所有,转载请联系作者获得授权。图来自官方 Cluster Mode OverviewSpark集群的节点个数为集群的机器的数量。一个机器上有几个worker,一个woker可以申请多少core是可配置的。一个常用的配
2016-11-18 11:30:02
2522
转载 ssh 免密码登录
ssh 无密码登录要使用公钥与私钥。linux下可以用用ssh-keygen生成公钥/私钥对,下面我以CentOS为例。有机器A(192.168.1.155),B(192.168.1.181)。现想A通过ssh免密码登录到B。1.在A机下生成公钥/私钥对。[chenlb@A ~]$ ssh-keygen -t rsa -P ''-P表示密码,-P '' 就表示空
2016-11-14 10:33:37
233
转载 Linux下的压缩zip,解压缩unzip命令详解及实例
Linux下的压缩解压缩命令详解及实例实例:压缩服务器上当前目录的内容为xxx.zip文件zip -r xxx.zip ./*解压zip文件到当前目录unzip filename.zip============================另:有些服务器没有安装zip包执行不了zip命令,但基本上都可以用tar命令的,实例如下: tar -zcvf /home/z
2016-11-14 09:14:26
497
转载 Crontab定时任务配置
CRONTAB概念/介绍 crontab命令用于设置周期性被执行的指令。该命令从标准输入设备读取指令,并将其存放于“crontab”文件中,以供之后读取和执行。cron 系统调度进程。 可以使用它在每天的非高峰负荷时间段运行作业,或在一周或一月中的不同时段运行。cron是系统主要的调度进程,可以在无需人工干预的情况下运行作业。crontab命令允许用户提交、编辑或删除相应的作业。
2016-11-09 09:48:04
265
转载 Java读取配置文件之----------getResourceAsStream的用法
首先,Java中的getResourceAsStream有以下几种: 1. Class.getResourceAsStream(String path) : path 不以’/'开头时默认是从此类所在的包下取资源,以’/'开头则是从ClassPath根下获取。其只是通过path构造一个绝对路径,最终还是由ClassLoader获取资源。 2. Class.getClassLoader.
2016-11-05 22:17:17
517
转载 使用Apache Commons Configuration读取配置信息
在项目中使用一些比较新的库总会给你带来很多快乐,在这篇文章中,我将会给你介绍一个在Java中读取配置文件的框架——Apache Commons Configuration framework. 你会了解到 ·从XML文件中获取数据 ·访问环境变量 ·连接不同类型的配置信息(基于XML的,基于环境变量的,等等) ·在程序改变后自
2016-11-05 21:55:17
458
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人