- 博客(28)
- 资源 (1)
- 收藏
- 关注
原创 Python 小作业 01
要求:1:输入用户姓名2:认证成功后显示欢迎信息3:错误三次后锁定code:# 编写登陆口name ='zhang'password= '123'count=0for i in range(10): log_name= input("请输入登陆名字:") log_passwd = input("请输入登陆密码:") if log_n...
2019-05-23 11:29:50
467
原创 使用eclpse编写udf函数
使用eclipse编写UDF函数2017年06月08日 13:03:40阅读数:424在做日志分析的过程中,用到了Hadoop框架中的Hive,不过有些日志处理用hive中的函数处理显得力不从心,就需要用udf来进行扩展处理了1 在eclipse中新建Java project hiveudf 然后新建class package(com.afan) name(UDFLo...
2018-07-26 15:16:05
414
原创 大数据实战:五(离线计算)
目录课程大纲(HDFS详解).............................................................................................................. 21. HDFS前言................................................................
2018-07-19 17:06:53
3604
1
原创 大数据实战:四(轻量级 rpc 框架开发)
一:主要内容 掌握RPC原理,掌握nio操作,掌握netty简单的api,掌握自定义rpc框架 RPC原理学习 什么是RPC RPC(Remote Procedure Call Protocol)——远程过程调用协议,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在,如TCP或UDP,为...
2018-07-17 11:28:23
709
原创 分布式协调场景应用(zookeeper)
业务场景:有一个集群式的服务器,提供对外的服务,问题一: 服务器会根据服务的负载会增加服务器,有时候增加两台有时候会增加多台的服务器,或者是有时候服务器会宕机掉线,则产生一个问题就是,服务器的集群会产生动态的变化。则会产生一个问题,服务器是为客户端提供服务的,并且客户端有很多,则客户端他怎么能知道 服务器宕机或者增加 怎么会知道目的是,客户端要知道哪些服务器上线哪些服务器下线,当我请...
2018-07-12 17:27:26
371
原创 JUnit4 中@AfterClass @BeforeClass @after @before的区别对比
JUnit4使用Java5中的注解(annotation),以下是JUnit4常用的几个annotation: @Before:初始化方法 对于每一个测试方法都要执行一次(注意与BeforeClass区别,后者是对于所有方法执行一次)@After:释放资源 对于每一个测试方法都要执行一次(注意与AfterClass区别,后者是对于所有方法执行一次)@Test:测试方法,在这里可以测试期望异常...
2018-07-12 10:46:08
221
原创 大数据实战:三 (下 zookeeper 操作)
高可用的服务监控A: keepalived 他是服务于服务端的,访问的虚拟ipB: zk rpc框架比较繁琐麻烦,zk的最少安装的服务器为1台。但是但台服务器挂了,就完了,因为zk的安装节点为计数就可以的。zk的集群结构最少三台服务器,因为在配置文件中他们有配置哪一个主哪一些是从,如何选举呢其实在这涉及到一个算法PAXOS 但是zk是把他简化之后的=》叫做 Zab来进行投票的每...
2018-07-12 09:31:03
325
原创 大数据实战:三(上 zookeeper集群安装)
Zookeeper1. Zookeeper概念简介:Zookeeper是一个分布式协调服务;就是为用户的分布式应用程序提供协调服务A、zookeeper是为别的分布式程序服务的B、Zookeeper本身就是一个分布式程序(只要有半数以上节点存活,zk就能正常服务)C、Zookeeper所提供的服务涵盖:主从协调、服务器节点动态上下线、统一配置管理、分布式共享锁、统一名称服务……D、虽然说可以提供...
2018-07-10 15:20:58
240
原创 大数据实战:二(主要讲解shell的基础)
sortsort 命令对 File 参数指定的文件中的行排序,并将结果写到标准输出。如果 File 参数指定多个文件,那么 sort 命令将这些文件连接起来,并当作一个文件进行排序。sort语法 [root@www ~]# sort [-fbMnrtuk] [file or stdin]选项与参数:-f :忽略大小写的差异,例如 A 与 a 视为编码相同;-b :忽略最前面的空格符部分;-M ...
2018-07-05 11:28:01
373
原创 大数据实战:一(主要讲解linux的基础)
一 : linux和windos的分区的区别。windos的分区: 每个分区就是一个可分出的一个盘lunx的分区 : 其实linux和windos的最大的区别就是,所有的硬盘是挂在linux的 根(‘/’)目录下的bin目录: 就是linux系统里面的 命令文件夹的一些操作boot目录: 就是linux的启动时加载的一些配置文件的参数,可以在里面修改一些参数,,,例如系统启动时进入图形化的界面 ...
2018-07-04 17:33:58
810
原创 hive内置函数大全
一、查看函数 show functions 显示hive下内置所有函数 desc function extended add_months 显示add_months 函数用法二、按首字母排序 hive版本1.1.0-cdh5.7.0.函数Usage举例!! a - Logical notNo example for !.%a % b - Returns the r...
2018-07-03 15:02:49
2819
原创 Hadoop2.6.0+Spark1.4.0集群安装
1,要求你已经成功把Hadoop集群安装完毕,并经过测试,如果不知道如何编译安装Hadoop请参考散仙的这篇文章http://qindongliang.iteye.com/blog/2222145 2,安装Scala2.10.x版本,spark1.4.0最新版本的兼容2.10.x的scala,建议还是安装scala2.10.x的,虽然scala最新的版本是2.11.x了 安装方法: (1) wge...
2018-07-03 10:45:50
401
原创 hive的行列转换
一、列转行 (对某列拆分,一列拆多行)使用函数:lateral view explode(split(column, ',')) numeg: 如表:t_row_to_column_tmp 数据如下,对tag列进行拆分SQL代码:select id,tag,tag_newfrom t_row_to_column_tmplateral view explode(split(tag, ',')) nu...
2018-06-28 16:45:11
2242
原创 关于scala的小程序(打印偶数的倍数)
自定义有方法,无返回参数,g其实返回的是一个数组,最下面的则是for循环,将g数据便利出来def array_test() : Unit ={ val c = Array(2,4,5,7,11) val g = for (x <- c if x % 2 == 0 ) yield 2 * x for(f <- g){ print(f) }}...
2018-05-28 11:13:35
1449
原创 airflow 安装简单版
首先安装命令为:pip install airflow也可以:pip install airflow[参数]参数如下:subpackageinstall commandenablesallpip install airflow[all]All Airflow features k
2017-12-29 16:51:40
799
原创 centos 7 安装airflow
centos7 安装airflow由于airflow是个比较新的东西,安装时,不免踩了很多坑。什么centos7 数据库需要换成mariadb,什么yum install python-mysql ,坑死人。可能这也跟系统的环境有关,因为版本不同,命令也不同。下面的步骤希望能帮到大家!1.先测试自己的环境是否有wget命令,没有的话需要进行安装:
2017-12-29 16:32:02
1644
原创 Hadoop的 HA的搭建
Hadoop HA高可用集群搭建(2.7.2)1.集群规划: 主机名 IP 安装的软件 运行的进程drguo1 192.168.80.149 jdk、hadoop NameNode、DFSZKFailoverContro
2017-12-29 10:51:36
282
原创 hive的内置函数
在Hive中,函数包括以下类型:一、内置函数1、数学函数[plain] view plain copy(1)round:四舍五入 select round(数值,小数点位数); (2)ceil:向上取整 select ceil(45.6); --46 (3)floor
2017-11-27 16:06:17
804
原创 Hive系列之HSQL转换成MapReduce过程
hive的库、表等数据实际是hdfs系统中的目录和文件,让开发者可以通过sql语句, 像操作关系数据库一样操作文件内容, 比如执行查询,统计,插入等操作。一直很好奇hive是如何做到这些的。通过参考网上几篇不错的文档, 有点小心得分享出来。主要的参考链接http://tech.meituan.com/hive-sql-to-mapreduce.htmlhttp://www.slideshare
2017-11-23 17:47:08
2542
原创 hive的行转列,列转行
HIVE 查询显示列名 及 行转列显示http://blog.youkuaiyun.com/iquicksandi/article/details/8515453hive行转列 (Lateral View explode())http://blog.youkuaiyun.com/iquicksandi/article/details/8515453=============
2017-11-23 17:42:13
724
原创 kafka的数据可靠性
Kakfa起初是由LinkedIn公司开发的一个分布式的消息系统,后成为Apache的一部分,它使用Scala编写,以可水平扩展和高吞吐率而被广泛使用。目前越来越多的开源分布式处理系统如Cloudera、Apache Storm、Spark等都支持与Kafka集成。Kafka与传统消息系统相比,有以下不同:它被设计为一个分布式系统,易于向外扩展;
2017-11-23 09:38:07
344
原创 centos 7 与 6的运行区别
linux运行级别:centos6(init或systemv)0 关机halt1 单用户模式(用于维护,无需用户名、密码登录)2 多用户模式(不启用网络功能)3 多用户模式(带网络功能),命令行界面(CLI:command line interface)4 未定义5 图形界面(桌面环境)6 重启reboot
2017-11-23 09:04:02
278
原创 myeclipse下搭建hadoop2.7.3开发环境
需要下载的文件:链接:http://pan.baidu.com/s/1i5yRyuh 密码:ms91 一 下载并编译 hadoop-eclipse-plugin-2.7.3.jar二 将hadoop-eclipse-plugin-2.7.3.jar放到myeclipse的安装目录下的plugins目录下,并重启myeclipse 在windows->pref
2017-11-22 14:14:48
612
原创 hadoop 常见错误
如果大家在安装的时候遇到问题,或者按步骤安装完后却不能运行Hadoop,那么建议仔细查看日志信息,Hadoop记录了详尽的日志信息,日志文件保存在logs文件夹内。无论是启动,还是以后会经常用到的MapReduce中的每一个job,以及HDFS等相关信息,Hadoop均存有日志文件以供分析。1、hadoop-root-datanode-master.log 中有如下错误
2017-11-21 14:30:34
335
原创 centos 7 安装 hadoop 2.7.1
CentOS 7 安装Hadoop 2.7.1 两台机器 CentOS7(机器名分别为master-CentOS7、slave-CentOS7) 内存2G (笔记本开虚拟机快撑不住了╮(╯-╰)╭ CentOS7 与 CetnOS6 有一些区别网络配置master-CentOS7[root@localhost ~]
2017-11-20 16:06:11
630
原创 flume link kafka的配置文件
#两个channels 和两个 sinkagent.sources = sagent.channels = c c1agent.sinks = r k#这就是source 把源数据打向两个channelsagent.sources.s.channels = c c1agent.sources.s.type = execagent.sources.s.comman
2017-11-20 15:21:56
396
原创 hadoop 2.x yarn 的工作机制
1.1 YARN 基本架构YARN是Hadoop 2.0中的资源管理系统,它的基本设计思想是将MRv1中的JobTracker拆分成了两个独立的服务:一个全局的资源管理器ResourceManager和每个应用程序特有的ApplicationMaster。其中ResourceManager负责整个系统的资源管理和分配,而ApplicationMaster负责单个应用程序的管理。
2017-11-20 15:07:02
251
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人