- 博客(45)
- 收藏
- 关注
原创 HIVE执行过程中java.lang.ArrayIndexOutOfBoundsException【待解决】
HIVE执行过程中java.lang.ArrayIndexOutOfBoundsException
2021-05-17 19:39:54
2983
1
原创 Hive使用技巧
最近的工作主要集中在数据分析,建立数仓并进行数据的分析,故记录一些相关技巧1.collect_set/collect_list两者多进行列转行,使得一个用户的数据聚合到一起不同点:collect_set去重,collect_list不去重使用size()可以计算其中的类别个数使用array_contains(str1,str2)判断str1中是否包含str2判断不包括!array_contains(str1,str2)2.concat /concat_ws主要用于列值的合并
2020-06-28 23:41:47
388
原创 spark程序local模式运行OK,但是提交到yarn集群报错
代码为kafka传参后流式运算,获取hive数据,报错的位置代码为目前来看是读取hive失败,不知道为什么到yarn会出现这中问题
2019-11-18 14:09:36
789
原创 flume监听文件数据--发送到kafka中
flume安装:(略,见前面内容)kafka安装:(略,见前面内容)创建kafka topicbin/kafka-topics.sh --create --zookeeper master:2181,slave1:2181,slave2:2181 --replication-factor 1 --partitions 2 --topic test【前面进行了环境配置了就可以直接用ka...
2019-05-15 15:55:24
4006
原创 Kafka安装和简单测试
单机模式一个服务(broker) 下载:http://kafka.apache.org/downloads 上传解压:tar -zxvf ~/soft/kafka_2.11-0.10.1.0.tgz ~/soft/ 创建软连接(kafka安装目录上一层):ln -s kafka_2.11-0.10.1.0 kafka 配置环境变量:vim ~...
2019-05-15 15:36:41
430
原创 Flume安装和简单测试
下载地址http://archive.apache.org/dist/flume/1.6.0/系统要求Java运行时环境 - Java 1.8或更高版本内存 - 源,通道或接收器使用的配置的足够内存磁盘空间 - 通道或接收器使用的配置的足够磁盘空间目录权限 - 代理使用的目录的读/写权限==========================================...
2019-05-15 15:29:18
753
转载 Linux下使用echo命令清空文件内容
发现日志文件很大,使用rm命令又要重启服务使用echo命令:echo ""> catalina.out ,完全清空
2019-05-15 11:08:37
2107
转载 [转载] spark优化 来自美团
[转载] spark优化 来自美团前言在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、 流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用 Spark。大多数同学(包括笔者在内),最初开始尝试使用Spark的原因很简单...
2019-04-03 09:20:11
256
原创 java大数据面试算法题
针对海量数据的处理,可以使用的方法非常多,常见的方法有Hash法、Bit-map(位图)法、Bloom filter法、数据库优化发、倒排索引法、外排序法、Trie树、堆、双层桶法以及MapReduce法等。其中Hash法、Bit-map(位图)法、Trie树、堆等方法的考查 频率最高、使用范围最为广泛。1.如何从大量的url中找出相同的url题目:给定a、b两个文件,各存放50亿个url...
2019-03-21 19:41:51
816
原创 SQL应用及误区分析
SQL概述:SQL是结构化查询语言(Structured Query Language)的简称,是一种关系型数据库操纵语言,是所有关系型数据库都采用的标准语言。SQL语言可以氛围4类,分别是DML(数据操纵语言)、DDL(数据定义语言)、TCL(事务控制语言)、DCL(数据控制语言)DML 增删改查、使用率最高 DDL 新建数据结构、修改已经存在的数据结构及删除不再使用...
2019-03-20 19:57:25
269
原创 Kafka在大数据中的应用
Kafka适用大数据处理的原因:支持存储任何类型和格式的数据 使用商业硬件来存储大量数据 是一个高性能和可伸缩的系统 将数据存储在磁盘上,可以用来服务不同的数据管道;可用于实时事件处理和批处理 由于数据和系统冗余,它是高可靠的管理Kafka的高容量高容量的写入或高消息写入吞吐量 高容量的读取或高消息读取吞吐量 高容量的复制速度 高磁盘刷新或I/O 生产者读取和消...
2019-03-06 20:27:06
3084
原创 TFIDF案例
TF-IDF(term frequency-inverse document frequency)是一种用于咨询检索与咨询探勘的常用加权技术。--TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。 字词的重要性随着它在文件中出现的次数成正比增加 但同时会随着它在语料库中出现的频率成反比下降--TF-IDF加权的各...
2019-03-06 15:28:36
1912
原创 hadoop-mr案例-itemcf
电子商务网站是个性化推荐系统重要地应用的领域之一 -亚马逊就是个性化推荐系统的积极应用者和推广者,亚马逊的推荐系统深入到网站的各类商品,为亚马逊带来了至少30%的销售额。 不光是电商类,推荐系统无处不在。 QQ好友推荐;新浪微博的你可能感兴趣的人;优酷,土豆的电影推荐;豆瓣的图书推荐;大众点评的餐饮推荐;世纪佳缘的相亲推荐;天际网的职业推荐等等。思考:----购买成功后:购买了该商品的...
2019-03-06 15:28:11
454
原创 PageRank计算
什么是Pagerank-PageRank是Google提出的算法,用于衡量特定网页相对于搜索引擎索引中的其他网页而言的重要程度。-是Google创始人拉里.佩奇和谢尔盖.布林于1997年创造的-PageRank实现了将链接价值概念作为排名因素#计算环境--Hadoop-2.7.1--四台主机--两台RM的HA--离线计算框架MapReduce算法原理---思...
2019-03-04 22:01:27
1514
原创 reduce运行到69%就卡住了。。。。肿么办?
19/01/03 14:17:22 INFO Configuration.deprecation: session.id is deprecated. Instead, use dfs.metrics.session-id19/01/03 14:17:22 INFO jvm.JvmMetrics: Initializing JVM Metrics with processName=JobTrac...
2019-01-03 14:29:13
1011
原创 Hadoop单机和伪分布搭建
hadoop模块 Hadoop Common:支持其他Hadoop模块的常用实用程序。 Hadoop分布式文件系统(HDFS™):一种分布式文件系统,可提供对应用程序数据的高吞吐量访问。 Hadoop YARN:作业调度和集群资源管理的框架。 Hadoop MapReduce:基于YARN的系统,用于并行处理大型数据集。(一种计算框架) Hadoop O...
2018-12-06 19:23:56
406
原创 数据库进阶2
关联查询概念当在查询时,我们所需要的数据不在一张表中,可能在两张表或多张表中。此时我们需要同时操作这些表,即关联查询。等值连接在做多张表查询时,这些表中应该存在着有关联的两个字段,我们使用某一张表中的一条记录与另外一张表通过相关联的两个字段进行匹配,组合成一条记录。笛卡尔积在做多张表查询时,我们使用某一张表中的每一条记录与另一张表的所有记录进行组合比如表A有x条,表B...
2018-11-30 08:50:18
324
原创 servlet基础学习
程序的演进 1、单机程序:txt文档,word文档,ppt文档 2、两层CS架构 客户端:Client,设计用户界面和少量的逻辑代码 服务端:数据库,大量的逻辑代码 优点:交互简单 缺点:业务逻辑使用数据库编程语言编写 ...
2018-10-19 19:25:25
239
原创 JAVA---网络编程
网络编程 java语言中,提供了一套统一的编程接口。很多细节都已经底层化。 所以可以进行无痛的网络编程。 提供的是Socket套接字技术。常用的通信协议(1)TCP/IP: 在通信之前,需要建立链接,通信之后需要断开连接。 一般会有一个作为服务器端,有一个作为客户端。 ...
2018-09-14 22:48:35
134
原创 JAVA----线程
概念梳理 程序,进程,线程,多进程,多线程(1)程序:可以实现多个功能的代码体。也叫软件。(2)进程:有两个特点 ---是一个实体:有自己的地址空间,如文本区域,数据区域,堆栈区域 ---是一个运行中的程序:cpu赋予程序生命时,就是一个进程。进程是操作系统的一个任务。(3)线程:是进程里的一个任务,是一个顺序执行流。有自己独立的堆栈,与其他线程共享进程的地址空间。(4)多进...
2018-08-31 19:51:54
153
原创 JAVA---I/O流
I/O流我们在做项目时,除了自定义的一些数据外,还可能从"外界"引入数据,或者将数据导出到"外界"。这时我们需要I/O操作。外界:指的可能是键盘,显示器,硬盘,另外一个程序流:就是数据序列,一经创建成功,就会打开一个通道。所以使用完应该进行关闭操作。I/O流的分类 (1)按照流向分类: 输入流 ...
2018-08-27 19:47:19
379
原创 java.io.File类型
java.io.File类型概念 可以用来创建,删除文件/目录,还可以查看文件/目录的属性信息,但是不可以修改文件里的数据。如果需要修改,应该使用输入/输出常用构造器 File(String pathname)---------创建要给指定路径的File对象 File(File parent,String child)----------在指定parent路径...
2018-08-27 19:19:37
274
原创 JAVA---集合之Map接口
Map接口Map接口------集合框架中的另一个父接口 Map集合(另名为散列表):用于存储一一对应的元素数据,第一个对象可以作为索引,第二个对象作为值, 我们称之为key- value,键值对。存储数据的特点 (1)以key-value形式进行存储。 (2)key与value都必须是引用类型。 (3)key可以为null。 ...
2018-08-27 18:59:40
289
原创 JAVA---集合子接口之Set
Set接口特点1:无序,存储的元素与添加顺序无关特点2:不可重复(使用元素的equals方法来判定是否重复)特点3:能存储null元素,只能存储一次。Hash算法机制Set集合在添加或查看元素时,当集合中的元素过多时,就会进行多次的比较,效率变低。为了提高效率,在设计元素类型时,提供hash算法,用于返回对象的一个int值。在内存中开辟很多小的区域,用于存储一定范围返回值的对象...
2018-08-27 18:48:33
208
原创 JAVA-----集合子接口Queue及其子接口Deque
QueueQueue也是Collection的子接口,是一种数据结构,队列。 队列:通常都是一端进(offer),另一端出(poll)。 进出原则:FIFO 因为队列要经常进行增删操作,Linkedlist实现了Queue接口 常用方法: boolean offer(E ...
2018-08-23 19:50:59
302
原创 JAVA----集合的子接口List
ListList:列表 此接口对应的实现类的特点都是:有序的,可以重复的 重复与否与元素的equals方法有关常用方法: void add(int index,E element)--------将某一元素,插入到此集合的某一下标index处 E get(int index)--------------返回指定下标上的元素 ...
2018-08-23 19:45:50
209
原创 JAVA----集合Collection
集合集合框架图 集合概念: 用于存储多个对象的单一对象(容器),存储的数据叫元素,元素都是引用类型。集合框架: 用于模拟现实生活中的存储容器,因此集合类型不单单是一种。有很多类型,设计成各种存储的数据结构。这些类型统称为集合框架。 注意:元素必须是引用数据类型的数据,不能是基本数据类型的数据。 容器内存储的都是对象的地址。...
2018-08-23 19:36:21
158
原创 JAVA---日期与时间(Data SimpleDataFormat Calendar )
java中的时间(1)java中采用标准类库的Date类型时间。使用距离一个固定时间点的毫秒数的时间点来表示时间。(2)固定时间点即纪元(UTC)。也就是1970年1月1日00:00:00(3)UTC与GMT都是世界通用的时间格式Date类型 java.util.Date类型,封装了日期与时间的信息后很多功能都弃用,渐渐的使用Calender类型来替代 (1)构造...
2018-08-23 19:21:28
1307
原创 JAVA---包装类
包装类 java语言是面向对象的语言,而基本数据类型的数据不是对象,但是有的时候我们 需要研究使用基本数据类型的数据,需要将之转换成对象来使用,这个时候我们可 以将基本数据类型包装成引用类型。 每一个基本数据类型都对应一个包装类: byte----->Byte short--...
2018-08-23 19:07:02
174
原创 JAVA----正则表达式
正则表达式 (1)很多时候,我们都需要对一些字符进行匹配,查找,替换等复杂操作。 我们可以通过“正则表达式”来帮助实现这些复杂操作。 (2)正则表达式,它是一个有“特殊意义”的字符串,定义了一种“校验规则”。 常用字符集 []:表示匹配括号内的一个字符 [abc]:表示匹配abc中的任意一个 [a-z]:表示匹配a-z中的任...
2018-08-23 19:01:39
219
原创 JAVA----String、StringBuilder、StringBuffer
String(底层是字符数组+对数组的操作)特点:(1)是不可变的字符串类型,(不可变:对象的内容不能更改)(2)final修饰的类型(3)字符下标(索引)从0开头(4)重写了equals方法和toString方法(5)字符集采用平台默认字符集,大多数是unicode字符集,任意字符都占两个字节。构造器: String(): 创建一个空字符序列...
2018-08-23 18:36:56
128
原创 Java---运行内存图
1、String[] in = {"1","2","3"};String si = "2";System.out.println(si==in[1]);2、public class Test { public static void main(String[] args) { String str = "hello"; String str1 = str+"w.
2018-08-15 09:36:03
506
原创 JAVA---API、异常
API定义:应用程序编程接口,即jdk文档手册,里面以类的形式提供了很多常用功能常用的包与类: java.lang包:因为常用,所以不需要导包。 如:字符串,线程 java.util包:数组功能类,日期,集合等 java.net包:网络相关的类型 java.io包:输入输出类型 java.math包:数学应用的相关...
2018-08-12 22:59:21
310
原创 JAVA---接口、内部类、多态
接口有时我们需要从多个不相关的类中设计出一个子类型,而java继承是单继承的特点,无法满足 我们的需求,所以我们可以使用接口来达到多继承的目的。 接口实际上就是一种规范制度。接口的特点: (1)接口使用interface关键字,而不是class 但是我们可以理解成接口是特殊的抽象类 (2)接口里只能有抽象方...
2018-08-12 22:50:36
172
原创 JAVA---经典俄罗斯方块游戏完善版
进阶版本的欧罗斯经典方块游戏,还没有实现最后满格消格功能,目前 功能:(1)随机方块体下落;(2)控制左右下移动第一步依然是建立最小的方块类CELL类 package com.hyxy.oop.day08;import java.awt.image.BufferedImage;public class Cell { private int row; private in...
2018-08-08 18:07:36
2350
1
原创 JAVA----继承练习(经典俄罗斯方块游戏)
思考:俄罗斯方块游戏的最小单元------单个方块 游戏界面呈现---------四个各种形式的方块-------------抽象出长度为4的方块数组 所以先建立方块类第一步:建立方块类型,并添加移动方法/** * 经典俄罗斯方块游戏: 画面最多能放入20行,10列的方块 画面中的最小单元: ...
2018-08-03 19:42:14
952
原创 JAVA---面向对象
8 面向对象概述:java编程语言是纯粹的面向对象思想的语言。对象:类的实例化,即类中的个体 类:封装一些事物的状态数据并提供操作这些状态数据的方法(Method),实现逻辑。类与对象的关系: 类是对象的模板,对象是类的实例化8.1 程序开发的两个主流方法(1)结构化程序设计,也叫面向过程程序设计 结构化程序设计主张以功能/步骤来进行软件设...
2018-07-28 14:49:02
362
原创 JAVA---方法
7 方法7.1基本概念方法:类的共同行为,封装了一段逻辑代码,在封装方法时,尽可能的只完成一项功能, (避免将多个功能封装到一个方法内)。 方法的位置: 在类体中与main方法是并列关系,类体中可以有多个方法。方法的使用: 方法属于对象的行为,应该使用:引用.方法,这些方法动态绑定到对象上。7.2 方法的定义方法的定义:...
2018-07-28 14:17:33
160
原创 JAVA---数组(练习)
/** 数组Array的学习*/public class ArrayDemo01{ public static void main(String[] args){ /*数组的声明和初始化: --初始化有三种写法 --静态初始化(1种) --动态初始化(2种) */ /*存储整型3,4,6,1,2 */ int[...
2018-07-28 13:16:59
322
原创 JAVA---数组
目录6 数组 6.1 概念 6.2 数组的名称: 6.3 数组的声明与初始化 6.4 数组元素的访问(查看) 6.5 数组下标越界异常 6.6 引用类型之Arrays 6.7 数组的复制 6.8 数组的排序 (1)冒泡排序 (2)简单排序 (3)工具类排序 ...
2018-07-28 12:49:28
187
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人