- 博客(71)
- 资源 (3)
- 收藏
- 关注
原创 Centos7.4操作系统安装
Centos7.4操作系统安装1.U盘准备2.下载相关装机工具3. 制作UEFI启动盘4. 设置U盘启动5. U盘启动后的磁盘路径或者lable标签修改6. 安装linux操作系统7. 安装踩坑--步骤5解释1.U盘准备centos7系统的安装只支持fat32文件格式的磁盘,当作系统盘只有不超过32G的U盘才支持格式化为fat32文件格式如果U盘大于32G,也有方法,不过比较麻烦,建议换一个8G,16G,32G的U盘格式化U盘为fat32的文件格式2.下载相关装机工具我这里用的Ultra
2022-01-24 14:36:02
1868
原创 sqoop导出parquet格式的hive表
sqoop导出parquet格式的表结论1:sqoop导出parquet格式的表,必须指定hive的数据库与表名遇到的问题1:ERROR sqoop.Sqoop: Got exception running Sqoop: org.kitesdk.data.DatasetNotFoundException: Descriptor location does not exist: hdfs://XXX/.metadata原因:采用了传统的导出数据的方式sqoop export \--conne
2021-01-11 19:44:32
1613
原创 Jackson读取xml
Jackson读取xml需要添加的依赖 <!--lombok--构造器,getter,setter快捷生成> <dependency> <groupId>org.projectlombok</groupId> <artifactId>lombok</artifactId> <version>1.16.10</
2020-11-15 18:59:32
1135
原创 spark任务在yarn中的资源分配
yarn中spark任务的资源分配监控页面: master://8088所占内存总大小: 参数如下图:实际情况中,应用程序申请到的资源量一定大于所申请的资源量例如:spark driver指定内存 2g,executor指定内存 2g*3 合计应该是8192M内存但实际上分配的内存或许为 12288M 等,为何会出现这样的情况?因为由JVM自身的开销,并且还涉及到一个名词——规整化因子并且yarn的不同任务调度模式下的资源分配总理的计算方式是不同的规整化因子关于内存的默认配置: ya
2020-11-02 14:36:09
1060
原创 pycharm配置pyspark环境
1.本地安装spark2.本地安装python3.本地安装pycharm4.在pycharm右上角run左边有一个edit configuration,打开5.configuration–environment–environment variables—点击右边添加6.添加 SPARK_HOME值为spark的安装路径7.添加 PYTHONPATH值为spark的安装路径下的python路径,保存关闭8.file—settings—搜索project structure===点击最右边ad.
2020-10-13 16:10:16
650
原创 SparkStreaming之direct方式消费kafka数据偏移量相关问题
SparkStreaming之direct方式消费kafka数据偏移量相关问题direct方式支持不支持自动维护偏移量-----------不支持那么看看direct方式消费时怎么判断偏移量的??stream = KafkaUtils.createDirectStream( jssc, ConsumerStrategies.Subscribe(
2020-09-18 18:11:32
400
原创 kafka中auto.offset.reset参数详解
kafka中auto.offset.reset的参数详解:noneearliestlatest所有介绍的前提,同一个消费者组下none如果没有为消费者找到先前的offset的值,即没有自动维护偏移量,也没有手动维护偏移量,则抛出异常earliest在各分区下有提交的offset时:从offset处开始消费在各分区下无提交的offset时:从头开始消费latest在各分区下有提交的offset时:从offset处开始消费在各分区下无提交的offset时:从最新
2020-09-18 18:08:32
13274
原创 sqoop map并行度以及split-by数量详解
Sqoop 同步记录文章目录Sqoop 同步记录1. sqoop -m2. sqoop --split-by3.sqoop --split-by 分割机制3.1 分割int类型3.2 分割date类型3.3 分割varchar类型4. sqoop --split-limit5. map的数量由什么决定6.为什么要设定--split-limit1. sqoop -m有一种情况可以不需要指定 sqoop -m就是你要同步的表有主键,这样的话sqoop默认会按照主键进行split然后分成4个map并行执行
2020-07-10 10:14:46
4478
3
原创 源码解读两个JSONObject的equals方法
alibaba.fastjson源码分析JSONObject的equals方法JSONObject的创建//默认创建一个空的JSONObject 底层使用的是hashMap//hashMap内部是按照key的ASCII码进行排序 JSONObject jsonObj1 = new JSONObject();//创建一个内部有序的JSONObject,那么可以使用linkedHashMap//指定内部数据按照put的顺序有序排序 JSONObject jsonObj2 = new JSONObj
2020-05-12 10:20:04
2913
原创 ML----KNN算法----Spark实现
KNN算法思想KNN(k-NearestNeighbor)又被称为最近邻算法,它的核心思想是:物以类聚,人以群分。KNN算法是机器学习 中最简单的方法之一。所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来 代表。KNN是一种分类算法,KNN没有显式的学习过程,也就是说没有训练阶段,待收到新样本后直接进行处理。KNN的思路是:如果一个样本在特征空间中的k个最邻...
2019-12-10 21:42:53
1692
3
原创 Spark中DF落地到hive中进行动态分区以及小文件问题
五个注意点hive的动态分区需要开启非严格模式set hive.exec.dynamic.partition.mode=nonstrictinsertInto方式不支持分区表数据导入saveAsTable与insertInto的区别指定的分区列必须为当前表中的某个列比如一张主题表中想保留Long类型的ct字段,又想根据ct转化为String类型的bdp_day来进行分区,就需要在当...
2019-11-28 16:47:05
1685
3
原创 Spark落地到hive表时saveAsTable与insertInto的区别
SaveAsTable//Api的解释Saves the content of the `DataFrame` as the specified table.** In the case the table already exists, behavior of this function depends on the* save mode, specified by the `mod...
2019-11-28 14:35:09
5075
2
原创 LogStash与Fume的区别
首先需要了解一下flume的三个组件与logstash三个组件的关系flume中的三个组件 source channel sinklogstash中的三个组件 input filter outputlogstash中的finput相当于flume中的source----从那里读数据logstash中的filter相当于flume中source端的interceptor------...
2019-11-24 16:26:44
211
原创 ElasticSearch5.x以及head插件的安装,以及安装过程中遇到的问题
ElasticSearch版本选择elasticsearch 5.x -----> jdk 1.8+NodeJs 6.x+ElasticSearch下载ElasticSearch-Header下载NodeJs下载elasticsearch启动./bin/elasticsearch访问: 127.0.0.1:9200 //这是在linux本地访问elasticsear...
2019-11-24 16:03:02
150
原创 LogStash实操
LogStash实操简单的从本地输入,输出到本地logstash -e 'input{stdin{}}output{stdout{codec=>rubydebug}}'从本地输入,输出到eslogstash -e 'input{stdin{}} output {elasticsearch{hosts=>["hadoop111:9200"]}}'##会在es根据时间生成一个索引...
2019-11-24 15:58:10
542
原创 使用javaAPI的方式指定elasticSearch的分词插件ik的analysis
因为分词查询针对的是某一个字段,所以需要指定字段的analysis 这里我使用的是es5.5.2版本package com.ali.es.ik;import org.elasticsearch.action.admin.indices.create.CreateIndexResponse;import org.elasticsearch.action.admin.indices.m...
2019-11-22 19:12:06
1226
原创 Kafka Consumer均衡策略,消费者对应消费哪个分区
Kafka Consumer均衡算法如下图,有一个topic,这个tpoic的partition和他们所在的broker的图如下broker有两个 broker1 broker2总共有四个分区,按照哈希取模算法分配同一个消费者组中有6个消费者同一个消费者组中的消费者分别消费哪个分区?均衡算法1.A=(partition数量/同分组消费者总个数) 2.M=对上...
2019-11-17 11:57:36
1645
原创 java创建线程的三种方式与区别(看了包懂)
java创建线程的三种方式1.继承Thread类创建线程定义Thread类的子类,并重写该类的tun方法,该方法体就是线程需要完成的任务run方法也称线程执行体创建Thread子类的实例,也就是创建了线程对象启动线程,即调用线程的start() 方法class MyThread extends Thread{ public void run(){ //重...
2019-11-09 09:36:08
565
原创 硬盘分区
1.计算机硬盘实际容量要比标称容量小?硬盘实际容量计算公式 S=0.931*X硬盘厂商的标准:1GB=1,000MB、1MB=1,000KB、1KB=1,000byte操作系统的算法:1GB=1,024MB、1MB=1,024KB、1KB=1,024byte/////以40G为例硬盘厂商的标准:40GB=40000MB=40000000KB=40000000000byte...
2019-10-31 10:21:27
700
原创 sqoop常用参数详解与应用
Sqoop常用参数详解与应用Sqoop是一个Hadoop和关系型数据库的数据迁移工具(非关系型数据库不支持,hbase除外)官网: http://sqoop.apache.org/docs/1.4.7/SqoopUserGuide.html#_purposesqoop语句要求写到一行,多行时用\连接import 常用参数sqoop import … --null-string ‘...
2019-10-14 21:50:06
1039
原创 hive文件存储格式orc,parquet,avro对比
orc文件存储格式ORC文件也是以二进制方式列式存储的,所以是不可以直接读取,ORC文件也是自解析的,它包含许多的元数据,这些元数据都是同构ProtoBuffer进行序列化的。文件结构如下ORC文件:保存在文件系统上的普通二进制文件,一个ORC文件中可以包含多个stripe,每一个stripe包含多条记录,这些记录按照列进行独立存储,对应到Parquet中的row group的概念。文...
2019-10-13 19:02:37
3628
原创 拉链表
拉链表1.什么是拉链表拉链表是针对数据仓库设计中表存储数据的方式而定义的,顾名思义,所谓拉链,就是记录历史(某个粒度的一个状态)。记录一个事物从开始,一直到当前状态的所有变化的信息2.拉链表的使用场景有一些表的数据量很大,比如一张用户表,大约10亿条记录,50个字段,这种表,即使使用ORC压缩,单张表的存储也会超过100G,在HDFS使用双备份或者三备份的话就更大一些。表中的部分字...
2019-10-13 18:10:54
1587
1
原创 hive的内部表外部表区别
hive的内部表外部表区别在本地创建数据文件并put到hdfs中#a.txt10 1520 2530 35hdfs dfs -put ./a.txt /user/samplecreate table tt1(a int,b int)row format delimited fields terminated by '\t'location ...
2019-10-13 13:44:46
167
原创 git的安装与基础使用
1.git简介Git是一个免费的开源分布式版本控制系统,可以快速高效地处理从小型到大型的项目。Git很容易学习,占用的空间很小,但是性能非常好。它超越了像Subversion、CVS、Perforce和ClearCase这样的配置管理工具,具有像廉价的本地分支、方便的准备区域和多个工作流这样的特性。2.git的优势官方文档3.git的安装git-windows下载地址安装的过...
2019-10-05 13:03:03
170
原创 hue安装(maven、ant编译)
Centos6.8安装HUEHUE 在编译时有两种方式:1.通过maven、ant编译 2.通过python编译(在centos6.5因为自身python为2.6.6版本和hue编译需要2.7版本会有一点小冲 突,故采用1)两种方式都是在hue目录下 make apps,只是第一种方式要先配置maven、ant的环境 而已注意:不要使用root 用户安装准备安装环境Centos6.8...
2019-10-04 14:30:26
478
原创 解决linux安装jdk后 java -version版本不一致问题
修改/etc/profile将PATH中$ JAVA_HOME/bin移动到$PATH前面
2019-10-04 13:59:11
1029
1
原创 linux下python从2.6.6升级到2.7.5
python从2.6.6 升级到2.7.51.先确定自己装了wget 和 gccyum install wgetyum install gcc2.下载源码包wget https://www.python.org/ftp/python/2.7.5/Python-2.7.5.tgz3.解压下载的源码包 tar -zxvf Python-2.7.5.tgz -C./yuanma/ c...
2019-09-25 09:38:54
938
原创 flume组件详解与测试案例,安装
Flume概念:Flume是一种分布式、可靠且可用的服务,用于高效地收集、聚合和移动大量日志数据。它具有基于流数据流的简单灵活的体系结构。它具有健壮性和容错性,具有可调的可靠性机制和许多故障转移和恢复机制。它使用一个简单的可扩展数据模型,允许在线分析应用程序。架构:组件source:数据源组件,用于读取相应数据,并将数据传到channel中channel:管道,用于...
2019-09-22 11:35:45
1639
1
原创 hive的存储过程 hplsql配置
hive2.x自带hplsql如果用的hive1.x需要下载hplsql1.配置 hplsql-site.xml在hive的conf下新建 hplsql-site.xml 并添加以下内容<configuration><property> <name>hplsql.conn.default</name> <value&...
2019-09-22 10:36:17
1129
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人