- 博客(21)
- 收藏
- 关注

原创 HIve,Spark性能优化
HIve,Spark性能优化HIve 性能优化一:map阶段的优化:主要是控制hive任务中的map数量,确定合适的map数,以及每个map处理的合适的数据量1.适当减少map数的情况:当任务中有许多的小文件,产生很多map,一个map任务的启动时间和初始化时间远远大于逻辑处理的事件,造成资源的浪费。合并方法如下:set mapred.max.split.size=100000000;/...
2019-09-22 10:15:36
1338
1

原创 Spark数据倾斜和Hive数据倾斜理解
Spark数据倾斜和Hive数据倾斜理解Spark数据倾斜出现的现象,原因,方案现象:单个或者某几个task拖延整个任务运行时间,导致整体耗时过大单个task处理数据过多,很容易导致oom原因:(1)数据的问题:本身Key的分布不均,这里面含有null值,无效数据,有效数据解决的方案是对前两点可以直接对数据过滤;对有效数据可以进行隔离操作,将异常的key单独处理,处理好后和正常数...
2019-09-21 14:10:52
988

原创 Hbase基本理念和与RDBM之间的导入导出合集
HbaseNoSQL not only sql 非关系型数据库与sql对比优势:数据激增,传统数据库分表分库难以维护数据存在关系型数据库,不可切割,而nosql存储数据之间没有依赖的关系nosql高并发读写,每秒万次读写请求。横向扩展性,即增加硬件,提高性能。灵活的数据模型考虑之处:nosql没有强事务的要求,对于要求一致性的情况下,使用sql更...
2019-07-27 10:27:29
263

原创 Hadoop 知识梳理
Hadoop 知识梳理hadoop是什么 由于现在生活中每天甚至每时每秒都产生海量的数据,普通的存储和计算已经不足以完成任务,需要操作 管理和分析。(1) 集群 分功能处理(2) 海量数据存储(专人处理)目录(3) 统计计算(4)hadoop框架(工具)hadoop的4v原则volumn 体量大velocity 速度快variaty 样式多va...
2019-07-18 20:10:31
121

原创 [Linux]基本命令整理合集
1.通常使用的是Ubantu.RedHad.Centos.SuSE初识linux/bin: 通常放系统文件按/sbin 通常放管理命令/root: 超级用户主目录/lib: 存放程序运行的动态链接库/etc: 配置文件和子目录/usr: 存放用户应用程序和目录/boot:存放启动linux的核心文件/tmp:存放临时文件/dev: 存放设备存储器/opt: ...
2019-06-30 11:48:18
110

原创 Hadoop3.x版本安装及其应用部署
** 需要准备的:**1. JDK 2. 多台计算机3. 实现无密登录 4.解压hadoop3.1.2tar -zxvf hadoop3.1.2.tar.gz /usr/soft/5.删除帮助文档 rm -rf /usr/soft/hadoop-3.1.2/share/doc6.修改hadoop-env.shexport JAVA_HOME=/usr/sof...
2019-06-30 11:12:54
364

原创 [Linux]各用户利用SSH实现无密登录
1.分别设置各系统用户名hostnamectl set-hostname setname在hosts里面更改vi /etc/hosts IP地址1 setname1IP地址 2 setname2rm -rf /root/.ssh 不知道现在什么步骤的情况下或者出现错误的的情况下ssh-keygen -t rsa 各用户之间同时生成公私钥scp id_rsa.pub root...
2019-06-30 10:53:41
87

原创 [Linux] 各种简单安装环境配置合集
Linux大数据学习必备技能包(一):查看文件命令:rpm -qa | grep +文件名删除文件命令:rpm -e --nodeps +文件名解压jdk压缩包命令:tar -zxvf +jdk压缩包文件名查看java版本命令:java -version进入指定目录命令cd +文件路径返回上级目录命令cd…防火墙...
2019-06-26 19:22:01
204
原创 VMware与主机共享文件(虚拟机为windows10)
3 在虚拟机里创建一个快捷方式: 键入 \vmware-host\Shared Folders\Share。1 首先在本机新建一个文件夹,用于存放共享文件,我的路径为:E:\VMware\Share。2 打开VMware,打开菜单栏的“虚拟机——设置”,
2024-01-17 10:33:12
913
1
原创 docker 搭建nodered 测试环境
--------------------------------------以上----------------------------------------------------------------------实现nodered的持久化--------------------------/bin/bash 是bash的一种命令方式。-it 是终端交互。docker 进入容器。
2023-08-17 10:52:38
310
1
原创 彻底删除文件夹以及文件的解决办法
彻底删除文件夹以及文件的解决方案(接近两小时删除)闲来无事,自己的电脑较久没用,打开电脑就是弹出广告,强迫症就必须要找到广告都是从哪里来的,哦嚯,首先发现我的电脑里安装了其他软件,原来是女朋友想下载什么软件结果绑定了一些乱七八糟的其他软件,强迫症开始了…卸载软件后来安装的软件全部卸载,如果安装了什么360,管家之类的可以先删除一些,把什么注册表啊,残留的垃圾先删除删除,当然我没有使用软件管家的习惯,于是自己就操作了。打开控制面板选择程序和功能没见过的软件就先删除删除。删除的时候注意看下有没有保
2020-05-10 13:34:36
818
1
原创 Hive函数
Hive插入(装载)数据数据在本地或者hdfs中 load data [local] inpath 'pathname' [overwrite] into table tablename [partition(column=xxx)]insert 方法: insert方法:insert into tablename select xx,xx,xxx,xxx,[union...
2019-09-25 12:27:08
362
原创 ElasticSearch技能包
ES的起源解决传统数据库的问题无法存储海量数据比如PB级别非结构化数据如何存放相关匹配查询问题和Lucene的关系基于lucene,为了解决lucene需要开发和集成以及还需要了解原理的问题,通过RESTful api来隐藏复杂性,让全文检变的简单{ "settings":{ "number_of_shards":5 }, "mappings"...
2019-09-21 14:54:20
147
原创 Hadoop生态圈原理
Hadoop生态圈原理整理Hadoop主要架构:HDFS,Mapreduce,YarnHdfs功能组件 namenode作用:1.管理文件目录结构 fsimage和Edits 2.管理数据节点Datanode DataNode的作用:具体存储数据的节点 SecondaryNamenode的作用:辅助生成目录镜像,定期加载fsimage和Edits合成新的fsimage返回name...
2019-09-21 14:39:11
427
1
原创 Mapreduce,hive,spark实现Wordcount
实现worldcount在给定的文件中,统计输出每一个单词出现的次数mapreduce:need jar : log4j-core ,junit, hadoop-common ,hadoop-client,hadoop-hdfs- - WCdriver类 psvm //创建Job实例来提供默认配置 Configuration con = new Configu...
2019-09-21 14:13:38
423
原创 spark sql操作hive sql 和mysql
spark sql访问hive 和 mysql(不断更新) 一,准备工作:1,添加mysql的驱动jar包。将mysql-connector-java-5.0.6-bin.jar 添加到 SPARK_HOME/lib/目录下.将$HIVE_HOME/lib下的mysql-connector-java-5.1.27.jar复制到~/software文件夹下 (这一步是为了spark...
2019-08-10 18:08:40
744
原创 Hdoop小结和worldcount梳理
Hdoop4V特征Volume 大数据量Velocity(速度快)Variety(多样化)Value(价值密度低)Hadoop三大发行版本Apache Clodera HortonworksHadoop组成在Hadoop1.x时代,Hadoop中的MapReduce同时处理业务逻辑运算和资源的调度,耦合性较大。在Hadoop2.x时代,增加了Yarn。Yarn只负责...
2019-07-27 08:31:28
152
原创 Hive函数(基本使用)
Hive插入(装载)数据数据在本地或者hdfs中:load data [local] inpath ‘pathname’ [overwrite] into table tablename [partition(column=xxx)]insert方法:insert into tablename select xx,xx,xxx,xxx,[union all] select xxx...
2019-07-27 08:30:25
717
Aloha 3.12.1.323071-armeabi-v7a_lan-sha.com.apk
2023-02-09
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人