
大数据
坏孩子充电自习室
这个作者很懒,什么都没留下…
展开
-
hive 元数据表理解
添加链接描述整体代码分析和详解原创 2021-12-22 20:18:27 · 874 阅读 · 0 评论 -
自动格式化SQL工具推荐-SqlBeautifie
12原创 2021-12-09 11:18:40 · 1280 阅读 · 0 评论 -
Hive基本操作语句
添加链接描述原创 2021-12-08 19:28:26 · 670 阅读 · 0 评论 -
Mac系统安装JDK1.8及环境变量配置
添加链接描述原创 2021-12-08 14:29:50 · 640 阅读 · 0 评论 -
Hive基本操作语句
添加链接描述原创 2021-12-08 14:24:53 · 144 阅读 · 0 评论 -
大数据技术之_Spark及内核优化 尚*谷3.0.0
尚硅谷大数据技术之 Spark 优化版本:V3.0作者:尚硅谷大数据研发部第 1 章 Spark 性能调优1.1常规性能调优1.1.1常规性能调优一:最优资源配置Spark 性能调优的第一步,就是为任务分配更多的资源,在一定范围内,增加资源的分配与性能的提升是成正比的,实现了最优的资源配置后,在此基础上再考虑进行后面论述的性能调优策略。资源的分配在使用脚本提交 Spark 任务时进行指定,标准的 Spark 任务提交脚本如下所示:可以进行分配的资源如表所示:名称 说明–num-execu原创 2021-10-21 21:43:08 · 411 阅读 · 0 评论 -
hadoop2.0 3.0的区别
在这篇文章中,我们将讨论Hadoop 2.x与Hadoop 3.x之间的比较。 Hadoop3版本中添加了哪些新功能,Hadoop3中兼容的Hadoop 2程序,Hadoop 2和Hadoop 3有什么区别? 我们希望Hadoop 2和Hadoop 3之间的这个功能的区别将帮助回答上述问题。大数据Hadoop2.x与Hadoop3.x相比较有哪些变化Hadoop 2.x与Hadoop 3.x之间的功能比较本节将讲述Hadoop 2.x与Hadoop 3.x之间的22个差异。 现在让我们逐一讨论1.L转载 2021-08-09 17:14:47 · 3042 阅读 · 0 评论 -
大据数技术之高频面试题8.0.9
尚硅谷大数据技术之高频面试题(作者:尚硅谷大数据研发部)版本:V8.0尚硅谷大数据研发部目录第1章 项目涉及技术 121.1 Linux&Shell 121.1.1 Linux常用高级命令 121.1.2 Shell常用工具及写过的脚本 121.1.3 Shell中提交了一个脚本,进程号已经不知道了,但是需要kill掉这个进程,怎么操作? 121.1.4 Shell中单引号和双引号区别 121.2 Hadoop 131.2.1 Hadoop常用端口号 131.2.2 Had原创 2021-08-05 09:15:05 · 34897 阅读 · 3 评论 -
spark调优面试专题
1.1、介绍一下join操作优化经验?答:join其实常见的就分为两类: map-side join 和 reduce-side join。当大表和小表join时, 用map- side join能显著提高效率。将多份数据进行关联是数据处理过程中非常普遍的用法,不过 在分布式计算系统中,这个问题往往会变的非常麻烦,因为框架提供的 join 操作一般会将所有数 据根据 key 发送到所有的 reduce 分区中去,也就是 shuffle 的过程。造成大量的网络以及磁盘 IO消耗,运行效率极其低下,这个过程一原创 2021-08-05 09:13:10 · 710 阅读 · 0 评论 -
spark core面试专题
1.Spark是什么?Spark是大数据的调度,监控和分配引擎。它是一个快速通用的集群计算平台.Spark扩展了流行的MapReduce模型.Spark提供的主要功能之一就是能够在内存中运行计算 ,但对于在磁盘上运行的复杂应用程序,系统也比MapReduce更有效。2.解释Spark的主要功能?多语言速度多格式支持延迟执行实时计算Hadoop集成机器学习多语言:Spark提供Java,Scala,Python和R中的高级API .Spark代码可以用这四种语言中的任何一种编写。 它为Sc原创 2021-08-05 09:12:38 · 691 阅读 · 1 评论 -
zookeeper面试专题
1.ZooKeeper 是什么?ZooKeeper 是一个分布式的,开放源码的分布式应用程序协调服务,是 Google 的 Chubby 一个开源的实现, 它是集群的管理者,监视着集群中各个节点的状态根据节点提交的反馈进行下一步合理操作。最终,将简单易 用的接口和性能高效、功能稳定的系统提供给用户。客户端的读请求可以被集群中的任意一台机器处理,如果读请求在节点上注册了监听器,这个监听器也是由所 连接的 zookeeper 机器来处理。对于写请求,这些请求会同时发给其他zookeeper 机器并原创 2021-08-05 09:11:50 · 122 阅读 · 0 评论 -
Yarn面试专题
1.什么是YARN?与Hadoop类似,YARN是Spark的主要功能之一,提供了一个中央资源管理平台,可在整个群集中提 供可扩展的操作。 YARN是一个分布式容器管理器,例如Mesos,而Spark是一个数据处理工具。Spark可以在YARN上运行,就像Hadoop Map Reduce可以在YARN上运行一样。2.FIFO 调度模式的基本原理、优点和缺点?基本原理:按照先后顺序决定资源的使用,资源优先满足最先来的 job。第一个 job 优先获 取所有可用的资源,接下来第二个 job 再获取剩余原创 2021-08-05 09:10:06 · 194 阅读 · 0 评论 -
MapReduce常见面试题
1.MR程序运行的时候会有什么比较常见的问题?比如说作业中大部分都完成了,但是总有几个reduce一直在运行。这是因为这几个reduce中的处理的数据要远远大于其他的reduce,可能是对键值对任务划分的不均匀 造成的数据倾斜。解决的方法可以在分区的时候重新定义分区规则对于value数据很多的key可以进行拆分、均匀打散等处 理,或者是在map端的combiner中进行数据预处理的操作。2.简答说一下hadoop的map-reduce编程模型首先map task会从本地文件系统读取数据,转换成ke原创 2021-08-05 09:09:30 · 547 阅读 · 0 评论 -
HBase常见面试题
1.HBase简单读写流程?读:找到要读数据的region所在的RegionServer,然后按照以下顺序进行读取:先去BlockCache读取,若BlockCache没有,则到Memstore读取,若Memstore中没有,则到HFile中去读。写:找到要写数据的region所在的RegionServer,然后先将数据写到WAL(Write-Ahead Logging,预写日志系统)中,然后再将数据写到Memstore等待刷新,回复客户端写入完成。2.简述 HBase 的瓶颈HBase 的瓶原创 2021-08-05 09:08:51 · 3475 阅读 · 2 评论 -
HDFS常见面试题
1.介绍parition和block有什么关联关系?答: 1)hdfs中的block是分布式存储的最小单元,等分,可设置冗余,这样设计有一部分磁盘空 间的浪费,但是整齐的block大小,便于快速找到、读取对应的内容;2)Spark中的partion是弹 性分布式数据集RDD的最小单元,RDD是由分布在各个节点上的partion组成的。partion是指的 spark在计算过程中,生成的数据在计算空间内最小单元,同一份数据(RDD) 的partion大小不 一,数量不定,是根据application里原创 2021-08-05 09:08:04 · 836 阅读 · 0 评论 -
计算机相关面试题整理
计算机网络常见面试题https://blog.youkuaiyun.com/justloveyou_/article/details/78303617操作系统常见面试题https://blog.youkuaiyun.com/justloveyou_/article/details/78304294?spm=1001.2014.3001.5501数据库常见面试题总结https://blog.youkuaiyun.com/justloveyou_/article/details/78308460?spm=1001.2014.3001.5原创 2021-08-01 22:43:06 · 133 阅读 · 0 评论 -
面试技巧自我介绍大全
面试技巧自我介绉大全问:我想要一些有关亍面试技巧自我介绉范文,最好是能够涉及到 IT 面试的,也附带一些自我评价和自我陈述的范文答:面试技巧自我介绉宝典当面试考官随便地间你:“谈谈你自己的情况如何?”这是面试中的第一个问题。此刻,你应把在此之前所有紧张丌安的情绪稳定下来。因为这个问题,应试者已绊做了充分的准备,幵丏有足够的信心和勇气相信自己能回答好这个问题。1、自我介绉的内容首先请报出自己的姓名和身仹。可能应试者不面试考官打招呼时,已绊将此告诉了对斱,而丏考官们完全可以仍你的报名表、简原创 2021-07-01 17:36:48 · 1299 阅读 · 0 评论 -
教你如何出色完成面试
面试技巧在求职面试过程中有重要的作用,现就面试技巧中的面试原则和面试积极因素展开分析。面试原则面试是你整个求职过程中最重要的阶段。 成败均决定于你面试时的短短一瞬间的表现。 每个人都能够学会怎么出色地面试,而且绝大多数的错误都可以预期并且避免,下面这24条提示将给你带来成功的契机。1、带多几份简历前往面试,没有比当被要求提供多一份简历而你却没有更能显示你缺乏准备的事了。 带多几份简历,面试你的人可能不止一个,预先料到这一点并准备好会显得你做事正规、细致。2、留心你自己的身体语言,尽量显得精警、有活力原创 2021-07-01 17:35:17 · 125 阅读 · 0 评论 -
应届毕业生 求职面试宝典
目 录应届毕业生面试之常识篇——基本礼仪 3应届毕业生面试之模拟面试 4面试准备——“全面备战”(1) 6面试准备——“全面备战”(2) 9面试时的十大绝对“不能说” 14应届毕业生求职之常识篇——识别陷阱 15应聘者经常遇到的面试考题 17求职常识篇——面试礼仪案例分析 21知名企业考量人才的五大指标 29国企与外企的面试策略解析 30面试题的错误回答与分析 34知名企业面试“侦察” 35Intel独特的招聘面试制度 37面试礼仪最模范套路 41女性外企面试常识 43女生原创 2021-07-01 17:34:18 · 1636 阅读 · 0 评论 -
面试技巧和注意事项
1、基本注意事项(1)要谦虚谨慎。面试和面谈的区别之一就是面试时对方往往是多数人,其中不乏专家、学者,求职者在回答一些比较有深度的问题时,切不可不懂装懂,不明白的地方就要虚心请教或坦白说不懂,这样才会给用人单位留下诚实的好印象。(2)要机智应变。当求职者一人面对众多考官时,心理压力很大,面试的成败大多取决于求职者是否能机智果断,随机应变,能当场把自己的各种聪明才智发挥出来。首先,要注意分析面试类型,如果是主导式,你就应该把目标集中投向主考官,认真礼貌地回答问题;如果是答辩式,你则应把目光投向提原创 2021-07-01 17:32:06 · 749 阅读 · 0 评论 -
Git&GitHub
1 版本控制工具应该具备的功能 协同修改 多人并行不悖的修改服务器端的同一个文件。 数据备份 不仅保存目录和文件的当前状态,还能够保存每一个提交过的历史状态。 版本管理 在保存每一个版本的文件信息的时候要做到不保存重复数据,以节约存储空 间,提高运行效率。这方面 SVN 采用的是增量式管理的方式,而 Git 采取了文 件系统快照的方式。 权限控制 对团队中参与开发的人员进行权限控制。 对团队外开发者贡献的代码进行审核——Git 独有。 历史记录 查看修改人、修改时原创 2021-07-01 17:30:36 · 138 阅读 · 0 评论 -
大数据技术之 Flume
为什么选用FlumePython爬虫数据Java后台日志数据服务器本地磁盘文件夹 HDFSFlumeFlume最主要的作用就是,实时读取服务器本地磁盘的数据,将数据写入到HDFS。网络端口数据 Kafka版本:V2.1第 1 章 Flume 概述1.1 Flume 定义Flume 是 Cloudera 提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume 基于流式架构,灵活简单。1.2 Flume 基础架构Flume 组成架构如图 1-1 所示:尚硅原创 2021-07-01 17:29:13 · 356 阅读 · 0 评论 -
大学生求职面试技巧
高校毕业生能否顺利就业,找到一个理想的工作岗位,除了取决于毕业生自身的素质、条件和社会因素外,掌握求拿着简历回答问题。若接电话时正好手边有简历,记住一定要把它拿出来,对照着回答问题。一般来说,面试方会进行常规的简历信息核实。对于一些跳槽多次、工作经验复杂的求职者,对照着简历可以避免错报数次以及跳槽时间等内容,免得留下“不诚实”的印象。职面试的技巧有时显得非常重要。它往往能起到事半功倍的效果,使毕业生在求职择业的过程中少走弯路。笔者根据多年从事毕业生就业指导工作的经验,就毕业生求职面试的技巧谈几点想法。基本原创 2021-06-30 22:33:08 · 1089 阅读 · 0 评论 -
大数据技术之Zookeeper
版本:V2.0第1章 Zookeeper入门1.1 概述Zookeeper是一个开源的分布式的,为分布式应用提供协调服务的Apache项目。1.2 特点1.3 数据结构1.4 应用场景提供的服务包括:统一命名服务、统一配置管理、统一集群管理、服务器节点动态上下线、软负载均衡等。1.5 下载地址1.官网首页:https://zookeeper.apache.org/2.下载截图,如图5-5,5-6,5-7所示图5-5 Zookeeper下载(一)图5-6 Zookeeper下载(原创 2021-06-30 22:14:16 · 153 阅读 · 3 评论 -
大数据技术之 Azkaban
尚硅谷大数据技术之 Azkaban—————————————————————————————更多 Java –大数据 –前端 –python 人工智能资料下载,可百度访问:尚硅谷官网尚硅谷大数据技术之 Azkaban(作者:尚硅谷大数据研发部)版本:V3.0一 概述1.1 什么是 AzkabanAzkaban 是由 Linkedin 公司推出的一个批量工作流任务调度器,主要用于在一个工作流内以一个特定的顺序运行一组工作和流程,它的配置是通过简单的 key:value 对的方式,通过配置中原创 2021-06-30 22:08:22 · 778 阅读 · 0 评论 -
IntelliJ IDEA 的安装、配置与使用
IntelliJ IDEA 的安装、配置与使用IntelliJ IDEA 的安装、配置与使用尚硅谷 Java 研究院-宋红康www.atguigu.com一、IntelliJ IDEA 介绍 – Eclipse IBM1.JetBrains 公司介绍IDEA(https://www.jetbrains.com/idea/)是 JetBrains 公司的产品,公司旗下还有其它产品,比如: WebStorm:用于开发 JavaScript、HTML5、CSS3 等前端技术; PyCharm原创 2021-06-30 22:06:50 · 2262 阅读 · 0 评论 -
jedis异常:Could not get a resource from the pool
前几天公司后端系统出现了故障,导致app多个功能无法使用,查看日志,发现日志出现较多的redis.clients.jedis.exceptions.JedisConnectionException: Could not get a resource from the pool的异常信息,显而易见,jedis/redis出现了问题。因为是connection的相关的问题,所以看了一下jedis和连接数相关的配置项,maxIdle和maxTotal都是200,jedis的封装也在finally中释放了conne原创 2021-06-22 21:09:46 · 1250 阅读 · 0 评论 -
解决:superset db upgrade时报错:ModuleNotFoundError: No module named ‘dataclasses‘
添加链接描述原创 2021-06-05 20:23:43 · 1201 阅读 · 0 评论 -
IDEA:当右键运行时出现了Run Scala console,而没有run操作的原因
添加链接描述把定义的class 直接改成Object 就可以了原创 2021-05-20 10:54:58 · 549 阅读 · 0 评论 -
Failure to find com.atguiguXX:jar:1.0 in http://maven.aliyun.com..was cached in the local repositor
添加链接描述多模块化工程。某一个模块依赖另一个模块,那个模块没有install。解决方式是,依赖的模块进行 mvn clean install 就行了。原创 2021-05-14 17:56:26 · 1517 阅读 · 0 评论 -
HBase的log4j.properties的配置文件内容
# Licensed to the Apache Software Foundation (ASF) under one# or more contributor license agreements. See the NOTICE file# distributed with this work for additional information# regarding copyright ownership. The ASF licenses this file# to you under原创 2021-05-13 12:06:29 · 759 阅读 · 0 评论 -
scala-intellij-bin-xxxx.x.xx各个版本的下载地址
添加链接描述原创 2021-04-17 09:37:30 · 3231 阅读 · 0 评论 -
Centos7 Ganglia快速安装教程
转载 2021-04-09 09:47:33 · 253 阅读 · 0 评论 -
telnet命令找不到 CentOS7
添加链接描述原创 2021-04-07 16:10:22 · 270 阅读 · 0 评论 -
Exception in thread “SinkRunner-PollingRunner-DefaultSinkProcessor“ java.lan
添加链接描述原创 2021-04-07 12:30:29 · 824 阅读 · 0 评论 -
SLF4J: Class path contains multiple SLF4J bindings. SLF4J: Found binding in [jar:file:/opt/module/fl
添加链接描述原创 2021-04-07 12:29:40 · 766 阅读 · 0 评论 -
Axure学习笔记整理2-Banner轮播图制作(包括自动轮播及手动轮播
添加链接描述原创 2021-04-01 09:19:07 · 158 阅读 · 0 评论 -
sublime怎么把\t换成四个空格
添加链接描述原创 2021-03-30 10:11:18 · 497 阅读 · 0 评论 -
2021-03-29
添加链接描述去看这个链接的评论,有解决方案:我刚试了下按着win键去点击启动,结果进去了,你们也可以先试试这种方式,我想这种方式应该是给他管理员权限原创 2021-03-29 08:11:25 · 121 阅读 · 0 评论 -
Could not open client transport with JDBC Uri: jdbc:hive2://hadoop102:10000: java.net.ConnectExcepti
添加链接描述原创 2021-03-28 10:42:15 · 1754 阅读 · 0 评论