自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 Hive三种去重方法,distinct,group by与ROW_Number()窗口函数

一、distinct,group by与ROW_Number()窗口函数使用方法1. Distinct用法:对select 后面所有字段去重,并不能只对一列去重。(1)当distinct应用到多个字段的时候,distinct必须放在开头,其应用的范围是其后面的所有字段,而不只是紧挨着它的一个字段,而且distinct只能放到所有字段的前面(2)distinct对NULL是不进行过滤的,...

2020-02-28 21:28:50 3111

原创 hadoop优化

0)HDFS小文件影响(1)影响NameNode的寿命,因为文件元数据存储在NameNode的内存中(2)影响计算引擎的任务数量,比如每个小的文件都会生成一个Map任务1)数据输入小文件处理:(1)合并小文件:对小文件进行归档(Har)、自定义Inputformat将小文件存储成SequenceFile文件。(2)采用ConbinFileInputFormat来作为输入,解决输...

2020-02-27 17:25:31 169

原创 mysql要点终极详解

事务四大特性原子性:不可分割的操作单元,事务中所有操作,要么全部成功;要么撤回到执行事务之前的状态 一致性:如果在执行事务之前数据库是一致的,那么在执行事务之后数据库也还是一致的; 隔离性:事务操作之间彼此独立和透明互不影响。事务独立运行。这通常使用锁来实现。一个事务处理后的结果,影响了其他事务,那么其他事务会撤回。事务的100%隔离,需要牺牲速度。 持久性:事务一旦提交,其结果就是永久...

2020-02-27 12:46:05 243

原创 hadoop生态之---sqoop导入数据导致精度丢失

精度丢失问题异常信息WARN hive.TableDefWriter: Column your_column had to be cast to a less precise type in Hive1描述:使用Sqoop,从MySQL往Hive中import数据的时候出现该异常。MySQL表中,对应的列的类型为decimal(10,2)。Sqoop会把它转为Hive的double...

2020-02-26 22:02:57 943

原创 spark部署方式之client 和cluster的区别

在使用spark-submit提交Spark任务一般有以下参数:./bin/spark-submit \ --class <main-class> \ --master <master-url> \ --deploy-mode <deploy-mode> \ --conf <key>=<value> \ ... ...

2020-02-26 21:59:23 5935

原创 hadoop HA 实现原理

在hadoop 1.x版本中,是没有ha的实现方式的,它只有可以看做是冷备份的Secondary NameNode来起到冷备份的作用的,当NameNode挂掉的时候,我们需要手工启动Secondary NameNode。那么为什么Secondary NameNode能够这样做,是因为SNN能够帮助NN做一些检查点的工作,会同步编辑日志和镜像文件,所以可以起到冷备的作用。在1.x版本中,当...

2020-02-25 23:44:17 199

原创 SecondaryNameNode工作原理

一、SecondaryNameNode用途  SNN是用来保存namenode中对HDFS metadata的信息的备份,并减少namenode重启的时间,SNN进程默认运行在 namenode 机器上,如果这台机器出错,宕机,对恢复HDFS文件系统是很大的灾难,因此最佳方式是将SNN进程配置在另外一台机器上运行。  在hadoop中,namenode负责对HDFS的metadata的持久...

2020-02-25 23:43:17 3051

原创 Spark 中 Partition,Task,core,Executor的个数决定因素和关系

分区(Partition)数我们都知道一个 RDD 中有多个 Partition,Partition 是 Spark RDD 计算的最小单元,决定了计算的并发度。分区数如果远小于集群可用的 CPU 数,不利于发挥 Spark 的性能,还容易导致数据倾斜等问题。分区数如果远大于集群可用的 CPU 数,会导致资源分配的时间过长,从而影响性能。那么,Partition 的数量是由什么决定的呢?...

2020-02-08 00:10:16 9837

原创 vue-cli run build 后 背景图片 css background:url('path') 加载问题

1、在webpack.prod.conf.js文件里output里面添加:publicPath:'./'2、在utils.js文件里添加 publicPath:'../../'3、在config/index.js文件里,添加assetsPublicPath:'./'run build 之后 图片 正常显示 成功! ...

2018-10-31 10:40:35 846

原创 深入理解 Javascript Prototype 原型继承

什么是prototype:js对象定义函数对象中有一个prototype属性,prototype属性又指向了一个prototype对象,注意prototype属性与prototype对象是两个不同的东西,要注意区别。在prototype对象中又有一个constructor属性,这个constructor属性同样指向一个constructor对象,而这个constructor对象恰恰就是这个fu...

2018-10-25 12:56:07 182

原创 javascript中的require、import和export

为什么有模块概念理想情况下,开发者只需要实现核心的业务逻辑,其他都可以加载别人已经写好的模块。但是,Javascript不是一种模块化编程语言,在es6以前,它是不支持”类”(class),所以也就没有”模块”(module)了。require时代Javascript社区做了很多努力,在现有的运行环境中,实现”模块”的效果。原始写法模块就是实现特定功能的一组方法。只要把不同的函数(以及记录状态的变...

2018-06-27 11:13:10 172

原创 微信小程序判断分享的是群还是好友

最近比较流行的答题小程序通常会有这么一个功能,分享到群增加答题次数,分享到好友无效,那么问题来了,我们如何能够判断用户分享到的是群还是好友呢?通过查找API文档我发现会有这个一个东西withShareTicket 通过这个来判断是否分享到的是群还是好友,想要获取到这个需要这onShow方法里填加一个东西[javascript] view plain copy//设置分享获取shareTicket ...

2018-06-26 11:00:38 456

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除