- 博客(11)
- 收藏
- 关注
原创 一致性哈希
降低因hash动态扩容的代价,同时又负载均衡。虚拟节点解决hash的动态扩容负载不均衡的问题:为了避免出现数据倾斜问题,一致性 Hash 算法引入了虚拟节点的机制,也就是每个机器节点会进行多次哈希,最终每个机器节点在哈希环上会有多个虚拟节点存在,使用这种方式来大大削弱甚至避免数据倾斜问题。同时数据定位算法不变,只是多了一步虚拟节点到实际节点的映射,例如定位到“D1#1”、“D1#2”、“D1...
2020-03-31 23:24:50
190
原创 眼前的等不是等,你说的空是什么空 --- (equal 和 == && null 和““)
一、equal 和 ==:1、==:比较对象的地址和基本类型的值;2、Equals :Java 语言里的 equals方法是交给开发者去覆写的,让开发者自己去定义满足什么条件的两个Object是equal的。所以我们不能单纯的说equals到底比较的是什么。你想知道一个类的equals方法是什么意思就是要去看定义。如果没有对该方法进行覆盖的话,调用的仍然是Object类中的方法,而Obj...
2020-02-17 19:02:01
297
原创 hive中其它存储格式的数据导入
1、orc存储格式的表的创建create table if not exists test(name string,num double,born timestamp)row format delimitedfields terminated by ‘\t’stored as orctblproperties(“orc.compress” = “snappy”);压缩格式有两...
2019-12-24 15:24:03
353
原创 IDEA+maven搭建 scala开发环境
1、scala 的运行需要JVM,编译成字节码运行,所以需要jdk;2、搭建 scala开发环境具体步骤scala 插件安装:settings->plugins-scala项目SDKscala SDKproject structure->Global SDK->scala SDK->system …勾选【没有这个system download sc...
2019-12-20 16:23:22
361
原创 Ambari 2.0 + HDP-2.6.5.
1、Ambari 2.02018年11月为止最新的发布版本是 2.7.3作用:创建、管理、监视 Hadoop 的集群。简介:Ambari提供一个友好的交互入口来简化集群的安装和配置,轻松的操作即可完成配置,并提供维护和监控的功能2、Dashboard 集群仪表盘仪表盘包括:Metrics,Heatmaps,Config History选项卡Metrics 页面上,有多个小程序(widg...
2019-12-19 17:17:14
390
原创 hive库之间文件的互导
send方:找到所要导出的文件,get下来,并scp到同网段的其它主机节点下,就是receive方的机器上,路径自定义即可。data_loc> hadoop fs -get /apps/hive/warehouse/yuehehe.db/test_exchange_txt/*>scp * root@test-mg02:/opt/hive-data**在hive中新建数据...
2019-12-19 17:02:52
345
原创 win7+ cuda 10 + cudnn7 + tf2.0
1、下载CUDAcuDNN2、安装安装CUDA切记:若安装了360等安全软件,需要一直在看着点“允许运行”(安装选项全选保险)—没有安装Greforce,配置CUDA环境:Path:C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.0\bin...
2019-12-19 16:30:26
297
原创 两种降维方法原理:PCA和LDA
1、PCA(主成分分析)无监督降维技术,利用正交变换把由线性相关变量表示的观测数据转换为少数几个由线性无关变量表示的数据,线性无关的变量称为主成分。LDA选择的是投影后数据方差最大的方向。因此PCA假设方差越大,代表的信息量越大,使用主成分来表示原始数据可以去除冗余的维度,达到降维的目的。[----暂未了解----]2、LDA(线性判别分)有监督的,选择的是投影后类内方差小、类间方差大的...
2019-12-13 14:00:51
946
1
原创 cechealth--20190610
项目 and 大数据:上传文件命令 hdfs dfs || hadoop fs两种都可以crontab是脚本还是什么实现的: .sh脚本文件hive和传统数据库的不同:两者有本质的区别+。。。hbase里面的rowkey如何设计:hash散列hive和Hbase关联表的关键词:(下来查阅的)WITH SERDEPROPERTIES (“hbase.columns.mapping...
2019-06-11 18:18:14
379
原创 腾讯四川--20190530
大数据技术:hbase与mysql的区别hadoop读取数据还是什么的流程spark为什么快?应用场景 计算机网络:滑动窗口TCP udp三次握手 四次挥手OSITCP/IPJAVA设计模式点击页面中一个按钮没有反应 如何调试 linux:awk 文本格式化seq 以指定增量从首数开始打印数字到尾数 seq 5->1 2 3 4 5uniq 检查及删除文...
2019-06-11 18:15:54
262
5
原创 消消乐笔试--20190611记
##在线笔经##前天消消乐笔试,题目是接收输入的带空格的n个Int类型的数字,生成链表,再进行排序。输入如下代码即可,后台自动处理链表的生成,再使用insertionSortList函数进行排序。如果排序方法不是该名称,会报错提示。链表的声明不是ListNode,也会报错。node的两个字段也必须是next和val,别的不行。。。public static ListNode insert...
2019-06-11 18:05:21
1836
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人