- 博客(26)
- 收藏
- 关注
原创 HBase学习笔记(四)-案例
大量数据保存,尤其是面向读取会少,写比较多的场景。要存储这样海量的数据,Hbase就非常合适,Hbase适合存储写多读少的数据。通过本案例学习1、Hbase的表设计,Hbase预分区,Rowkey设计;2、Hbase调优;4、分页查询;5数据接口开发。
2023-03-21 00:26:14
583
1
原创 HBase学习笔记(四)-Hbase架构
全称Write Ahead Log,最大作用就是故障恢复,高并发持久化日志保存与回访,每个业务数据操作都会保存在WAL中,一旦服务器崩溃,就可实现回复之前崩溃的数据(MemStore中的数据)与Store增加一层缓存,数据优先写入MemStore,提升速度,与缓存类似,在内存操作每个列簇都有一个MemStore,当要满的时候,刷入磁盘HDFS的Hfile。在Hbase中,表被划分很多Region,一个Region存储表的一部分数据,由RegionServer提供服务。中的shell客户端(Ruby。
2023-03-13 23:51:21
208
原创 HBase学习笔记(三)
本篇笔记主要记录了学习Hbase利用java API进行表和数据的操作,另外搭建了Hbase高可用集群,只有一个Master,一旦master出现故障,hbase将不再可用。
2023-03-12 22:45:06
517
原创 HBase学习笔记(二)
主要有利用HBase的shell命令进行Hbase数据库的操作,其实是调用Ruby的方法。Ruby客户端调用Java编写的Hbase的API
2023-03-08 00:23:40
427
原创 HBase学习笔记(一)
HBase是BigTable的开源Java版本。是建立在HDFS之上,提供高可靠性、高性能、列存储、可伸缩,实时读写NoSQL的数据库系统。
2023-03-03 00:39:24
557
1
原创 大数据学习笔记-Yarn(二)
本文主要学习了Yarn WebUI服务、YARN操作维护命令、YARN资源管理与隔离、YARN资源调度器Scheduler、YARN核心配置参数等内容
2023-02-19 23:45:56
784
原创 大数据学习笔记-Yarn(一)
数据、程序、运算资源三者组合在一起,才能完成数据的处理,单机不存在问题,但是分布式环境如何协调是一个问题。Hadoop早期用户使用Hadoop与众多主机上运行的桌面程序类似:在少了几个节点上建立一个集群、将数据载入HDFS、运行mapreduceAd hoc集群以单用户的方式建立,随着私人集群的使用实现了HDFS集群的共享,不同于HDFS,共享mapreduce非常困难。HOD集群解决;额集群条件下多租户的问题yahoo发展部署了Hadoop on Demand平台。
2023-01-07 22:12:49
438
原创 大数据学习笔记-MapReduce(二) 深度
深度了解MapReduce运行流程,通过案例全面了解MR运行过程、涉及的组件、设计的思想。对MapReduce Partition、 Mapreduce Combiner、MapReduce编程技巧掌握,对自定义对象、序列化、排序、分区、分组的实现熟练掌握,掌握MapReduce并行度机制、工作流程和shuffle的机制。
2023-01-02 20:13:59
516
原创 SpringBoot开启测试用例
测试是软件质量保证的最佳办法,也是程序交付的最终环节,测试是一门学科,关于测试的方法有很多,在理论层面有黑河测试、白盒测试,在操作指导方面有边界值测试等等相关方法。相关的文章和书籍汗牛充栋,不胜枚举。由于本人不是专门的测试工程师,在此不做过多赘述。当前SpringBoot自动装配式框架使用非常广泛,但是初级程序员对于使用过程中的测试方法没有充分运用SpringBoot提供的便利,往往对于DAO和Service层的测试等controller编写完成后,通过swagger、postman等工具测试
2022-12-03 23:06:04
2374
原创 大数据学习笔记-MapReduce(一) 入门基础理论
MapReduce是Hadoop中生态圈重要组件,目前该组件随退到二线,但是其思想依然是很多框架的来源
2022-11-29 12:13:20
1044
原创 大数据学习笔记-HDFS(四)——HDFS架构
Hadoop Distribute File System,Hadoop分布式文件系统,HDFS是Hadoop核心组件之一,作为生态圈最底层的分布式服务而存在。HDFS解决的问题就是大数据如何存储。架构图:主从架构(master/slave)。通常包含一个主节点和多个从节点。主节点存储和管理namespace,即文件块、位置、权限、大小、其实地址等等,从节点存储文件数据块。
2022-11-27 00:59:52
2046
原创 大数据学习笔记-HDFS(三)——集群管理运维
目录1、HDFS数据迁移解决方案1.1 迁移方案 ——数据迁移的使用场景和考量因素1.2分布式拷贝工具: DistCp的使用2、HDFS NameNode安全模式3、HDFS高阶优化方案3.1短路本地读取short circuit local reads3.2负载均衡、磁盘均衡器、纠删码存储4、HDFS动态节点管理4.1 俗称动态扩容、节点服役4.2 节点下线、5、HDFS HA(高可用)机制5.1 HA引入5.2 HA系统的核心问题
2022-11-26 00:01:46
1807
原创 Hadoop集群搭建安装教程(续集)高可用(HA)
针对Hadoop集群的高可用环境,研究搭建方式,根据相关资料和教程以及自己实际操作,整理步骤如下。
2022-11-25 23:09:47
433
原创 大数据学习笔记-HDFS(二)——数据存储与数据管理
WebHDFS客户端 提供了访问Restful接口,内置组件,默认开启,使集群外的客户端不用安装Hadoop和java,即可访问,不受语言限制。
2022-11-23 20:46:27
832
原创 大数据学习笔记-HDFS(一)
Hadoop Distributed File System,意为Hadoop分布文件存储系统,是Hadoop和核心组件之一,作为大数据生态圈最底层的分布式存储服务而存在,之解决存储问题,不解决计算和分析。解决大数据如何存储的问题,横跨在多台机器上(可以是普通的廉价的已有的计算机)高容错,适用于大数据集存储提供统一的访问接口。
2022-11-21 22:48:29
1602
原创 Hadoop集群搭建安装教程(详细完整)
Hadoop是Apache旗下的一个用java语言实现开源软件框架,是一个开发和运行处理大规模数据的软件平台。
2022-11-21 02:01:59
3134
原创 Linux 常用命令
cd /opt/s #一次table可以自动补全目录内容,前提是/opt目录下只有一个s开头的目录。其他用户: itcast 既不是文件创建者,也和文件创建者不在同一组。2、 mv 目录1 目录2 #将目录1移动到目录2下面(前提是目录2必须存在)cd /opt/ #两次table可以列出/opt目录下所有的文件和子目录。1、mv 文件1 文件2 #给文件重命名(文件2不能存在)1、mv 文件 目录 #将文件移动到目录中区。这个命令既可以删除文件,也可以删除目录。
2022-11-13 18:16:25
668
原创 docker学习内容(1)-介绍与安装
Docker 项目的目标是实现轻量级的操作系统虚拟化解决方案。Docker 的基础是 Linux 容器(LXC)等技术。
2022-11-08 21:01:35
261
原创 git命令总结
git init #创建git本地库git add readme.txt #添加git管理的文件,文件名readme.txt,可以用git add *git commit -m "wrote a readme file" #提交添已经加管理的文件,-m是注释,带注释为了方便后续的查看git status # 当前状态,是否有未提交的文件等信息git log #查看提交版本的每一次的记录git reset --hard HEAD^ #回退到上一版本,一个^代表商议版本,两个^代表两个版本,如...
2022-04-25 18:49:18
79
原创 arcgis生成序列号小工具
生成普通序列号star = 0def num(): global star star += 1 return star生成序号,并且进行格式化star = 0def num(): global star star += 1 format = star return str(format).zfill(3)...
2020-03-25 13:13:31
2495
GIS(地理信息)+坐标转换+十进制度转度分秒(度分秒转十进制度)+公式
2023-02-10
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人