自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 Flink

FlinkFlink是类似spark的软件,Flink对比spark的优点是在于实时数据的处理,Flink是事件驱动型的,以事件为单位,一个事件过来即处理一个事件,实时性比较高;而spark是批处理的,是等待数据达到一定的值,将这些数据作为一个批次发送,即会有时间的延迟。Flink和spark的其他离线处理都是类似的,并没有太多的改进。Flink和spark都是具有分层api的,都是有状态处理...

2025-11-17 17:34:00 471

原创 ES的使用

Elasticsearch主要使用于全文检索、模糊查询、数据分析,是基于Lucene(开源的检索工具包)的开源分布式搜索引擎,是面向文档以json数据格式存储,比solr的优点是更加增强了实时性存储的格式第一层是index(索引)类似于库第二层是type(类型)第三层是document 类似于表第四层是filed 类似于字段ES的检索原理倒排索引:正排索引:...

2025-11-12 15:34:03 473

原创 zookeeper

zookeeper是用来协调大数据框架之间的关系(存数据和通知)特点:一主N从组成集群只要有半数以上的节点存活,集群就能正常服务全局数据一致,所有的主机和从机里的数据都是相同的更新请求顺序执行数据更新原子性,一个成功所有的都成功实时性,读到最新的数据安装与配置执行cp zoo_sample.cfg zoo.cfg命令,修改配置文件名称执行bin/zkServer.sh s...

2020-03-31 20:59:29 107

原创 kafka

kafka一个分布式的基于发布/订阅模式的消息队列,应用于实时处理领域,在实时处理的时候,当访问量过大时,实时分析工具spark、stream的分析跟不上提交的数据,于是需要kafka的消息队列存储(类似于蓄水库,当流量过大时用于存储,错过流量高峰之后再一部分一部分读取),减缓服务器的实时处理压力异步、消峰、解耦抓取实时的日志,用来分析推荐更适合你的内容安装与部署解压改名创建log...

2020-02-17 17:03:35 150

原创 mybits

Mybits三.命名规范1.项目名:没有要求,不起中文2.包:公司域名倒写 com.bjsxt3.数据访问层:dao, persist, mapper4.实体:entity, model, bean,javabean, pojo5.业务逻辑: service ,biz6.控制器: controller, servlet,action,web7.过滤器: filter8.异常: e...

2019-12-28 12:07:13 231

原创 HDFS数据存储

HDFS(hadoop distribute file system )hadoop分布式文件系统(数据存储)NameNode存储元数据,为了运行效率存储在内存中,但是当突然断电时,内存中的数据没有保存就会丢失,为了防止数据丢失,所以会进行时间段的存储,DataNodeSecondaryNameNodeidea中的上传测试类代码public class HdfsCilent { ...

2019-11-27 17:53:45 25

原创 MapReduce

MapReduce(分布式运算程序的编程框架)优点(特点:简单)易于编程良好的扩展性高容错性适合PB 级的数据离线处理缺点(特点:慢)不擅长实时计算不擅长流式计算(spark、stream计算流式计算)不擅长有向图计算编程思想MapReduce是由map和reduce两部分构成,首先由map把多个单词进行映射处理,分解为(word,1)的形式,然后再由reduce根据...

2019-11-27 17:53:29 26

原创 hadoop

Hadoop特性高可靠性:维护多个副本(默认三备份)高扩张性:动态增加结点高效性:并行高容错性:自动保存多份备份Hadoop组成MapReduce(计算):分布式的离线并行计算框架yarn(资源调度):作业调度与集群资源管理的框架hdfs(数据存储):(Hadoop distributed file system) 分布式文件系统common(公共辅助工具)NameNode(...

2019-11-27 17:53:01 114

原创 hive实操

hive(操作数据库一定要带==;==)hive安装与部署下载地址http://archive.apache.org/dist/hive/解压,安装修改/opt/module/hive/conf目录下的hive-env.sh.template名称为hive-env.sh配置hive-env.sh文件(a)配置HADOOP_HOME路径(b)配置HIVE_CONF_DIR路径Ha...

2019-11-27 17:48:22 163

原创 Linux常用命令及使用

Linux目录操作cd 英文名:change directorycd test :进入到test目录下cd ~: "命令可以快速回到用户的家目录,cd 命令直接按回车键也是快速切换到家目录。[root@localhost~]#cd /etc/[root@localhost etc]#cd[root@localhost ~]#直接使用 cd 命令,也回到了家目录。添加目录(增)mk...

2019-08-05 11:12:16 649

原创 spring

spring核心功能:IOC/DI: 控制翻转/依赖注入AOP: 面向切面编程声明式事务spring作为一个大的容器Core container:核心容器,启动spring的根本IOC :控制反转原先程序员做的主动通过new来实例对象,交给spring来负责控制反转中的控制指的是:控制类的对象控制反转中的反转指的是交给spring负责IOC最大的作...

2019-07-26 10:50:13 158

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除