- 博客(58)
- 资源 (3)
- 收藏
- 关注
原创 rabbitMq例子实现
rabbitMq发送消息:rabbitTemplate.convertAndSend(RabbitMQConfig.EXCHANGE_TOPIC_DQPT, RabbitMQConfig.QUEUE_QF_TOPUP,JSONObject.toJSONString(qbOrderVo));rabbitMq初始化数据:public static final String EXCHANGE_TOPIC_DQPT = “exchange_topic_dqpt”;public static final S
2021-08-05 14:47:50
215
原创 rabbitMq之实现direct交换器消息流
业务场景:系统日志处理场景1.微服务产生的日志,交给日志服务器处理。2.日志处理服务器有4个服务,分别为DEBUG,INFO,WARN,ERROR等。3.服务直接的通信采用direct(发布订阅)。
2021-08-05 14:36:48
192
原创 rabbitMq之知识梳理
什么是队列?队列就像存放商品的仓库或者商店,是生产商品的工厂和购买商品的用户之间的中转站。1.队列存储了什么? 在RabbitMQ中,信息流从你的应用程序出发,来到RabbitMQ的队列,所有信息可以只存储在一个队列中。队列可以存储很多的消息,因为它基本是一个无限制的缓冲区,前提是你的机器有足够的存储空间。 2.队列和应用程序的关系? 多个生产者可以将消息发送到同一个队列中,多个消费者也可以只从同一个队列接收数据。2.1)Message消息,消息是不具名的,它由消息头和消息体组成,消息是
2021-08-05 14:35:15
172
原创 RabbitMQ之安装rabbitMq
1.系统版本: Cent0S 6.52.RabbitMQ-Server: 3.5.1一.安装erlang1.1)安装准备,下载安装文件1.2)安装erlangyum install erlang1.3)安装完成后可以用erl命令查看是否安装成功erl -version二, 安装RabbitMQ Server1.安装准备,下载RabbitMQ Serverwget http://www.rabbitmq.com/releases/rabbitmq-server/v3.5.1/rabbit
2021-08-05 14:29:39
112
原创 Hadoop基于词频统计例子
package com.imooc.bigdata.hadoop.project.mrv2;import com.imooc.bigdata.hadoop.project.utils.LogParser;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Nul
2021-08-04 16:15:06
248
原创 hadoop基于省份数据统计例子
package com.imooc.bigdata.hadoop.project.mrv2;import com.imooc.bigdata.hadoop.project.utils.LogParser;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongW
2021-08-04 16:13:42
205
原创 Hadoop系统入门之原始数据ELT操作例子
package com.imooc.bigdata.hadoop.project.mrv2;import com.imooc.bigdata.hadoop.project.utils.GetPageId;import com.imooc.bigdata.hadoop.project.utils.LogParser;import org.apache.commons.lang.StringUtils;import org.apache.hadoop.conf.Configuration;import
2021-08-04 16:12:27
216
原创 Hadoop系统入门之Hive必考的SQL功能及窗口函数
窗口函数:行列转换从累计问题谈起窗口函数案例实战MR/HIVE SQL ON HADOOP SQLdata:HDFSmetodata:RDBMS MYSQL 存储: 压缩,存储格式 计算: SQL skew:分场景逐个击破。 存储: 小文件 定时: 小文件,合并,告警。...
2021-08-04 16:11:14
130
原创 Hadoop系统入门之压缩在大数据中的使用
Hadoop整合压缩在大数据中的应用为什么使用压缩压缩的使用场景常见压缩格式压缩和解压缩实战Hadoop整合压缩的使用Why单击: 磁盘空间的限制Hadoop/HDFS:DN是用来存储数据用的 要对HDFS上的数据进行压缩==>减少存储在HDFS上数据所占用的空间1T==>300G3T 900GINPUT==>MR==>OUTPUT好处:减少HDFS读写数据量:DISK IO提升网络传输效率:网络IOShuffle是所有分布式计算框架中一个主要的
2021-08-04 16:09:59
151
原创 Hadoop系统入门之Hadoop3.x新特性及实操
Hadoop3.x新特性及实操Hadoop3x新特性云服务器ECS的使用ECS上基础软件部署基于ECS部署Hadoop3xHadoop3x使用将项目运行在Hadoop3x上Hadoop3x新特性JDKErasure CodingYARN Timeline Service V2EC: 纠错码一个数据保护技术。通信行业中的数据传输中数据恢复的一种编码容错技术。核心思想: 校验数据。出现问题,可以借助EC技术来进行恢复。校验数据块 原始数据进行重新编码原始数据块
2021-08-04 16:07:23
172
原创 Hadoop系统入门之Hadoop的特性在生产上的使用
HDFS上的数据基本上是不删除:HDFS生产上回收站是一定要开启的,我司是1天单位是分钟。思考题: HDFS API delete 数据是否会走垃圾桶:大数据作业/应用程序 通过API去调用HFDS文件系统的删除操作虽然是删除东西在垃圾桶中了,但是此时数据其实都在HDFS上HDFS的block大小并为发生变化。...
2021-08-04 16:05:36
109
原创 Hadoop系统入门之(讨论群内直播内容分享)Hadoop小问题剖析
小文件问题:Hadoop存储TB甚至更大级别的数据集。File==>block==>3==>DN directory元数据信息 NN 内存100M vs 1k什么是小文件:CDH blocksize 128M 64M128M 200M ???64M 200M ???256M 200M ???blocks==> 元数据信息1M 20M?NN的内存是多少?能存储多少block.文件怎么产生的?故障: 解决==>为什么会产生这个故障?==>解决
2021-08-04 16:03:16
92
原创 Hadoop系统入门之Join在MapReduce中的实现
MapReduce:Interview: 描述如何使用MapReduce来实现join的功能。考察点:1)MapReduce执行流程。2)JOIN的底层执行过程。3)JOIN的多种实现方式: ReduceJoin(shuffle),MapJoin(没有reduce,换句话说就是没有Shuffle)。resume:1)最新的项目是写在最前面的2)写的东西一定要真正的(区分)3)从你写的东西开始面起,然后逐步扩展==》你的技能/技术的一个功能链条。ReduceJoin数据通过Mappe
2021-08-04 16:01:48
301
原创 Hadoop系统入门之Hadoop集群部署
Hadoop集群部署Hadoop集群规划Hadoop集群部署前置安装作业提交到Hadoop集群运行JDK安装Hadoop集群规划HDFS: NN DNYARN: RM NM前置安装 ssh(每台)ssh免密码登陆在hadoop000机器上进行caozuoJDK安装1)先在hadoop000机器上部署了jdk2)将jdk binJDK安装1)先在hadoop000机器上部署了jdk2)将jdk bin...
2021-08-04 15:59:05
109
原创 Hadoop系统入门之数据仓库Hive
Hive产生的背景:MapReduce编程的不方便传统关系型数据库的需要Hive概述之Hive是什么由Facebook开源,用与解决海量结构化日志的数据统计问题。构建再Hadoop之上的数据仓库。Hive提供的SQL查询语言: HQL。底层支持多种不同的执行引擎。HDFS上的文件并没有schema(数据组织结构)的概念。Hive底层执行引擎支持: MR/Tez/Sperk.统一元数据管理:Hive数据是存放在HDFS.元数据信息(记录数据的数据)是存放在MySQL中。SQL on
2021-08-04 15:52:47
251
原创 Hadoop系统入门之hadoop项目知识总结
电商项目实战用户行为日志 需求实现电商常用术语 提交到服务器运行项目需求 扩展数据处理流程及技术架构用户行为日志:每一次访问的行为(访问,收索)产生的日志历史行为数据<==历史订单电商专业术语:1. Ad Views(广告浏览): 网上广告被用户浏览的次数。2. PV(访问量): 即Page View。页面浏览量,用户每次刷新即被计算一次。网站各网页被浏览的总次数。一个访客有可能创造十几个甚至更多的浏览量。或者这样理解:用户在你的网站上打开网页的次数,浏
2021-08-04 15:01:45
225
原创 Hadoop系统入门之资源调度框架YARN
资源调度框架YARNYARN产生背景YARN执行流程YARN概述YARN架构提交作业到YARN上执行YARN产生背景:MapReduce1.x==>MapReduce2.xMaster/slave : JobTracker/TaskTrackerJobTracker: 单点,压力大仅仅只能够支持mapreduce作业资源利用率 所有的计划框架运行一个集群中,共享一个集群的资源,按需分配!YARN概述Yet Another Resource Negotiator通用的资源
2021-08-04 14:49:24
189
原创 Hadoop系统入门之分布式计算框架MapReduce
课程目录:分布式处理框架MapReduceMapReduce概述MapReduce编程模型详解MapReduce实战分布式计算框架MapReduceMapReduce概述:源自于Google的MapReduce论文,论文发表于2004年12月。Hadoop MapReduce是Google MapReduce的克隆版。MapReduce优点: 海量数据离线处理&易开发&易运行。MapReduce缺点: 实时流式计算。MapReduce编程模型之通过wordcount词频
2021-08-04 14:47:26
200
原创 Hadoop系统入门之分布式文件系统HDFS
HDFS概述:1)分布式2)commodity hardware3)fault-tolerant 容错4)high throughput5)large data setsHDFS是一个分布式的文件系统文件系统:Linux,windows,Mac…普通文件系统 vs 分布式文件系统 单机。 分布式文件系统能够横跨N个机器。HDFS前提和设计目标: Hardware Failuer 硬件错误 每个机器只存放在不同的机器上的,由于容错,HDFS默认采用3副本机制。 Strea
2021-08-04 14:40:33
125
原创 Hadoop系统入门之初识hadoop
初识HadoopHadoop 概述Hadoop 生态系统Hadoop 核心组件Hadoop 发行版的选择Hadoop 优势Hadoop 发展史Hadoop概述之Hadoop名字的Hadoop项目作者的孩子给一个棕黄色的大象样子的填充玩具的命名。Nutch,Hadoop: Doug CuttingSpring:学习一个新的框架,我的风格是直接查看该项目的官网地址:HadoopHiveApache社区的顶级项目: xxxx.apache.org hadoop.apache.or
2021-08-04 14:15:01
155
原创 Hadoop系统入门之概述
大数据生态圈:Hadoop生态圈。Spark生态圈。课程安排:大数据概述初识Hadoop分布式文件系统HDFS分布式资源调度YARN分布式计算框架MapReduceHadoop项目实战数据仓库HiveHive项目实战Hadoop分布式集群搭建环境参数Linux版本:CenOS(7)Hadoop版本:CDH(5.15.1)大数据概述:大数据故事大数据的技术概念什么是大数据大数据带来的挑战大数据带来的技术变革大数据典型应用大数据现存的模式案例:什么是大数据:
2021-08-04 14:03:50
125
原创 Java大数据实战 Storm构建实时流处理之例子总结
查看kafka中topic的命令:创建topic:kafak命令通信:生产者:消费者:1.创建一个TopologyBuilder拓扑计算,setSpout方法设置Spout,setBolt方法设置Bolt最后调用createTopology方法返回Storm的Topology对象给Topology方法作为输入参数。2.继承BaseRichSport【发数据】常用的方法:open(Map conf, TopologyContext context, SpoutOutputCollec
2021-08-03 21:16:27
239
原创 Java大数据实战 Storm构建实时流处理之词频统计
package com.imooc.bigdata;import org.apache.commons.io.FileUtils;import org.apache.storm.Config;import org.apache.storm.LocalCluster;import org.apache.storm.spout.SpoutOutputCollector;import org.apache.storm.task.OutputCollector;import org.apache.sto
2021-08-03 21:07:52
420
原创 Java大数据实战 Storm构建实时流处理之求和案例
package com.imooc.bigdata;import org.apache.storm.Config;import org.apache.storm.LocalCluster;import org.apache.storm.spout.SpoutOutputCollector;import org.apache.storm.task.OutputCollector;import org.apache.storm.task.TopologyContext;import org.apac
2021-08-03 21:05:55
168
原创 storm综合例子知识01
交通信息化:有效管理,及时疏导。元宵节: 名俗活动。电信数据采集的方式:GPS: 获取区域的经纬度信息。手机移动网络信令数据样本容量大,覆盖范围广,数据稳定可靠。对信令信息的相应字段进行分析,挖掘,并结合GIS技术实现自定义区域实时人流量的智能化统计分析。信令:通过移动用户发生的通信事件记录来判断该用户所处的位置,可以根据事件发生的区域,对用户的行为轨迹进行定义。1)区域内 inside: 用户处在目标区域范围内。2)区域外 outside: 用户处在目标区域范围外。3)离开 le
2021-08-03 20:57:44
86
原创 Java大数据实战 Storm构建实时流处理之RPC
RPC(Remote Procedure Call)远程过程调用,简单的理解是一个节点请求另一个节点提供的服务采用客户机/服务机的方式网络传输:序列化的
2021-08-03 20:54:56
193
原创 Java大数据实战 Storm构建实时流处理之storm可靠性
可靠性:nimbus(启动和杀掉worker)进程。worker进程。节点。supervisor进程。ack/fail 确认机制(失败的数据进行保存和重发)。
2021-08-03 20:53:12
126
原创 Java大数据实战 Storm构建实时流处理之分组策略
分组策略:一个流定义分组的策略更好的传输到task里面去进行处理。常见的分组策略(shuffle grouping,fields grouping,all grouping)随机分组(Shuffle Grouping)是最常用的流分组方式,它随机地分发元组到Bolt上的任务,这样能保证每个任务得到相同数量的元组。fieldsGrouping,也就是按字段进行分组,相同的指定字段的值都会分到同一个组里面。allGrouping: 将所有的 tuple 复制后分发给所有 bolt task。每个订阅数据流
2021-08-03 18:06:20
380
原创 Java大数据实战 Storm构建实时流处理之并行度
并行度:一个worker进程执行的是一个topo的子集。一个worker进程会启动1…n个executor线程来执行一个topo的component.一个运行的topo就是由集群中多台物理机上的多个worker进程组成。executor是一个被worker进程启动的单独线程,每个executor只会运行1个topo的一个component。task是最终运行spout或者bolt代码的最小执行单元。默认: 一个supervisor节点最多启动4个worker进程。 每一个topo默认占用一
2021-08-03 18:04:43
140
原创 Java大数据实战 Storm构建实时流处理之Storm的架构与部署
Storm架构:类似于Hadoop的架构,主从(Master/Slave)Nimbus:主集群的主节点,负责任务(task)的指派和分发,资源的分配。Supervisor: 从可以启动多个Worker,具体几个呢?可以通过配置来指定一个Topo可以运行在多个Worker之上,也可以通过配置来指定集群的从节点,(负责干活的),负责执行任务的具体部分启动和停止自己管理的Worker进程无状态,在他们上面的信息(元数据)会存储在ZK中。Worker: 运行具体组件逻辑(Spout/Bolt)的进程。
2021-08-03 18:03:31
208
原创 Java大数据实战 Storm构建实时流处理之Storm周边框架使用
Zookeeper:通过zk节点来管理配置信息,同步节点来实现分布式服务的同步。启动:Logstash:日志收集[ELK中的L]Kafka:分布式 流处理 消息(发布|订阅)系统:场景:实时的流处理,容错,横向处理。消息中间件;生产者和消费者例子: 妈妈:生产者 你: 消费者 馒头: 数据流,消息 正常情况下: 生产一个 消费一个 其他情况: 一直生产,你吃到某一个馒头时,你卡住(机器故障),馒头就丢失了。 一直生产,做馒头速度快,你吃来不及,馒头也就丢失了。
2021-08-03 18:01:50
144
原创 Java大数据实战 Storm构建实时流处理之Storm编程
Ispout:概述:核心接口(interface),负责将数据发送到topology中去 处理Storm会跟踪Spout发出去的tuple的DAGack/failtuple: message idack/fail/nextTuple是在同一个线程中执行的,所以不用考虑线程安全方面。核心方法:open: 初始化操作。close: 资源释放操作。nextTuple: 发送数据 core apiack: tuple处理成功,storm会反馈给spout一个成功消息。fail: tuple处理
2021-08-03 17:58:40
308
原创 Java大数据实战 Storm构建实时流处理之Storm核心概念
Storm核心概念:Topologies拓扑,将整个流程串起来。Streams流,数据流,水流。Spouts产生数据/水的东西。Bolts处理数据/水的东西。Tuple数据/水Storm核心概念理解记忆:Storm核心概念总结:Topology: 计算拓扑,由spout和bolt组成的。Stream: 消息流,抽象概念,没有边界的tuple构成。Tuple: 消息/数据 传递的基本单元。Spout: 消息流的源头,Topology的消息产生者。Bolt: 消息处理单元,可以
2021-08-03 17:57:14
173
原创 Java大数据实战 Storm构建实时流处理之初识实时流处理Storm
storm的官网:http://storm.apache.org/storm: 免费|开源|分布式|实时计算系统,能实现高频数据和大规模数据的实时处理。需求:大数据的实时处理。自己来实现实时系统,考虑的因素:1)健壮性。2)扩展性/分布式。3)如何使得数据不丢失,不重复。4)高性能,低延时。Storm开源:2011.9ApacheClojure JavaStorm技术网站:1)官网: http://storm.apache.org/2)GitHub: https://git
2021-08-03 17:52:55
296
原创 短信验证示例
依赖:<!--腾讯云--><dependency><groupId>com.github.qcloudsms</groupId><artifactId>qcloudsms</artifactId><version>${qcloudsms.version}</version><...
2020-04-01 15:59:30
271
原创 微信公众号推送消息
<!--微信公众号推送消息--><dependency><groupId>com.github.binarywang</groupId><artifactId>weixin-java-mp</artifactId><version>${weixin.java.mp.version}</vers...
2020-04-01 15:46:15
428
原创 获取公众号中用户的信息
***公众号appId screret*/public static final String PAR_PUBLIC_APPID="";public static final String PAR_PUBLIC_SECRET="";/***获取公众号的token*/public static final String ACCESS_TOKE...
2020-04-01 15:44:41
249
原创 微信开发定时获取access_token
***@authorxiang*定时获取access_token*/public class ScheduleToken implements Serializable{ private String accessToken; private String expiresIn;public String g...
2020-04-01 15:42:30
271
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人