- 博客(27)
- 资源 (1)
- 收藏
- 关注
原创 fluent-bit日志上传到s3-efs
extra.conf根据实际情况监控路径,402097323/fleuntbit:v3 这个镜像要启动容器,然后把extra.conf文件复制到根路径下。
2023-05-09 20:22:26
1012
原创 eks实践案例
kubectl create deployment dryrun-test --image=nginx --port=80 --replicas=3 --dry-run # yaml清单。kubectl run dryrun-test --image=nginx --port=80 --replicas=3 --dry-run -o json #json清单。#定义Pod副本将使用的标签,需与前面的.spec.selector.matchLabels定义的标签保持一致。
2023-05-09 14:19:53
590
原创 IAM角色
例如,从s3读取存储桶权限的角色,ec2是该角色中的受信任关系,则只有ec2实例可以实现此角色并且可以访问此s3存储桶,aws中(如 rds / elasticsearch / amplify 等)等服务不可能承担此角色并获取此应用程序的配置文件。应用程序在ec2上运行,这些服务之间的此要求中的受信任关系将是 -> ,我在 ec2 上运行的应用程序可以假设角色(my-app-role)并访问(其中包含正确的策略)到 s3 并获得配置文件。
2023-05-03 19:05:27
1104
原创 AWSFireLens轻松实现容器日志处理
Amazon Kinesis Firehose 传输流和flunet-bit上传aws容器日志到S3
2023-05-01 09:31:19
1182
原创 mapreduce读取orc文件代码
pom.xml 内容:<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven
2018-06-13 15:03:51
1217
1
原创 基于大数据技术构建数仓模型实践
最近刚接触一个线上运行的数仓环境,是针对用户流量日志做点击量指标的多维度分析,维度表每天一个快照,经过数据统计分析发现有的维度表数据量很大,每天竟然有5亿多条的素材日志,并且这些维度数据是渐变维度,数据存储在亚马逊S3文件系统上面,严重浪费公司的存储成本,同时要是查询跨度一个周的数据则涉及到的维度数据就40亿条进行关联,这还不算其他维度的统计在内,个人观点,涉及到这些大维度数据的统...
2018-04-13 13:50:24
4244
1
原创 hiveSQL优化思路
主要涉及到数据存储和计算两个过程,设计出合理的数据存储格式对于数据的查询和计算具有很重要的意义。存储的优化思想就是查询数据时能够很快定位到需要的数据,通过索引技术或者缩小检索数据范围来解决;传统数据库领域通过采用索引技术来优化数据的存储达到高效检索访问,在hive数仓技术中也有索引技术,但是,最常用的技术是分区和分桶技术。 表存储思想:根据表字段变更的频率进行水平拆分...
2018-04-12 17:45:36
3578
原创 mapreduce流程梳理
在Map阶段:RecordReader --> mapper.map() ---> partitioner ---->[字节数组内存缓冲区] --->Spill(Sort / Combiner) ---> merge(Combiner)在Reduce阶段: copy --->[字节数组内存缓冲区] --->Spill(Sort / Combiner) ...
2018-04-12 17:42:37
348
原创 性能优化思路与具体问题分析过程
性能优化方法论:1.计算机领域主要涉及到通信、计算和存储三项指标,从硬件的角度对应网卡、CPU和内存、磁盘,对应的衡量指标网络IO、CPU赫兹、存储IO;2.性能优化定位瓶颈,网络IO优化:1)网卡可以购买万兆网卡;2)采用高效的数据序列化和反序列机制;3)可以减少网络传输的数据量,借鉴大数据数据动代码动的分布式计算思路,即能本地化计算就本地化计算,否则,就想办法减少网络传输的数据量,...
2018-04-09 15:43:29
1111
原创 基于Spark技术实现大规模时间序列异常检测成功落地
最近一直忙于异常检测项目的上线,一直没有时间来更新博客,该系统已经在大规模时间序列场景稳定运行1个多月,简单总结一下。达到的目标,通过Spark对3万个服务器进行预测,每个服务器包括5个指标,每个指标对应一个时间序列,模型全量15万,全量训练用21个Core耗时3个小时,预测程序12个core运行状态良好,整个系统已经平稳运行一个月,整个系统预估能够支持上亿个模型进行同时训练和预测。设计到
2018-01-10 09:36:43
6947
10
原创 基于时间序列的异常检测系统的实现思路之一
技术方案:Spark、kafka、opentsdb、Yahoo的egads模型静态训练:采用两种算法进行模型的训练:指数移动平均和HotWinters,模型一天训练一次,即每天0点开始训练,每天凌晨0:5分根据训练好的模型进行异常检测,具体包括点的预测以及点的异常检测;模型实时训练:HotWinters根据3个指标进行预测,其中两个可以进行静态的训练,另外一个指标在进行异常检测之后要 对模
2017-08-31 16:21:50
8502
原创 window操作系统搭建Spark开发调试环境
1 搭建环境前写个demo代码;2 安装配置jdk1.8;3 安装配置scala2.11.18;4 导入pom.xml中依赖jar;5 下载Hadoop的bin包,设定环境变量HADOOP_HOME,值为解压后的目录(http://hadoop.apache.org/releases.html下载);6 下载winutils.exe将其放到$HADOOP_HOME/bin/目录下(htt...
2017-08-25 11:06:03
590
原创 ml_高级算子
1、reduce函数和combine函数必须满足交换律(commutative)和结合律(associative)2、从aggregate 函数的定义可知,combine函数的输出类型必须和输入的类型一致 scala> def seqOP(a:Int, b:Int) : Int = { | println("seqOp: " + a + "\t" + b)
2017-08-09 17:47:04
333
原创 EGADS学习资料
EGADS 是Yahoo一个开源的大规模时间序列异常检测项目:一个是时间序列构造模块,另一个是异常检测模块。给定一段时间的离散值(构成一个序列),时间序列模块会学习这段序列的特征,并试图重新构建一个和原序列尽量接近的序列,结果和原序列一同送入异常检测模块,基于不同的算法(原则,阈值),异常点会被标记出来。时间序列构造模块提供了多种算法:Olympic Mod
2017-08-07 17:34:59
4510
原创 cglib和asm的版本冲突问题_SparkStreaming
17/08/04 10:31:00 ERROR executor.Executor: Exception in task 0.0 in stage 3.0 (TID 71)java.lang.IncompatibleClassChangeError: class net.sf.cglib.core.DebuggingClassWriter has interface org.objectweb
2017-08-07 17:30:35
2180
原创 常用命令与优化思路
bin/spark-shell --master yarn-clientspark.executor.memory=26000M,\ spark.executor.cores=4,\ spark.executor.instances=5,\ spark.driver.cores=4,\ spark.driver.memory=24000M,\ spark.defau
2017-08-07 17:24:43
434
原创 SparkStreaming读取kafka数据进行反序列化以及mapPartition优化实例
val monitorWrappedMessage1 = KafkaUtils.createStream[String, Array[Byte], StringDecoder, DefaultDecoder]( ssc, kafkaParams, topicMap, StorageLevel.MEMORY_AND_DISK_SER_2).mapPartitions( partit
2017-08-07 17:15:58
2723
原创 combineByKey算子求解平均值实例
不同场景平均值算法求平均值系列之一:val input = sc.parallelize(Seq(("t1", 1), ("t1", 2), ("t1", 3), ("t2", 2), ("t2", 5)))val result = input.combineByKey( (v) => (v, 1), (acc: (Int, Int), v) => (acc._1 +
2017-08-07 16:47:52
1438
原创 SparkSteaming进行UV统计
需求:每个一分钟统计一次最近一个小时UV 思考过程:由于UV是矢量数据,不能每分钟的UV最一个统计,在基于每分钟的计算结果进行累加计算出最近一个小时用户量的求和。SparkStreaming提供的窗口函数,比较知名的reduceByKeyAndWindow开窗函数,该函数一般用于对标量数据的统计,例如,用户访问量、点击量等;通过对该算子源代码解读,了解到该算子通过重叠两个窗口之间的统计
2017-06-29 17:17:37
2799
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人