
---------相关项目
文章平均质量分 53
zhi_fu
这个作者很懒,什么都没留下…
展开
-
Spark日志分析项目Demo(10) --JVM调优
JVM相关的参数,通常情况下,如果你的硬件配置、基础的JVM的配置,都ok的话,JVM通常不会造成太严重的性能问题;反而更多的是,在troubleshooting中,JVM占了很重要的地位;JVM造成线上的spark作业的运行报错,甚至失败(比如OOM)。java虚拟机可能会产生什么样的问题:内存不足??!!我们的RDD的缓存、task运行定义的算子函数,可能会创建很多对象。都可能会占用大量内存,没原创 2017-09-14 18:32:39 · 822 阅读 · 0 评论 -
Spark日志分析项目Demo(9)--常规性能调优
一 分配更多资源分配更多资源:性能调优的王道,就是增加和分配更多的资源,性能和速度上的提升,是显而易见的;基本上,在一定范围之内,增加资源与性能的提升,是成正比的;写完了一个复杂的spark作业之后,进行性能调优的时候,首先第一步,我觉得,就是要来调节最优的资源配置;在这个基础之上,如果说你的spark作业,能够分配的资源达到了你的能力范围的顶端之后,无法再分配更多的资源了,公司资源有限;那么才是考原创 2017-09-14 16:51:20 · 4299 阅读 · 5 评论 -
Spark日志分析项目Demo(8)--SparkStream,广告点击流量实时统计
广告点击统计需求: (1)对接kafka,获得数据 (2)发现某个用户某天对某个广告的点击量已经大于等于100,写入黑名单,进行过滤 (3)计算广告点击流量实时统计结果 (4)实时统计每天每个省份top3热门广告 (5)实时统计每天每个广告在最近1小时的滑动窗口内的点击趋势(每分钟的点击量)主流程代码public static void main(String[] args) {原创 2017-09-09 17:35:01 · 3937 阅读 · 2 评论 -
Spark日志分析项目Demo(6)--页面单跳转化率分析
页面单跳转化率这里用例子来解释页面单跳转化率 假设J2EE查询任务指定的页面流是3,2,5 (1)3PV ,跳转页面中前页面为3的统计个数 (2)3_5pv,跳转页面中前页面为3,后页面为5的统计个数 (3)5_2pv,跳转页面中前页面为5,后页面为的统计个数 (4)3_5 rate =3_5pv / 3 pv (5)5_2 rate = 5_2 pv / 3_5 pv 下面结合测试数原创 2017-09-03 15:29:38 · 2699 阅读 · 0 评论 -
Spark日志分析项目Demo(5)--自定义Accumulator
累加器(accumulator)我们传递给Spark的函数,如map(),或者filter()的判断条件函数,能够利用定义在函数之外的变量,但是集群中的每一个task都会得到变量的一个副本,并且task在对变量进行的更新不会被返回给driver。而Spark的两种共享变量:累加器(accumulator)和广播变量(broadcast variable),在广播和结果聚合这两种常见类型的通信模式上放原创 2017-09-03 14:48:37 · 1182 阅读 · 0 评论 -
Spark日志分析项目Demo(4)--RDD使用,用户行为统计分析
下面介绍通过日志分析用户行为流程 (1)某个J2EE项目在接收用户创建任务的请求之后,会将任务信息插入MySQL的task表中,任务参数以JSON格式封装在task_param 字段中。这是项目前提,不是本项目的内容。 接着J2EE平台会执行我们的spark-submit shell脚本,并将taskid作为参数传递给spark-submit shell脚本. spark-submit sh原创 2017-09-01 21:58:12 · 3980 阅读 · 0 评论 -
Spark日志分析项目Demo(3)--Spark入口和DataFrame
我们先从入口main函数说起public static void main(String[] args) { // 构建Spark上下文 SparkConf conf = new SparkConf() .setAppName(Constants.SPARK_APP_NAME_SESSION) .setMa原创 2017-09-01 20:21:17 · 1156 阅读 · 0 评论 -
Spark日志分析项目Demo(1)--Flume-ng的安装
项目介绍 该项目类似于团购网站的日志处理过程。 离线日志处理: 原始网站日志->Flume-ng采集->HDFS->Hive->Spark离线处理 实时日志处理过程: 原始网站日志->Flume-ng采集->Kafka>Spark实时处理关于Kafka,hive,spark的安装前面已介绍过,下面补充Flume-ng的安装过程。 1、将flume-ng-1.5.0-cdh5.3.6.ta原创 2017-07-19 20:55:22 · 745 阅读 · 0 评论 -
Spark日志分析项目Demo(7)--临时表查询,各区域top3热门商品统计
如果是在关系数据库里实现各区域top3热门商品统计,需要编写sql查询语句。 之前用RDD先排序,后获取top的方法实现top n, 下面换成用临时表的sql top查询来实现,流程是: (1)创建SparkConf,构建Spark上下文 (2)注册自定义函数,可以在临时表的sql查询中使用这些函数 (3)准备模拟数据 (4)获取命令行传入的taskid,mysql查询对应的任务参数原创 2017-09-09 16:41:01 · 2272 阅读 · 0 评论