
电商用户行为分析
zerone-f
这个作者很懒,什么都没留下…
展开
-
25.Spark大型电商项目-用户访问session分析-DAO模式讲解以及TaskDAO开发
目录DAO模式编写业务代码 Task.javaITaskDAO.javaTaskDAOImpl.java本篇文章将介绍DAO模式。DAO模式Data Access Object:数据访问对象首先,你的应用程序,肯定会有业务逻辑的代码。在三层架构的web系统中,业务逻辑的代码,就是在你的Service组件里面;在我们的spark作业中,业务逻辑代码就是在我们的sp...原创 2019-02-27 17:04:18 · 292 阅读 · 0 评论 -
26.Spark大型电商项目-用户访问session分析-工厂模式讲解以及DAOFactory开发
目录工厂模式如果没有工厂模式,可能会出现的问题工厂设计模式测试工厂模式DAOFactory.javaTaskDAOTest.java 本篇文章将介绍工厂模式以及DAOFactory开发。工厂模式如果没有工厂模式,可能会出现的问题ITaskDAO接口和TaskDAOImpl实现类;实现类是可能会更换的;那么,如果你就使用普通的方式来创建DAO,比如ITas...原创 2019-02-27 17:52:21 · 354 阅读 · 0 评论 -
1.Spark大型电商项目-电商用户行为分析简介
目录项目简介项目模块用户访问session分析页面单跳转化率统计热门商品离线统计广告流量实时统计环境搭建项目简介本项目主要用于互联网电商企业中,使用Spark技术开发的大数据统计分析平台,对电商网站的各种用户行为(访问行为、购物行为、广告点击行为等)进行复杂的分析。用统计分析出来的数据,辅助公司中的PM(产品经理)、数据分析师以及管理人员分析现有产品的情况,并根...原创 2019-02-23 10:42:23 · 968 阅读 · 0 评论 -
2.Spark大型电商项目-大数据环境搭建之CentOS 6.4集群
目录实验环境 创建虚拟机安装CentOS设置ip获取动态ip设置静态ip配置hosts使用Xshell连接虚拟机 关闭防火墙 安装jdk 安装三节点虚拟机配置集群Ssh免密码登陆(由于本人的设备局限,并未使用这篇博文的方法搭建Linux集群,将本文转过来是保持博文的完整性。)转载地址:2.环境搭建-CentOS集群搭建本文主要介绍在 Wi...转载 2019-02-23 11:26:38 · 283 阅读 · 0 评论 -
27.Spark大型电商项目-用户访问session分析-JSON数据格式讲解以及fastjson介绍
目录什么是JSON?测试FastjonTest.java本篇文章将介绍JSON格式。什么是JSON?就是一种数据格式;比如说,我们现在规定,有一个txt文本文件,用来存放一个班级的成绩;然后呢,我们规定,这个文本文件里的学生成绩的格式,是第一行,就是一行列头(姓名 班级 年级 科目 成绩),接下来,每一行就是一个学生的成绩。那么,这个文本文件内的这种信息存放的格式,其...原创 2019-02-27 20:36:12 · 277 阅读 · 0 评论 -
3.Spark大型电商项目-大数据环境搭建之-Hadoop(CDH)集群搭建
目录实验环境安装 Hadoop配置文件在另外两台虚拟机上搭建hadoop启动hdfs集群启动yarn集群(由于本人的设备局限,hadoop环境是项目之前就搭建好的,将本文转过来是保持博文的完整性。)转载地址:3.环境搭建-Hadoop(CDH)集群搭建本文主要是在上节CentOS集群基础上搭建Hadoop集群。实验环境 *本实验项目所需软件均可在百...转载 2019-02-23 16:05:26 · 430 阅读 · 0 评论 -
4.Spark大型电商项目-大数据环境搭建之数据仓库hive安装
目录实验环境安装hive安装mysql配置文件测试hive是否安装成功本文主要介绍在之前搭建的集群基础上安装hive的详细过程。实验环境hive版本:hive 3.1.1版本可以从hive官网上下载需要的版本:https://hive.apache.org/downloads.html安装hive本人安装包是下载到了/下载这个文件夹下加压缩到/u...原创 2019-02-23 17:42:08 · 520 阅读 · 0 评论 -
5.Spark大型电商项目-大数据环境搭建之zookeeper集群
目录实验环境安装zookeeper修改配置文件 设置zookeeper节点标识搭建zookeeper集群启动zookeeper集群本文将主要介绍在之前集群环境的基础上安装zookeeper的详细过程。实验环境zookeeper版本:zookeeper-3.4.10可以到官网下载自己需要的版本:https://zookeeper.apache....原创 2019-02-23 20:06:28 · 325 阅读 · 0 评论 -
6.Spark大型电商项目-大数据环境搭建之kafka集群
目录实验环境安装scala安装kafka搭建kafka集群启动kafka集群本文主要介绍安装kafka集群实验环境scala版本:scala-2.11.6kafka版本 : kafka_2.11-2.1.1.tgzkafka可以到官网下载自己需要的版本:http://kafka.apache.org/安装scala在三台机器上分别用一下命令行安装...原创 2019-02-23 20:46:28 · 1918 阅读 · 0 评论 -
7.Spark大型电商项目-大数据环境搭建之flume安装
目录实验环境安装flume配置文件 创建需要的文件夹本文将主要介绍flume安装。实验环境flume版本:apache-flume-1.9.0可以根据自己的需要到官网下载自己需要的版本:http://flume.apache.org/安装flume将flume安装到Master目录/usr/local/下解压sudo tar apache-fl...原创 2019-02-23 21:05:46 · 2356 阅读 · 5 评论 -
8.Spark大型电商项目-大数据环境搭建之Spark集群安装
目录实验环境安装spark配置文件 搭建集群本文将主要介绍spark集群的安装。实验环境Spark版本:spark-2.3.0-bin-without-hadoop.tgz可以访问官网下载自己需要的spark版本:http://spark.apache.org/ 安装spark将spark安装到目录/usr/local/下解压安装包sudo...原创 2019-02-24 16:23:35 · 398 阅读 · 0 评论 -
9.Spark大型电商项目-离线日志采集流程介绍
本篇文章主要是介绍离线日志采集系统。原创 2019-02-24 17:11:44 · 505 阅读 · 1 评论 -
10.Spark大型电商项目-大实时数据采集流程介绍
原创 2019-02-24 20:10:00 · 735 阅读 · 0 评论 -
11.Spark大型电商项目-用户访问session分析-模块介绍
目录主要内容模块的目标对用户访问session进行分析在实际企业项目中的使用架构用户访问session介绍本篇文章主要介绍用户访问session的模块简介主要内容1 对用户访问session进行分析 2 JDBC辅助类封装 3 用户访问session聚合统计 4 按时间比例随机抽取session 5 获取点击、下单和支付次数排名前10的品类 6 获取top...原创 2019-02-24 21:02:27 · 417 阅读 · 0 评论 -
12.Spark大型电商项目-用户访问session分析-基础数据结构以及大数据平台架构介绍
目录使用到的表分析Hive表user_visit_action表user_info表MySQL表task表模块的业务逻辑说明本篇文章将主要介绍用户访问session分析模块中的基础数据结构。使用到的表分析Hive表user_visit_action表date:日期,代表这个用户点击行为是在哪一天发生的 user_id:代表这个点击行为是哪一个用...原创 2019-02-25 10:39:15 · 594 阅读 · 0 评论 -
13.Spark大型电商项目-用户访问session分析-需求分析
目录需求概述需求分析本篇文章主要介绍用户访问session的需求分析。需求概述1、按条件筛选session2、统计出符合条件的session中,访问时长在1s~3s、4s~6s、7s~9s、10s~30s、30s~60s、1m~3m、3m~10m、10m~30m、30m以上各个范围内的session占比;访问步长在1~3、4~6、7~9、10~30、30~60、60以上各个...原创 2019-02-25 11:14:22 · 331 阅读 · 0 评论 -
14.Spark大型电商项目-用户访问session分析-技术方案设计
目录需求点技术方案设计技术点本篇文章将主要介绍用户访问session技术方案设计。需求点1、按条件筛选session 2、聚合统计:统计出符合条件的session中,访问时长在1s~3s、4s~6s、7s~9s、10s~30s、30s~60s、1m~3m、3m~10m、10m~30m、30m以上各个范围内的session占比;访问步长在1~3、4~6、7~9、10~30、...原创 2019-02-26 09:33:49 · 441 阅读 · 0 评论 -
28.Spark大型电商项目-用户访问session分析-Spark上下文构建以及模拟数据生成
本篇文章将介绍Spark上下文构建以及模拟数据生成。编写代码MockData.javapackage main.xxx.java.test;import java.util.ArrayList;import java.util.Arrays;import java.util.List;import java.util.Random;import java.util.UU...原创 2019-03-01 11:00:41 · 356 阅读 · 0 评论 -
15.Spark大型电商项目-用户访问session分析-数据表设计
目录简介MySQL表1.session_aggr_stat表,存储第一个功能,session聚合统计的结果2.session_random_extract表,存储我们的按时间比例随机抽取功能抽取出来的1000个session3.top10_category表,存储按点击、下单和支付排序出来的top10品类数据4.top10_category_session表,存储top10...原创 2019-02-26 09:34:00 · 355 阅读 · 0 评论 -
29.Spark大型电商项目-用户访问session分析-按session粒度进行数据聚合
目录代码本篇文章将介绍用户访问session分析-按session粒度进行数据聚合.代码UserVisitSessioAnalyzeSpark.javapackage main.xxx.java.test;/** * FileName: UserVisitSessionAnlyizSpark * Author: hadoop * Email: 31658...原创 2019-03-01 16:36:35 · 353 阅读 · 0 评论 -
35.Spark大型电商项目-用户访问session分析-session聚合统计之本地测试
目录本地测试问题以及解决方案1.在task表中插入一条数据2.解决问题java.lang.NullPointerException: Value at index 6 is null2.测试插入计算的访问时间和步长本篇文章将介绍035.用户访问session分析-session聚合统计之本地测试。本地测试问题以及解决方案1.在task表中插入一条数据inser...原创 2019-03-05 11:13:43 · 437 阅读 · 2 评论 -
16.Spark大型电商项目-用户访问session分析-Idea工程搭建以及工具类说明_
目录创建maven工程编写工具类具体代码pom.xmlDateUtils.javaNumberUtils.javaParamUtils.javaStringUtils.javaValidUtils.java本文将介绍idea创建maven工程以及编写一些常用工具类。创建maven工程参考文章:IDEA中创建maven web项目的详细部署编写工具...原创 2019-02-26 09:54:58 · 573 阅读 · 0 评论 -
17.Spark大型电商项目-用户访问session分析-开发配置管理组件
目录创建文件夹编写代码ConfigurationManager.javaConfigurationManagerTest.javamy.properties运行结果本篇文章主要介绍用户访问session分析-开发配置管理组件。创建文件夹在java包下创建conf包,用于存放配置管理组件类创建一个与java包一级的resources文件夹创建N...原创 2019-02-26 11:30:01 · 321 阅读 · 0 评论 -
36.Spark大型电商项目-用户访问session分析-session聚合统计之使用Scala实现自定义Accumulator
目录代码SessionAggrStatAccumulatorTest.scala运行结果本篇文章将介绍用户访问session分析-session聚合统计之使用Scala实现自定义Accumulator。代码SessionAggrStatAccumulatorTest.scalapackage main.xxx.scala.sparkimport main....原创 2019-03-05 16:45:46 · 495 阅读 · 0 评论 -
37.Spark大型电商项目-用户访问session分析-session随机抽取之实现思路分析
目录需求思路数据分析本篇文章将介绍用户访问session分析-session随机抽取之实现思路分析。需求每一次执行用户访问session分析模块,要抽取出100个session。思路session随机抽取:按每天的每个小时的session数量,占当天session总数的比例,乘以每天要抽取的session数量,计算出每个小时要抽取的session数量;然后呢,在每天...原创 2019-03-05 17:03:08 · 244 阅读 · 0 评论 -
18.Spark大型电商项目-用户访问session分析-JDBC原理介绍以及增删改查示范
目录JDBC原理JDBC测试测试代码本篇文章介绍JDBC原理介绍以及增删改查。JDBC原理JDBC测试创建测试的数据表CREATE TABLE IF NOT EXISTS `test_user`( `id` INT UNSIGNED AUTO_INCREMENT, `name` VARCHAR(100) NOT NULL, `age` IN...原创 2019-02-26 17:18:27 · 286 阅读 · 0 评论 -
38.Spark大型电商项目-用户访问session分析-session随机抽取之计算每天每小时session数量
目录代码UserVisitSessionAnalyzeSpark.java本篇文章将介绍用户访问session分析-session随机抽取之计算每天每小时session数量。代码UserVisitSessionAnalyzeSpark.java /** * 特别说明 * 我们知道,要将上一个功能的session聚合统计数据获取到,就...原创 2019-03-05 20:07:50 · 1309 阅读 · 0 评论 -
22.Spark大型电商项目-用户访问session分析-按筛选参数对session粒度聚合数据进行过滤
目录代码UserVisitSessionAnalyzeSpark.javaConstants.java本篇文章将介绍按筛选参数对session粒度聚合数据进行过滤。代码UserVisitSessionAnalyzeSpark.javapackage main.xxx.java.test;/** * FileName: UserVisitSessionAnlyi...原创 2019-03-02 19:37:27 · 403 阅读 · 1 评论 -
19.Spark大型电商项目-用户访问session分析-数据库连接池原理
目录普通的数据库链接数据库连接池本篇文章主要介绍数据库连接池原理。普通的数据库链接每一次java程序要在MySQL中执行一条SQL语句,那么就必须建立一个Connection对象,代表了与MySQL数据库的连接。然后在通过连接发送了你要执行的SQL语句之后,就会调用Connection.close()来关闭和销毁与数据库的连接。为什么要立即关闭呢?因为数据库的连接是一种很重的资...原创 2019-02-26 19:52:08 · 349 阅读 · 0 评论 -
20.Spark大型电商项目-用户访问session分析-单例设计模式
目录什么是单例设计模式单例模式的应用场景有哪几个呢?单例设计模式实例 本篇文章将介绍单例设计模式。什么是单例设计模式 我们自己定义的类,其实默认情况下,都是可以让外界的代码随意创建任意多个实例的但是有些时候,我们不希望外界来随意创建实例,而只是希望一个类,在整个程序运行期间,只有一个实例 任何外界代码,都不能随意创建实例那么,要实现单例模式,有几个要点:1、如果不...原创 2019-02-26 20:22:03 · 497 阅读 · 0 评论 -
21.Spark大型电商项目-用户访问session分析-内部类以及匿名内部类
目录外部类内部类静态内部类和非静态内部类之间的区别主要如下1、内部类原理的区别2、创建方式的区别匿名内部类本篇文章主要介绍内部类和匿名内部类。外部类最普通的,我们平时见到的那种类,就是在一个后缀为.java的文件中,直接定义的类,比如public class Student { private String name; private int age...原创 2019-02-26 21:28:59 · 209 阅读 · 0 评论 -
22-23.Spark大型电商项目-用户访问session分析-开发JDBC辅助组件
目录编写配置文件my.properties编写常量借口Constants.java编写JDBC辅助组件JDBCHelper.java在ConfigurationManager.java中添加一个方法本篇文章将介绍JDBC辅助组件开发。编写配置文件my.propertiesjdbc.driver=com.mysql.jdbc.Driver;jdbc....原创 2019-02-26 22:34:12 · 259 阅读 · 0 评论 -
24.Spark大型电商项目-用户访问session分析-JavaBean概念讲解
目录JavaBean:类JavaBean通常怎么用?本篇文章主要介绍JavaBean概念。JavaBean:类JavaBean,虽然就是一个类,但是是有特殊条件的一个类,不是所有的类都可以叫做JavaBean的首先,它需要有一些field,这些field,都必须用private来修饰,表示所有的field,都是私有化的,不能随意的获取和设置其次,需要给所有的field,都提...原创 2019-02-27 11:27:26 · 205 阅读 · 0 评论 -
31.Spark大型电商项目-用户访问session分析-session聚合统计之自定义Accumulator
目录介绍session聚合统计这种传统的实现方式,缺点代码SessionAggrStatAccumulator.javaConstants.java本篇文章将介绍用户访问session分析-session聚合统计之自定义Accumulator。介绍session聚合统计统计出来之前通过条件过滤的session,访问时长在0s~3s的session的数量,占总...原创 2019-03-03 17:31:46 · 358 阅读 · 0 评论 -
32.Spark大型电商项目-用户访问session分析-session聚合统计之重构实现思路与重构session聚合
目录session聚合统计(统计出访问时长和访问步长,各个区间的session数量占总session数量的比例)如果不进行重构,直接来实现,思路普通实现思路的问题重构实现思路开发Spark大型复杂项目的一些经验准则重构的代码UserVisitSessionAnalyzeSpark.javaDateUtils.javaConstants.java本篇...原创 2019-03-04 11:31:13 · 404 阅读 · 0 评论 -
33.Spark大型电商项目-033.用户访问session分析-session聚合统计之重构过滤进行统计
目录代码修改UserVisitSessionAnalyzeSpark.java本篇文章将介绍033.用户访问session分析-session聚合统计之重构过滤进行统计。代码修改UserVisitSessionAnalyzeSpark.java// 接着,就要针对session粒度的聚合数据,按照使用者指定的筛选参数进行数据过滤 // 相当于我们自己编写...原创 2019-03-04 16:34:17 · 560 阅读 · 0 评论 -
34.Spark大型电商项目-用户访问session分析-session聚合统计之计算统计结果并写入MySQL
目录代码SessionAggrStat.javaDAOFactory.javaISessionAggrStatDAO.javaSessionAggrStatImpl.javaUserVisitSessionAnalyzeSpark.java本篇文章将介绍用户访问session分析-session聚合统计之计算统计结果并写入MySQL。代码SessionAggrS...原创 2019-03-04 21:29:07 · 373 阅读 · 2 评论 -
34-1.Spark大型电商项目-用户访问session分析-session聚合统计之计算统计结果可视化环境测试
目录创建WEB项目可视化结果测试可视化环境编写网页可视化结果由于最近参加一些其他活动,没有学习更新电商项目,今天继续。本篇文章将介绍用户访问session分析-session聚合统计之计算统计结果可视化。由于前面的项目创建的时候没有考虑到可视化可能遇到的问题,后面发现写网页的时候有问题,所以我就将项目从新迁移了一下。创建WEB项目创建步骤详情参考:Intel...原创 2019-03-20 21:34:15 · 407 阅读 · 0 评论 -
34-2.Spark大型电商项目-用户访问session分析-session聚合统计之计算统计结果可视化
目录代码ISessionAggrStatDAO.javaSessionAggrStatDAOImpl.javaServletSessionAggrStat.javaSessionAggrStatSelectTest.javajsp目录下----sessionAggrstat.jsp//写的真的很乱测试结果本篇文章将介绍用户访问session分析-session聚合统...原创 2019-03-20 21:49:11 · 296 阅读 · 0 评论 -
55.Spark大型电商项目-用户访问session分析-top10活跃session之本地测试以及阶段总结。
目录本地测试UserVisitSessionAnalyzeSpark.jaba总结本篇文章记录用户访问session分析-top10活跃session之本地测试以及阶段总结。本地测试UserVisitSessionAnalyzeSpark.jaba为防止sessionCount为null而报错 for(String...原创 2019-03-24 21:59:24 · 419 阅读 · 0 评论