
spark实战
文章平均质量分 76
轉角码农
菜鸟级别程序员
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
电商用户行为分析大数据平台相关系列9-用户访问session的模块介绍
1、Session介绍用户在电商网站上,通常会有很多的点击行为,首页通常都是进入首页;然后可能点击首页上的一些商品;点击首页上的一些品类;也可能随时在搜索框里面搜索关键词;还可能将一些商品加入购物车;对购物车中的多个商品下订单;最后对订单中的多个商品进行支付。用户的每一次操作,其实可以理解为一个action,比如点击、搜索、下单、支付用户session,指的就是从用户第一次进入首页session就开原创 2017-05-23 08:46:19 · 7076 阅读 · 0 评论 -
电商用户行为分析大数据平台相关系列6-flume安装
1、Flume安装1.1、下载、解压1.2、配置环境变量(/etc/profile或者~/.bashrc),环境变量生效vim ~/.bashrc## 环境变量基本与Hadoop,Zookeeper等一致,但是需要注意,配置FLUME_CONF_DIRexport FLUME_HOME=/usr/local/flumeexport FLUME_CONF_DIR=$FLUME_HOME/conf原创 2017-05-18 00:00:11 · 1046 阅读 · 0 评论 -
电商用户行为分析大数据平台相关系列5-KAFKA安装
1、Scala安装1.1、下载、解压1.2、配置环境变量(/etc/profile或者~/.bashrc),环境变量生效1.3、验证是否安装成功scala -version1.4、其他服务器安装通过scp拷贝scala减压目录通过scp拷贝~/.bashrc文件登录服务器,生效环境变脸配置2、Kafka安装### 2.1、下载、解压2.2、配置Kafkavim $KAFKA_HOME/con原创 2017-05-16 22:53:56 · 1082 阅读 · 0 评论 -
电商用户行为分析大数据平台相关系列4-ZOOKEEPER安装
1 zookeeper安装1.1、下载、解压1.2、配置环境变量(/etc/profile或者~/.bashrc),环境变量生效1.3、配置zoo.cfgcp zoo_sample.cfg zoo.cfg修改dataDir(==zookeeper默认存放数据路径为临时文件,如果服务器重启,则文件丢失==)dataDir=$ZOOKEEPER_HOME/data在zoo.cfg新增zookee原创 2017-05-16 22:52:41 · 686 阅读 · 0 评论 -
电商用户行为分析大数据平台相关系列3-HIVE安装
1 HIVE安装1.1、下载、解压1.2、配置环境变量(/etc/profile或者~/.bashrc),环境变量生效1.3、安装Mysql在spark1安装mysql下载mysql-connector-java-..*.jar,并拷贝到$HIVE_HOME/lib中在mysql创建hive元数据库,并创建hive账号,然后授权。create database if not exists h原创 2017-05-15 22:21:14 · 1090 阅读 · 0 评论 -
电商用户行为分析大数据平台相关系列2-HADOOP环境搭建
1、HADOOP1.1 HADOOP安装1.1.1、下载、解压1.1.2、配置环境变量(/etc/profile或者~/.bashrc),环境变量生效1.1.3、配置Hadoop文件,并创建对应目录修改core-site.xml<property> <name>fs.default.name</name> <value>hdfs://spark1:9000</value></prope原创 2017-05-15 21:58:07 · 1801 阅读 · 0 评论 -
电商用户行为分析大数据平台相关系列7-spark安装
1、Spark安装1.1、下载、解压1.2、配置环境变量(/etc/profile或者~/.bashrc),环境变量生效1.3、配置spark-env.shspark-env.sh位于 $SPARK_HOME/confcp spark-env.sh.template spark-env.sh配置如下export JAVA_HOME=/usr/java/latestexport SCALA_原创 2017-05-18 22:31:29 · 1416 阅读 · 0 评论 -
电商用户行为分析大数据平台相关系列1-环境介绍
最近在自学Spark,看了一些书籍和视频,总是感觉无从下手。拿着一个想法总是无从下手。追其原因,主要是没有系统的学习和使用。对于IT,一切新技术都需要不断实践、不断动手。本着动手的原则,本人通过各种渠道找到一个电商用户行为分析平台,准备从头开始,跟着视频及文档从头完做起,直到完成该项目。 该系列博客主要记录自己的学习过程,顺带着当作笔记以供后续参考。如果有朋友看到该博客,觉得可以借鉴一些东西,也算原创 2017-05-15 21:51:46 · 3364 阅读 · 3 评论 -
电商用户行为分析大数据平台相关系列10-基础数据结构分析
数据结构分析主要是分析数据库表结构,其中包括Hive表以及Mysql表。课程实战中主要用了以下数据表: - user_visit_action(Hive表):用户访问行为表 - user_info(Hive表):用户基本信息表 - task(Mysql表):用户提交任务记录表。1、表结构详细说明:1.1、user_visit_actionuser_visit_action表,其实就是放网站或者原创 2017-05-23 09:55:59 · 4105 阅读 · 0 评论 -
电商用户行为分析大数据平台相关系列8-数据分析流程
1、离线数据(日志)分析流程离线数据分析是一种非实时数据分析,主要是分析日志、用户操作历史或者对已有历史数据分析。本文将以最常见的日志分析作为介绍,其他类似,只是数据收集方式可能不一样。1.1、数据来源数据来源主要依赖于分析系统服务于哪些业务。如,需要分析用户购物习惯或者分析各个区域热销商品,则需要依赖于购物网站的操作日志或者销售日志。而如果是分析各个地区某一时段通话、上网高峰,则数据来源则是运营商原创 2017-05-22 10:27:41 · 7720 阅读 · 0 评论