
Spark用户数据分析项目实战(用户行为分析平台 )(全套)
文章平均质量分 92
讲述了大数据分析
详见附件
这个作者很懒,什么都没留下…
展开
-
七、Spark 1.5.1客户端安装以及基于YARN的提交模式
①spark有三种基本的提交模式,这里只介绍基于YARN的提交模式查看还剩多少内存:在sparkproject1的虚拟机上的/usr/local/目录下输入:free在Mem这一行,free这里列看到所剩的内存。②安装spark客户端1、利用WinSCP软件将文件spark-1.5.1-bin-hadoop2.4.tgz拷贝到虚拟机sparkproject1的/usr/local/...原创 2020-01-07 14:09:30 · 601 阅读 · 0 评论 -
六、flume-ng-1.5.0-cdh5.3.6安装
①什么是flume?flume简单来说,是离线的日志收集的工具。可以把离线收集的数据传输到hdfs上去,最传统的流程是,上传到hdfs以后,然后去跑一个mapreduce程序,再对离线的日志信息进行数据的清洗。清洗过后,我们通常把清洗过后的数据加载到hive里面去。做出一个hive的原始的一个表,然后后面走大量的hive的ETL,也就是会走大量的hive的sql。然后配置各种各样的调度。大量的...原创 2020-01-07 14:08:51 · 502 阅读 · 0 评论 -
五、kafka_2.9.2-0.8.1集群搭建
①为什么要搭建kafka集群主要是在项目后期,要做一个实时计算的模块,实时数据都是从kafka集群里面读取,kafka就是一个分布式的消息队列,kafka搭建的底层基于zookeeper,zookeeper在四、zookeeper-3.4.5-cdh5.3.6集群搭建已经搭建好了。②安装scala2.11.41、利用WinSCP软件将scala-2.11.4.tgz文件拷贝到虚拟机sp...原创 2020-01-07 14:08:02 · 407 阅读 · 0 评论 -
四、zookeeper-3.4.5-cdh5.3.6集群搭建
①为什么要搭建zookeeper以及zookeeper是什么?zookeeper是用来做分布式协调的技术框架。我们最后一个模块:实时计算模块,广告流量的实时计算模块,需要用到消息队列,消息队列采取kafka,kafka底层是zookeeper,所以我们必须把zookeeper搭起来。②拷贝文件将zookeeper-3.4.5-cdh5.3.6.tar.gz用软件WinSCP拷贝到虚拟机...原创 2020-01-07 14:07:19 · 546 阅读 · 0 评论 -
三、hive-0.13.1-cdh5.3.6和mysql的安装
①什么是hive为了让所有人想对hadoop的hdfs上面存储的大数据进行分析、统计和计算时,避免自己去手写mapreduce,好多数据分析师、数据统计师他们可能是只会sql,为了符合大众的需求,降低hadoop的使用门槛,诞生了hive。hive基于hadoop最核心的两个组件:存储(hdfs)和计算(mapreduce)。存储方面提供了数据仓库相关的 功能,相当于提供了数据仓库的模型,你可...原创 2019-07-11 13:27:39 · 682 阅读 · 0 评论 -
二、hadoop-2.5.0-cdh5.3.6集群搭建
①什么是CDHCDH就是cloudera hadoop的简称,是对开源hadoop的bug进行了修复的并且解决了大部分的依赖冲突。和开源的apache的hadoop的区别是:开源的会有一些bug和依赖(jar包)冲突。②安装hadoop包利用WinSCP软件上传hadoop-2.5.0-cdh5.3.6.tar.gz文件到虚拟机的/usr/local目录下这个文件下载地址是:htt...原创 2019-07-09 22:41:23 · 546 阅读 · 0 评论 -
一、搭建CentOS 6.4集群 之六 配置集群ssh免密码登录
①在三台机器的/etc/hosts文件中,都配置对三台机器的ip hostname的映射如:sparkproject3虚拟机如:sparkproject1虚拟机如:sparkproject2虚拟机然后再互相ping一下sparkproject1,分别ping:sparkproject2和sparkproject3sparkpr...原创 2019-07-08 14:29:29 · 174 阅读 · 0 评论 -
一、搭建CentOS 6.4集群 之五 安装第二台和第三台虚拟机
①按照搭建CentOS 6.4集群 之一至四,安装sparkproject2和sparkproject3。分别将CentOS-6.4-i386-minimal.iso文件拷贝进sparkproject1、sparkproject2和sparkproject3文件夹,然后调用。...原创 2019-07-08 13:06:19 · 136 阅读 · 0 评论 -
一、搭建CentOS 6.4集群 之四 安装JDK 1.7
①将jdk-7u65-linux-i586.rpm通过WinSCP上传到虚拟机中②安装jdk-7u65-linux-i586.rpm在SecureCRT中输入:cd /usr/local/rpm -ivh jdk-7u65-linux-i586.rpm来安装jdk。然后将安装包都删除输入:rm -rf *③配置jdk相关的环境变量jdk安装的目录是:/...原创 2019-07-07 21:36:06 · 150 阅读 · 0 评论 -
一、搭建CentOS 6.4集群 之三 配置DNS服务器、替换repo文件、配置yum
①配置DNS服务器在SecureCRT中输入:vi /etc/resolv.conf在里面加入:nameserver 61.139.2.69然后:ping www.baidu.com发现ping不通解决方案:输入:vi /etc/sysconfig/network-scripts/ifcfg-eth0内容为:内容为:DEVICE=eth0TYPE=Ethern...原创 2019-07-07 15:03:29 · 328 阅读 · 0 评论 -
一、搭建CentOS 6.4集群 之二 网络配置
①输入ifconfig,没有eth0的相关内容②输入:ifconfig eth0 192.168.1.110③输入:ifconfig出现eth0的信息。④输入:vi /etc/hosts按回车,再按键盘的字母 i 键,进入INSERT模式(插入模式),改变内容。回车后出现如下画面:再按键盘的字母 i 键,进入INSERT模式(插入模式):如下:...原创 2019-07-07 11:23:46 · 269 阅读 · 0 评论 -
一、搭建CentOS 6.4集群 之一 安装CentOS 6.4操作系统
一、安装VirtualBox①下载VirtualBox-4.14-7429-Win.exe,网址为:https://download.java.net/virtualbox/4.1.40/下载后双击VirtualBox-4.1.40-101594-Win.exe,下一步进行安装②安装Oracle_VM_VirtualBox_Extension_Pack-4.1.40...原创 2019-07-05 19:22:06 · 332 阅读 · 0 评论