
大数据
文章平均质量分 98
Sparky*
只有经历过一切,才有资格选择
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
ubuntu16.04安装sbt
文章目录下载sbt安装包https://www.scala-sbt.org/download.html用传输工具将这个压缩包传到ubuntu解压到/usr/local目录下tar -zxvf sbt-1.4.3.tgz /usr/local建立启动sbt的脚本文件cd /usr/local/sbt/ #进入sbt目录vi sbt #编写sbt脚本 # 在sbt文本文件中添加如下信息:BT_OPTS="-Xms512M -Xmx1536M -Xss1M -XX:+CMSCla原创 2020-11-23 22:20:03 · 1837 阅读 · 0 评论 -
OpenStack平台超详细搭建步骤(先电版--附镜像文件)
centos版本:CentOS-7-x86_64-DVD-2003.isoXianDian版本:XianDian-IaaS-v2.2.iso原创 2020-11-21 21:54:47 · 13412 阅读 · 27 评论 -
Spark三种模式搭建
文章目录启动命令命令行工具退出本地模式虚拟机中执行打包程序独立部署(Standalone)模式启动命令bin/spark-shell启动之后ip地址:4040访问spark命令行工具在解压缩文件夹下的 data 目录中,添加 word.txt 文件。在命令行工具中执行如下代码指令(和 IDEA 中代码简化版一致) sc.textFile("data/word.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect原创 2020-11-02 21:57:15 · 983 阅读 · 0 评论 -
电商数仓(四)
文章目录业务知识准备业务术语系统函数collect_set函数日期处理函数DWS层加载数据脚本ADS层加载数据脚本新数据准备业务知识准备业务术语用户用户以设备为判断标准,在移动统计中,每个独立设备认为是一个独立用户。Android系统根据IMEI号,IOS系统根据OpenUDID来标识一个独立用户,每部手机一个用户。新增用户首次联网使用应用的用户。如果一个用户首次打开某APP,那这个用户定义为新增用户;卸载再安装的设备,不会被算作一次新增。新增用户包括日新增用户、周新增用户、月新增用户。活跃原创 2020-10-31 12:36:29 · 659 阅读 · 0 评论 -
电商数仓(三)
文章目录数仓搭建之ODS层ODS层加载数据脚本数仓搭建之ODS层创建数据库1)创建gmall数据库hive (default)> create database gmall;说明:如果数据库存在且有数据,需要强制删除时执行:drop database gmall cascade;2)使用gmall数据库hive (default)> use gmall;ODS层加载数据脚本1)在hadoop102的/home/atguigu/bin目录下创建脚本vi ods_log.sh原创 2020-10-30 11:03:36 · 769 阅读 · 0 评论 -
电商数仓(二)
文章目录数仓分层数仓命名规范hive&Mysql的安装Hive安装部署Hive基本操作安装Mysql数仓分层数仓命名规范ODS层命名为odsDWD层命名为dwdDWS层命名为dwsADS层命名为ads临时表数据库命名为xxx_tmp备份数据数据库命名为xxx_bakhive&Mysql的安装Hive安装部署需要以上三个压缩包(1)把apache-hive-1.2.1-bin.tar.gz上传到linux的/opt/software目录下(2)解压apache原创 2020-10-29 20:48:27 · 697 阅读 · 0 评论 -
电商数仓(一)
文章目录jdk配置命令hadoop配置编写集群分发脚本 xsync配置hadoop集群jdk配置命令解压JDK到/opt/module目录下 tar -zxvf jdk-8u144-linux-x64.tar.gz -C /opt/module/进入/opt/module/jdk1.8.0_144目录pwd # 查看jdk的路径打开/etc/profile文件sudo vi /etc/profile在profile文件末尾添加JDK路径#JAVA_HOMEexpor原创 2020-10-25 08:01:16 · 727 阅读 · 0 评论 -
centos6.8知识点
文章目录1.网络设置2.修改主机名网络服务防火墙关机重启命令1.网络设置修改ip地址vim /etc/sysconfig/network-scripts/ifcfg-eth0执行service network restart如果报错,reboot,重启虚拟机2.修改主机名查看当前主机名hostname 如果感觉此主机名不合适,我们可以进行修改。通过编辑/etc/sysconfig/network文件vi /etc/sysconfig/network保原创 2020-10-24 16:22:31 · 476 阅读 · 0 评论 -
大数据集群启动顺序及命令
1.启动zookeeper进入目录cd /opt/module/zookeeper-3.4.10/启动zookeeperbin/zkServer.sh start查看状态bin/zkServer.sh status2.启动hadoop进入hadoop目录cd /opt/module/hadoop-2.7.3/启动所有服务sbin/start-dfs.sh在slave1上启动yarn(先进入hadoop目录)sbin/start-yarn原创 2020-10-18 19:13:16 · 1743 阅读 · 0 评论 -
Windows上eclipse搭建hadoop
文章目录配置环境变量eclipse配置run as配置preference设置Map/Reduce设置修改权限配置环境变量HADOOP_HOMEE:\bigdata\hadoop-2.7.3在path下添加%HADOOP_HOME%\bineclipse配置run as配置preference设置Map/Reduce设置修改权限hadoop fs -chmod -R 777 /...原创 2020-09-30 16:05:29 · 567 阅读 · 0 评论 -
HDFS的Shell操作(开发重点)
文章目录常用命令实操常用命令实操启动Hadoop集群master上执行:sbin/start-dfs.shslave1上执行:sbin/start-yarn.sh-help:输出这个命令参数hadoop fs -help rm-ls: 显示目录信息hadoop fs -ls /-mkdir:在HDFS上创建目录hadoop fs -mkdir -p /sanguo/shuguo-moveFromLocal:从本地剪切粘贴到HDFStouch kongmin原创 2020-09-28 10:46:50 · 307 阅读 · 0 评论 -
分布式时间同步
文章目录1. crond 系统定时任务crond 服务管理crontab 定时任务设置2.集群时间同步配置时间同步具体实操:1. crond 系统定时任务crond 服务管理重新启动crond服务service crond restart启动crond服务systemctl start crond 停止crond服务systemctl stop crond crontab 定时任务设置1.基本语法crontab [选项]2.选项说明3.参数说明crontab -e原创 2020-09-27 18:06:38 · 835 阅读 · 0 评论 -
spark知识总结
文章目录1.RDD定义2.RDD特性3. Spark中的概念4.spark组成模块1.RDD定义RDD是Resillient Distributed Dataset(弹性分布式数据集)的简称,是分布式内存的一个抽象概念,提供了一种高度受限的共享内存模型一个RDD就是一个分布式对象集合,本质上是一个只读的分区记录集合,每个RDD可分成多个分区,每个分区就是一个数据集片段,并且一个RDD的不同分区可以被保存到集群中不同的节点上,从而可以在集群中的不同节点上进行并行计算RDD提供了一种高度受限的共享内原创 2020-07-25 00:16:23 · 262 阅读 · 0 评论 -
YARN(资源调度器)知识总结
文章目录1. YARN基础架构1.1ResourceManager主要作用1.2NodeManager主要作用1.3ApplicationMaster主要作用1.4 Container主要作用2.YARN的工作机制1. YARN基础架构YARN主要由ResourceManager、NodeManager、ApplicationMaster和Container等组件构成1.1ResourceManager主要作用1、接收和处理客户端的请求2、管理NodeManager3、启动和管理Applica原创 2020-07-24 17:19:37 · 528 阅读 · 0 评论 -
MapReduce知识总结
文章目录1.MapReduce概述2.Map和Reduce函数3.MapReduce的核心思想3.1MapTask3.2ReduceTask4. MapReduce优缺点4.1优点4.2缺点5.MapReduce工作流程6. Shuffle详解6.1Shuffle过程简介6.2. Map端的Shuffle过程6.3. Reduce端的Shuffle过程7.MapReduce编程7.1Mapper阶段7.2Reduce阶段7.3Driver阶段1.MapReduce概述Map Reduce是一个分布式运原创 2020-07-24 16:48:51 · 1704 阅读 · 0 评论 -
数据清洗知识点总结
文章目录1.Flume基本概念2.Flume基础架构3.Flume的内部原理1.Flume基本概念Flume 是 Cloudera 提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传 输的系统。Flume 基于流式架构,灵活简单。 为什么选用Flume2.Flume基础架构AgentAgent 是一个 JVM 进程,它以事件的形式将数据从源头送至目的。Agent 主要有 3 个部分组成,Source、Channel、Sink。SourceSource 是负责接收数原创 2020-07-24 15:45:31 · 604 阅读 · 0 评论 -
Hive常见属性配置
文章目录任务1:Hive 数据仓库位置配置任务2:查询后信息显示配置任务3:Hive 运行日志信息配置任务1:Hive 数据仓库位置配置default 数据仓库的最原始位置是在 HDFS 上的:/user/hive/warehouse 路径下。在仓库目录下,没有对默认的数据库 default 创建文件夹。如果某张表属于 default 数据库,直接在数据仓库 /user/hive/warehouse 目录下创建一个文件夹。要想修改 default 数据仓库原始位置,方式是将 hive-d原创 2020-07-24 08:10:33 · 314 阅读 · 0 评论 -
ssh免密登录配置
文章目录配置 SSH 免密登录1. SSH 概念2. SSH 组成3. SSH 实现过程4. SSH 实现步骤配置 SSH 免密登录(1)实际工作中,服务器被放置在机房中,同时受到地域和管理的限制,开发人员通常不会进入机房直接上机操作,而是通过远程连接服务器进行相关操作。(2)在集群开发中,主节点通常会对集群中各个节点频繁地访问,就需要不断输入目标服务器的用户名和密码,这种操作方式非常麻烦并且还会影响集群服务的连续运行。 为了解决上述问题,可以通过配置 SSH 服务来分别实现远程登录和 SS原创 2020-07-22 22:55:23 · 772 阅读 · 0 评论 -
YARN伪分布式集群搭建
文章目录任务1:YARN 集群主要配置文件讲解1.1 配置环境变量yarn-env.sh1.2 配置计算框架mapred-site.xml1.3 配置YARN系统yarn-site.xml任务2:YARN 集群测试2.1 启动和关闭 YARN 集群2.2 查看进程启动情况2.3 通过UI查看 YARN 运行状态任务1:YARN 集群主要配置文件讲解1.1 配置环境变量yarn-env.sh该文件是 YARN 框架运行环境的配置,同样需要修改 JDK 所在位置。我们可以使用如下命令打开“yarn-en原创 2020-07-22 23:54:50 · 1138 阅读 · 0 评论 -
HDFS伪分布式集群搭建
文章目录任务1:集群简介任务2:安装包准备任务3:HDFS 集群主要配置文件讲解3.1 配置环境变量hadoop-env.sh3.2 配置核心组件core-site.xml3.3 配置文件系统hdfs-site.xml3.4 配置slaves文件任务4:配置Hadoop系统环境变量任务5:HDFS 集群测试5.1 格式化文件系统5.2 启动和关闭HDFS集群5.3 查看进程启动情况5.4 通过UI查看 HDFS 运行状态任务1:集群简介Hadoop 集群具体来说包含两个集群:HDFS 集群和YARN 集原创 2020-07-22 23:35:36 · 557 阅读 · 0 评论 -
全国大学生大数据技能竞赛
文章目录1.ip地址配置1.ip地址配置查看ip信息ip addr修改配置文件vi /etc/sysconfig/network-scropts/ifcfg-ens333.修改完成后4. 重启网络服务service network restart5.检测网络连接原创 2020-07-05 21:13:43 · 11012 阅读 · 9 评论 -
VMware15安装Centos7图解教程
原创 2020-07-03 19:09:15 · 206 阅读 · 0 评论 -
Linux知识总结(二)
文章目录3.组管理和权限管理3.1Linux组基本介绍3.2文件/目录的所有者3.2.1 查看文件的所有者3.2.2修改文件所有者3.3文件/目录的所在组3.3.1修改文件所在的组3.3.2 改变用户所在组4.进程管理4.1显示系统执行的进程(PS)4.2终止进程kill和killall4.3查看进程树pstree4.4服务(service)管理(service和chkconfig)4.5动态监控进程(top)4.6监控网络状态netstat(重要)3.组管理和权限管理3.1Linux组基本介绍在li原创 2020-06-10 22:41:54 · 603 阅读 · 0 评论 -
大数据技术之shell编程
1.Shell脚本入门1.1脚本格式规范的Shell脚本第一行会指出由哪个程序(解释器)来执行脚本中的内容。#!/bin/bash或#!/bin/sh注意:这一行必须在每个脚本顶端的第一行,如果不是第一行则为脚本注释行。sh是bash的软链接,推荐标准写法#!/bin/bash1.2第一个Shell脚本:helloworld(1)需求:创建一个Shell脚本,输出helloworld(2)案例实操:[sparky@hadoop101 datas]$ touch helloworld原创 2020-06-08 09:11:09 · 526 阅读 · 0 评论 -
Linux知识总结(一)
1.Linux目录结构1.1基本介绍1.2具体目录结构2.Linux常用命令2.1运行级别说明 假设我们的root密码忘记了,请问如何找回密码【练习】启动时->快速输入enter->输入e-> 进入到编辑界面-> 选择中间有kernel 项->输入e(edit)-> 在该行的最后写入 1 [表示修改内核,临时生效]-> 输入enter->输入b [boot]-> 进入到单用模式 【这里就可以做补救工作】2.2帮助指令【man he原创 2020-06-07 19:54:09 · 252 阅读 · 0 评论 -
大数据技术之HDFS
1.HDFS简介 (Hadoop分布式文件系统)HDFS是一个运行在通用硬件设备之上的分布式文件系统。HDFS是高度容错的,在廉价的硬件上部署。HDFS提供以高吞吐量访问应用数据的能力,非常适合拥有大数 据集的应用。HDFS放宽了一些POSIX的需求,允许对文件系统数据的流式访问。HDFS源自为Apache Nutch Web搜索引擎项目建立的框架,是Apache Hadoop的核心项目。1.1HDFS优缺点优点:高容错性1.1数据自动保存多个副本。它通过增加副本的形式,提高容错性1.2 某原创 2020-06-03 17:55:04 · 939 阅读 · 0 评论 -
大数据技术之HBase
1.数据模型1.1数据模型概述HBase是一个稀疏、多维度、排序的映射表,这张表的索引是行键、列族、列限 定符和时间戳每个值是一个未经解释的字符串,没有数据类型用户在表中存储数据,每一行都有一个可排序的行键和任意多的列表在水平方向由一个或者多个列族组成,一个列族中可以包含任意多个列,同一 个列族里面的数据存储在一起列族支持动态扩展,可以很轻松地添加一个列族或列,无需预先定义列的数量以 及类型,所有列均以字符串形式存储,用户需要自行进行数据类型转换HBase中执行更新操作时,并不会删除数据旧的原创 2020-06-03 17:43:34 · 456 阅读 · 0 评论 -
Centos6完全分布式部署Hadoop
文章目录1. 虚拟机准备2. 编写集群分发脚本xsync1. scp(secure copy)安全拷贝2.rsync 远程同步工具3.xsync集群分发脚本3.集群配置1. 集群部署规划2. 配置集群3.在集群上分发配置好的Hadoop配置文件4.查看文件分发情况4. 集群单点启动5.SSH无密登录配置6 群起集群7.集群启动/停止方式总结1. 虚拟机准备详见:hadoop运行环境搭建2. 编写集群分发脚本xsync1. scp(secure copy)安全拷贝scp定义:scp可以实现服务器原创 2020-05-24 21:57:54 · 290 阅读 · 0 评论 -
VMTools安装
1.什么是VMtoolsVM tools顾名思义就是Vmware的一组工具。主要用于虚拟主机显示优化与调整,另外还可以方便虚拟主机与本机的交互,如允许共享文件夹,甚至可以直接从本机向虚拟主机拖放文件、鼠标无缝切换、显示分辨率调整等,十分实用。2.先启动CentOS并成功登录如图所示,发现底部提示且窗口中等大小,准备安装3.选择虚拟机菜单栏–安装VMware tools,如图图所示4.光驱自动挂载VMTools,如图所示5.右键解压VMwaretools-9.6.2-1688356.tar.gz,如原创 2020-05-24 18:21:10 · 499 阅读 · 0 评论 -
Hadoop运行环境搭建(命令+图解)
文章目录1.虚拟机环境准备1.1 克隆虚拟机(一共三台)1.2修改克隆虚拟机的静态IP1.3修改主机名1.4 关闭防火墙1.5创建hadoop用户1.6 配置atguigu用户具有root权限2.安装JDK3.安装HadoopHadoop目录结构1.虚拟机环境准备1.1 克隆虚拟机(一共三台)1.2修改克隆虚拟机的静态IP在终端命令窗口输入[root@hadoop101 /]#vim /etc/udev/rules.d/70-persistent-net.rules进入如下页面,删除et原创 2020-05-24 17:33:57 · 1948 阅读 · 1 评论 -
ubantu设置正确的静态ip
原创 2020-05-13 21:35:56 · 171 阅读 · 0 评论 -
ubantu报错笔记
文章目录没有可安装候选没有可安装候选解决办法:原因:本地没有该功能的资源解决方法:使用sudo apt-get update命令进行更新资源Linux系统需要更新,用以下命令:sudo apt-get update或者Linux系统软件需要升级,用以下命令:sudo apt-get upgrade然后执行:sudo apt install net-tools...原创 2020-05-06 06:45:53 · 517 阅读 · 0 评论 -
从VMware15到ubantu安装教程(最全图解)
文章目录VMware15虚拟机安装教程VMware15虚拟机安装教程点击【下一步】勾选【我接受条款协议中的条款】,然后点击【下一步】。点击【更改】更改软件的安装目录,建议安装在除C盘之外的其他盘符,可以在D盘或者其他盘新建一个【VMware15】文件夹,然后点击【下一步】。取消勾选,然后点击【下一步】。点击【下一步】。点击【安装】。点击【许可证】。在框中输入“FC...原创 2020-05-07 16:53:37 · 964 阅读 · 0 评论 -
VMware下安装ubantu
VMware版本12.1.0 build-3272444ubantu版本ubuntu-18.04.4-desktop-amd64.iso安装图解原创 2020-05-04 22:09:06 · 194 阅读 · 0 评论