
大数据
放置各种大数据技术的使用
Fernweb_
知行合一
展开
-
大数据学习之路
1.书籍1.1 导论(1)《大数据时代》 -维克托.迈尔-舍恩伯格(2)《大数据:正在到来的数据革命,以及它如何改变政府商业与我们的生活》 --涂子沛(3) 《 大数据在中国》 --赵伟1.2 Linux(1)《鸟哥的Linux私房菜》(2)《鸟哥的linux私房菜-服务器架设篇》(3)《Linux环境编程》1.3 Java(1)《疯狂Java讲义》1.4 全套使用(1) 《大数据技术原理与应用 》 – 林子雨 厦门大学(2) 《大数据:从基础理论到最佳实践》 --祁伟原创 2021-04-01 11:17:07 · 171 阅读 · 0 评论 -
腾讯云服务器搭建Hadoop
2021.3.27使用了四个云服务器但是有三种系统一种centos一种 ubuntu 18.04一种 ubuntu 20.04但四个节点配置好java hadoop 之后,主节点没有namenode,删除tmp文件 重新初始化也不行,看日志也没有错误,不知什么原因...原创 2021-03-27 10:17:53 · 469 阅读 · 0 评论 -
Linux 下Local模式安装部署Flink
1. Local模式安装部署Flink2. 本地模式(本地Shell窗口)$ ./start-scala-shell.sh local # 以local模式启动Shell窗口3. 本地模式(伪分布式集群)4. 输入网址 localhost:8081原创 2021-03-22 21:29:45 · 339 阅读 · 0 评论 -
Linux 使用 Maven 构建工具进行 Spark 应用程序开发
文章目录1. 使用 Maven 创建项目2. 检查项目的目录结构3. 将项目导入IDE4. 配置 Spark 依赖5. 编写应用逻辑代码6. Maven构建/编译项目7. 提交集群运行程序1. 使用 Maven 创建项目2. 检查项目的目录结构3. 将项目导入IDE4. 配置 Spark 依赖5. 编写应用逻辑代码6. Maven构建/编译项目7. 提交集群运行程序查看运行结果...原创 2021-03-22 20:48:49 · 284 阅读 · 0 评论 -
Linux 下使用 SBT 构建工具进行 Spark 应用程序开发
文章目录1. 安装配置 SBT1.1 解压缩并改变属主1.2在安装目录中使用下面命令创建一个Shell脚本文件,用于启动SBT1.3查看sbt版本信息,验证sbt安装成功与否2. 使用 Scala 语言编写应用程序2.1 创建程序根目录,并创建程序所需的文件夹结构2.2创建并编写SimpleApp.scala文件2.3 创建一个simple.sbt文件,内容如下2.4 使用sbt对应用程序进行打包3 提交应用程序到Spark运行1. 安装配置 SBT1.1 解压缩并改变属主1.2在安装目录中使用下面命原创 2021-03-22 20:45:53 · 500 阅读 · 0 评论 -
Linux 下Spark shell 编程实例
文章目录1. 统计用户收藏的商品数量1.1 统计用户收藏数据中,每个用户收藏商品的数量。1.2 统计用户收藏数据中都有哪些商品被收藏(去重)。2. 查询用户购买的商品1. 统计用户收藏的商品数量格式:用户Id 商品Id 收藏日期1.1 统计用户收藏数据中,每个用户收藏商品的数量。1.2 统计用户收藏数据中都有哪些商品被收藏(去重)。2. 查询用户购买的商品orders表(订单id, 订单号, 买家ID, 下单日期)order_items表(明细ID, 订单ID , 商品ID)原创 2021-03-22 20:42:29 · 535 阅读 · 0 评论 -
Linux 下Spark shell 与 RDD 基本操作
1. 启动Spark-shell./bin/spark-shell2. 学习RDD并实验RDD基本操作Spark RDD支持两种类型的操作:– 动作(action):在数据集上进行运算,返回计算值。– 转换(transformation): 基于现有的数据集创建一个新的数据集。2.1创建RDD2.2使用action API - count()可以统计该文本文件的行数2.3 使用transformation API - filter()可以筛选出只包含Spark的行2.4 实现词频统原创 2021-03-22 20:38:44 · 511 阅读 · 0 评论 -
Linux 下Spark on Yarn 部署
若没有看过Spark 本地部署与Spark standalone部署,可以参考之前的文章Linux 下Spark的Local部署(本地Spark shell和本地伪分布式集群)Linux下Spark Standalone 部署Spark on Yarn,只需要在Yarn集群其中一个节点上安装Spark即可,该节点可作为提交Spark应用程序到YARN集群的客户端。Spark本身的Master节点和Worker节点不需要启动,由Yarn集群统一调度。1. 修改 Yarn 集群配置修改node1 上原创 2021-03-22 20:35:59 · 718 阅读 · 2 评论 -
Linux下Spark Standalone 部署
1.集群规划:Master + Slave/Workernode01(IP地址:192.168.56.69,master+slave/worker)Node02(IP地址:192.168.56.216,slave/worker)node03(IP地址:192.168.56.140,slave/worker)1.修改主机名和域名映射,关闭防火墙2. 配置 Master 和 Slaves 之间的免密互信3.在master节点下载安装Spark,然后修改配置文件3.1 编辑slaves文件,添加所有原创 2021-03-22 20:27:48 · 309 阅读 · 1 评论 -
Linux 下Spark的Local部署(本地Spark shell和本地伪分布式集群)
1下载安装JDK1.82 下载安装scala修改配置文件:3 安装Spark修改配置文件:4运行 Spark Shell5 部署Spark本地伪分布式集群上面已经安装好了Hadoop伪分布式集群5.1 配置slaves文件伪分布式只有一个节点1.5.2 配置spark-env.sh文件5.3 启动Hadoop,启动Spark5.6在本地伪集群中做一些实验...原创 2021-03-22 20:23:32 · 282 阅读 · 0 评论 -
Linux 下伪分布式部署Hadoop
1. 按照单机本地部署Hadoop的步骤,完成本地Hadoop部署。本地部署Hadoop修改hadoop-env.sh(hadoop/etc/hadoop/目录下),配置其中的 JAVA_HOME 变量。2. 修改两个配置文件(hadoop/etc/hadoop/目录下)core-site.xmlhdfs-site.xml2.1 修改 core-site.xml2.2 修改hdfs-site.xml3. 执行NameNode节点格式化$ cd /usr/local/hadoop$原创 2021-03-22 20:19:00 · 198 阅读 · 0 评论 -
Linux 单机本地部署Hadoop
文章目录1.下载安装JDK1.82.下载&解压缩 Hadoop 到指定目录3.Local 运行 Hadoop3.1 统计词频3.2计算 PI 值1.下载安装JDK1.82.下载&解压缩 Hadoop 到指定目录解压缩安装文件到/usr/local : tar –zxvf hadoop-2.10.0.tar.gz -C /usr/local检查是否可用:cd /usr/local/hadoop; ./bin/hadoop version3.Local 运行 Hadoop3.原创 2021-03-22 20:12:33 · 270 阅读 · 0 评论