
大数据技术
雨季丶
一直在追遂
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Sqoop安装配置
目录一、安装准备二、安装Sqoop三、配置Sqoop四、测试一、安装准备Sqoop安装包:二、安装Sqoop1.上传文件到hadoop01虚拟机的/export/software目录2.解压并移动到servers目录[root@hadoop01 software]# tar -zxvf sqoop-1.4.6.bin__hadoop-2.0.gz -C /export/servers/3.重命名[root@hadoop01 servers]..原创 2020-06-04 18:06:08 · 398 阅读 · 0 评论 -
Flume安装配置
目录一、安装准备二、安装Flume三、配置Flume四、测试一、安装准备Flume安装包:链接:https://pan.baidu.com/s/1GZN-vzvDnd_I_r40p_qc6g提取码:8fkx二、安装Flume1.上传文件到hadoop01虚拟机2.解压并移动到servers目录tar -zxvf apache-flume-1.8.0-bin.tar.gzmv apache-flume-1.8.0-bin /export/serve..原创 2020-05-21 18:14:43 · 423 阅读 · 0 评论 -
Hive的安装(三种模式)
目录一、安装准备二、三种模式简介三、嵌入模式四、本地模式五、远程模式一、安装准备1.hive安装包 ,mysql连接驱动链接:https://pan.baidu.com/s/1lIMygm5UsJTq91gstQCFBA提取码:o7pi2.hive是依赖hadoop系统的,还应保证hadoop集群搭建成功hadoop集群搭建二、三种模式简介...原创 2020-04-30 21:01:40 · 1574 阅读 · 0 评论 -
Zookeeper分布式集群部署
一、安装准备zookeeper安装包:zookeeper-3.4.14.tar 提取码:guoj二、安装zookeeper1.将zookeeper安装包上传到Linux系统的 /export/software/目录下 cd /export/software/2.解压安装包到/export/servers/ 目录下tar -zxvf zookeeper-3....原创 2020-04-13 19:09:29 · 318 阅读 · 0 评论 -
Hadoop安装教程+集群部署
一、安装准备vm15pro,centos6.9,jdk1.8,hadoop2.7.4,SecureCR+SecureFX 7.0.0 Build 326(64位版)二,安装虚拟机(1)新建虚拟机(2)编辑虚拟机设置(3)初始化虚拟机创建三个文件夹,方便以后使用(4)克隆虚拟机右键点...原创 2020-02-28 20:49:05 · 705 阅读 · 0 评论 -
MapReduce实现二次排序
本文参考章鱼大数据https://www.ipieuvre.com/e/54/311/9533问题:在电商网站中,用户进入页面浏览商品时会产生访问日志,记录用户对商品的访问情况,现有goods_visit2表,包含(goods_id,click_num)两个字段,编写MapReduce代码,功能为根据商品的点击次数(click_num)进行降序排序,再根据goods_id升序排序,并输...原创 2019-11-27 21:34:26 · 891 阅读 · 0 评论 -
MapReduce实战PageRank
本文参考章鱼大数据平台 https://www.ipieuvre.com/e/190/311/9539PageRank:网页排名,右脚网页级别。是以Google 公司创始人Larry Page 之姓来命名。PageRank 计算每一个网页的PageRank值,并根据PageRank值的大小对网页的重要性进行排序。PageRank的基本思想:1.如果一个网页被很多其他网页链接到...原创 2019-11-27 21:24:03 · 351 阅读 · 0 评论 -
Spark SQL编程基础
一、概述Spark SQL重要的是操作DataFrame,DataFrame本身提供了Save和Load的操作,Load:可以创建DataFrame。Save:把DataFrame中的数据保存到文件或者说用具体的格式来指明我们要读取的文件类型,以及用具体的格式来指出我们要输出的文件是什么类型。DataFrame本质是数据 + 数据的描述信息(结构元信息)。二、DataFrame...原创 2019-11-27 18:02:42 · 234 阅读 · 0 评论 -
Spark RDD编程基础
一、数据读写(1)从文件系统加载数据创建RDD ①本地文件:sc.textFile("file:///data/spark/buyer_favorite") ②HDFS文件:sc.textFile("hdfs://localhost:9000/spark/buyer_favorite")(2)通过并行集合创建RDD val array = Array(1,2,3,4,5)...原创 2019-11-27 17:36:44 · 1699 阅读 · 1 评论