自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 收藏
  • 关注

原创 大数据应用技术实验报告七 Spark

Spark好在哪里? Spark的中间数据放到内存中,对于迭代运算效率更高。 Spark更适合于迭代运算比较多的ML和DM运算。因为在Spark里面,有RDD的抽象概念。 Spark比Hadoop更通用 Spark提供的数据集操作类型有很多 ①Transformations转换操作:map, filter, flatMap, sample, groupByKey, reduceByKey, uni...

2019-05-25 16:45:12 2861

原创 Hive安装与配置

Hive安装与配置 ①下载压缩包 官网下载地址:http://mirror.bit.edu.cn/apache/hive/ 选择apache-hive-2.3.4-bin.tar.gz,在Windows里面下载。 ②将压缩包从Windows传输到Linux当前目录下¬¬ SecureCRT 【File】→【Connect SFTP Session】开启sftp操作 ③解压 解压安装到指定目录下/o...

2019-05-25 16:29:39 476

原创 大数据应用技术实验报告六 Hive和MySQL

MapReduce 实现 HiveQL 常见操作 Join的实现原理: select u.name, o.orderid from order o join user u on o.uid = u.uid; MapReduce 实现 HiveQL 常见操作 Group By的实现原理: select rank, isonline, count(*) from city group ...

2019-05-25 16:24:09 959

原创 大数据应用技术实验报告五 NoSQL

NoSQL数据库Redis在Linux系统下的安装和运维 可参考https://blog.youkuaiyun.com/qq_15329947/article/details/87003791 Redis常用命令**(转载https://www.cnblogs.com/kevinws/p/6281395.html)** doc 环境下使用命令: keys 命令 ? ...

2019-05-25 16:08:46 1379

原创 大数据应用技术实验报告四 HBase

HBase安装配置 ①下载压缩包(选择与自己安装的Hadoop版本的兼容版本,见后面附录) 官网下载地址:https://mirrors.tuna.tsinghua.edu.cn/apache/hbase/stable/ 选择稳定版hbase-1.4.9-bin.tar.gz,在Windows里面下载。 ②将压缩包从Windows传输到Linux当前目录下 SecureCRT 【File】→【C...

2019-05-25 15:50:50 1759

原创 大数据应用技术实验报告三 MapReduce分布式编程

MapReduce 分布式计算系统 Mapper负责“分” 分解计算任务,规模大大缩小; “计算向数据靠近” ; 这些小任务可以并行计算。 Reducer负责“汇总” map阶段的结果 Combiner函数 本地化的reducer Partitioner函数 决定着Map节点的输出将被分区到哪个Reduce节点 什么是shuffle 怎样把map task的输出结果有效地传送到reduce...

2019-05-25 15:28:53 2374

原创 大数据应用技术实验报告二 HDFS命令和Java API

Linux的shell命令 常用的linux的shell命令: cd /aa 转到/aa目录 pws 显示当前目录 ll /aa 显示/aa目录 mkdir /aa 新建/aa目录 rm /aa/out.txt 删除/aa目录下的out.txt文件 cat /aa/out.txt 查看/aa目录下的out.txt文件的...

2019-05-25 15:13:44 2171

原创 Eclipse里新建Maven Project

在Eclipse里新建Maven Project 在Eclipse里新建Maven Project 输入com.bla,项目名称HDFSTest。 自动生成Maven项目,新建包hdfs.files,包里新建class:4个java文件。 编程过程使用Eclipse快捷键 Alt+/ 自动补全单词 Ctrl+1 自动修正,自动添加包、异常。 ...

2019-05-25 14:59:11 237

原创 安装配置JDK+Eclipse+Maven

步骤:1.安装JDK→2.安装Eclipse→3.安装Maven→4. Eclipse里配置Maven (下载Windows版本,在Windows里安装使用。) 1.安装配置JDK ①官网下载Java开发工具安装包jdk-8u201-windows-x64.exe:https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downl...

2019-05-25 14:56:28 220

原创 克隆虚拟机

克隆虚拟机 先关闭被克隆虚拟机,【虚拟机(M)】→【管理(M)】→【克隆©】

2019-05-21 10:51:43 227

原创 大数据应用技术实验报告一 Hadoop三种模式安装配置

JDK+Hadoop安装配置、单机模式配置 以下操作在SecureCRT里面完成 1.关闭防火墙 firewall-cmd --state 显示防火墙状态running/not running systemctl stop firewalld 临时关闭防火墙,每次开机重新开启防火墙 systemctl disable firewalld 禁止防火墙服务。 2.传输JDK和HADOOP压缩包 Sec...

2019-05-21 10:49:44 2990

原创 SecureCRT新建Session修改外观

SecureCRT新建Session、修改外观 Hostname输入下下图安装CentOS时的以太网IP地址 Session name可以任意 双击新建Session,输入root用户密码,选择【Save password】 连接成功 修改外观:【Options】→【Session Options】→【Appearance】→【Font】选择字体 【Character encoding...

2019-05-21 10:38:02 909

原创 SecureCRT安装

安装SecureCRT 安装完成后不运行程序,复制压缩包中的Kg_ttrar.exe程序到安装目录。 运行Kg_ttrar.ex,点击Patch按钮两次,分别加载两个默认文件,对源程序(即所安装程序的主程序)打补丁。如下所示: 选择SecureCRT文件,点击【打开】 选择LicenseHelper文件,点击【打开】 启动SecureCRT,点击【Enter License ...

2019-05-21 10:35:07 444

原创 CentOS7安装

安装CentOS7 点击【创建新的虚拟机】 点击【自定义安装】 点击【下一步】 点击【稍后安装操作系统(S)】 点击【Linux(L)】 输入虚拟机名称,选择安装位置 点击【下一步】 点击【下一步】 点击【使用网络地址转换(NAT)(E)】 选择【LSI Logic(L)】点击【下一步】 选择【SCSI(S)】点击【下一步】 选择【创建新虚拟磁盘】点击【下一步】 选择【将虚...

2019-05-21 10:28:46 241

原创 Vmware Workstation Pro 12安装步骤

Vmware Workstation Pro 12安装步骤 点击【下一步】开始安装 点击【更改】,选择安装路径,点击【下一步】 取消勾选,点击【下一步】 点击【安装】 点击【许可证】 粘贴激活码文件里的激活码,点击【输入】 点击【完成】,安装完成 ...

2019-05-21 10:19:45 1234

原创 初次使用简易爬虫软件

2019-03-11 20:52:38 301

转载 什么是大数据

大数据 概念:指的是传统数据处理应用软件不足以处理(存储和计算)它们大而复杂的数据集。 数据级别:1.MB:普通用户数据级别 2.PB:企业级数据级别 3.ZB:全球数据总量级别 特点:容量大,种类多,速度快,价值高 ...

2019-03-04 20:11:25 370

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除