小坏蛋儿&-优快云博客

原创数据安全RAID技术

1988 年美国加州大学伯克利分校的 D. A. Patterson 教授等首次在论文 “A Case of Redundant Array of Inexpensive Disks” 中提出了 RAID 概念，即廉价冗余磁盘阵列（ Redundant Array of Inexpensive Disks ）。由于当时大容量磁盘比较昂贵， RAID 的基本思想是将多个容量较小、相对廉价的磁盘进行有机组合，从而以较低的成本获得与昂贵大容量磁盘相当的容量、性能、可靠性。

2023-04-16 14:38:28 858

原创基于 RDD 的分布式数据处理实验（pyspark）

ubuntu环境下安装anaconda，jupyter notebook与spark连接并实现交互，并基于恐怖袭击数据集通过RDD实现数据分析及可视化；最后附上standalone和yarn的两种任务提交方式的方法。

2022-10-10 23:12:36 1261 3

原创基于 docker-desktop的spark-hadoop 分布式集群搭建（2022）

基于学长们的基础，加以修改，成功完成2022年版本docker的spark-hadoop 分布式集群搭建，基于spark3.3版本

2022-10-04 14:05:18 2478

原创 docker 拉取镜像报错

docker拉取镜像报错

2022-09-23 23:08:12 1066

原创 Hadoop集群的部署，安装和管理（头歌）

我们已经掌握了 Hadoop 单节点的安装与部署，那么分布式集群怎么搭建呢？接下来我们学习 Hadoop 分布式集群搭建。

2022-09-21 23:43:08 9318 7

原创中文分词工具讨论

中文分词基本介绍以及相关分词工具比较评价

2022-09-20 20:27:26 1272 2

原创大数据管理知识点归纳(关系型数据库与非关系型数据库）

大数据管理相关知识点归纳，包括关系型数据库与非关系型数据库

2022-09-07 14:50:33 2283

原创 eclipse连接Hadoop并实现词频统计（大数据分析）

Ubuntu系统内实现eclipse连接Hadoop远程操作并完成词频统计实例

2022-03-21 18:07:44 8465 9

原创保姆级MySQL 下载安装配置教程

目前官网最新的GA版就是MySQL 8.0以上的，这个版本可能是MySQL数据库又一个]时代的开始，迄今为止，MySQL 8.0无论在功能还是性能（整体上），都是目前最好的MySQL版本，但是为了支持大量的新功能特性，这个版本调整的太大了，稳定性、可靠性还需要一定周期才能保证。8.0的最新特性这里不再列出，感兴趣的可以找找。目前使用官方版求稳定仍然建议5.7系列，如果想尝鲜直接上车8.0。这里我以5.7.27版本为例介绍下载安装以及简单的配置过程。

2022-03-18 00:41:40 967 8

原创 Hadoop安装以及伪分布式配置（大数据分析）

Hadoop伪分布式配置1、创建Hadoop用户如果你安装 Ubuntu 的时候不是用的 “hadoop” 用户，那么需要增加一个名为 hadoop 的用户。首先按 ctrl+alt+t 打开终端窗口，输入如下命令创建新用户 :sudo useradd -m hadoop -s /bin/bash这条命令创建了可以登陆的 hadoop 用户，并使用 /bin/bash 作为 shell。接着使用如下命令设置密码，可简单设置为 hadoop，按提示输入两次密码：sudo passwd hado

2022-03-15 23:17:58 8045 3

原创 Java给类对象数组属性赋值时报错：Exception in thread “main“ java.lang.NullPointerException

在学习“类中的方法和类的声明”时，写了一道关于学生信息的练习题，题目如下：定义类Student，包含三个属性：* 学号number(int)，年级state(int)，成绩score(int)。* 创建20个学生对象，学号为1到20，年级和成绩都由随机数确定。* 问题一：打印出3年级(state值为3）的学生信息。* 问题二：使用冒泡排序按学生成绩排序，并遍历所有学生信息利用数组的方式写了一下这道题，代码如下：public class StudentTest { pub...

2022-03-11 20:01:06 1074 1