咸大湿fish-优快云博客

原创 hadoop的分布式集群环境搭建

1.虚拟机搭建部分root登录ip addr 查看当前的IP地址2.克隆虚拟机（集群）基础设置vi /etc/sysconfig/network-scripts/ifcfg-ens33设置BOOTPROTO 为 “static” 静态ip:wqservice network restart设置主机名vi /etc/hostname关闭防火墙（永久）systemctl disable firewalld...

2022-03-03 23:03:56 1699 2

原创 MySql安装

MySql安装首先进入网页https://dev.mysql.com/downloads/windows/installer/8.0.html

2022-01-27 15:16:01 1096

原创 Hive从0开始 (2)

Hive

2021-12-06 22:13:49 798

原创 Spark sql

创建一个基本DataFrameDataFrame常见算子操作对数据进行操作时使用 $“age”数据过滤以及分组求和DataFrame的sql操作RDD转换为DataFrameload和save

2021-12-06 22:01:04 160

原创 spark 性能优化

宽依赖和窄依赖StageSpark三种提交模式Checkpointcheckpoint与持久化的区别Spark性能优化分析

2021-12-06 21:54:28 1079

原创 Spark 从零开始

什么是spark？相关应用场景特性1.快速性如果在内存中运行MapRaduce,要比Hadoop快100倍如果在磁盘中运行,要比Hadoop快10倍Spark使用先进的有向无环图执行引擎来支持非循环的数据流在内存中计算2.易用性Spark提供超过80个高阶算子,这些算子使其很容易构建并行应用这些算子支持多种语言按照切合度排序为 Scala, Python, R3.通用性...

2021-11-28 16:19:10 1247

原创 Hive 从0开始（1）

什么是 Hive在本次学过程中，因个人本机windows mysql存在问题，所以采用的是derby初始化的Hive首先进入apache-hive-3.1.2-bin的bin目录启动hive命令set hive.cli.print.current.db=true (显示当前数据库)set hive.cli.print.header=true (设置显示表头）案例Hive中表类型...

2021-11-25 19:55:52 1393

原创在IDEA中对hadoop开发相关pom依赖文件

<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/mav

2021-11-24 10:50:43 1530 1

原创 MapReduce--最最最基础部分

前言：MapReduce作为hadoop中和HDFS YARN 三大组件之一还是很有必要去掌握其中原理并进行代码编写在这部分导包内容是基于后续写代码的过程中进行导入的（可跳过）package com.xkh.mr;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;import org.apach

2021-11-03 10:43:58 371

原创基于R语言对哺乳动物睡眠时间sleep数据集的分析

前言R作为一种统计分析软件，是集统计分析与图形显示于一体的。它可以运行于UNIX,Windows和Macintosh的操作系统上，而且嵌入了一个非常方便实用的帮助系统，相比于其他统计分析软件，R还有以下特点：1.R是自由软件。这意味着它是完全免费,开放源代码的。可以在它的网站及其镜像中下载任何有关的安装程序、源代码、程序包及其源代码、文档资料。标准的安装文件身自身就带有许多模块和内嵌统计函数,安装好后可以直接实现许多常用的统计功能。2.R是一种可编程的语言。作为一个开放的统计编程环境,语法通俗易懂,.

2021-10-26 00:02:27 4823 9

原创人岗智能匹配系统（中）

人岗智能匹配系统（中）5.1 数据库版本Mysql 5.75.2 数据库设计在导入数据之前，首先要创建所对应的表的列名和数据类型，再将/var/lib/mysql-files/中的csv文件导入到创建好的表中/var/lib/mysql-files/的csv文件在Sql语句中，每一次存储数据之前都要执行“set sql_mode=’’;”语句，目的是为了提高数据库的效率，清除默认的模式信息创建person表列名：PERSON_ID，GENDER，WORK_YEARS，HIGHEST_EDU

2021-10-25 23:40:02 3184 6

原创基于房地产信息的数据可视化

基于房地产信息的数据可视化在这次可视化项目设计中，我选用的是有关于房地产信息的主题，在选用数据方面选择了一个中国不掉热度的热点话题，房地产行业的数据可视化。在选取数据的过程中还是比较困难的，要选择合适的数据并将这些数据通过图表的方式，让数据显示出来，主要的难点是图表的选择是否能够展现这些数据所要表达的东西。为了避免数据的重复性，需要寻找不同方向的数据，例如有的数据为了表现数据大小，有的数据为了表示单一的变化趋势，还有的表现区域之间的变化。在图标的选择上，根据每张图所要表达的含义来对图表进行选择，用图表让数

2021-09-21 15:48:50 1843 1

Fishwetmaster的博客