- 博客(16)
- 收藏
- 关注
原创 hadoop的分布式集群环境搭建
1.虚拟机搭建部分root登录ip addr 查看当前的IP地址2.克隆虚拟机(集群)基础设置vi /etc/sysconfig/network-scripts/ifcfg-ens33设置BOOTPROTO 为 “static” 静态ip:wqservice network restart设置主机名vi /etc/hostname关闭防火墙(永久)systemctl disable firewalld...
2022-03-03 23:03:56
1664
2
原创 MySql安装
MySql安装首先进入网页https://dev.mysql.com/downloads/windows/installer/8.0.html
2022-01-27 15:16:01
1066
原创 Spark sql
创建一个基本DataFrameDataFrame常见算子操作对数据进行操作时 使用 $“age”数据过滤以及分组求和DataFrame的sql操作RDD转换为DataFrameload和save
2021-12-06 22:01:04
135
原创 spark 性能优化
宽依赖和窄依赖StageSpark三种提交模式Checkpointcheckpoint与持久化的区别Spark性能优化分析
2021-12-06 21:54:28
1053
原创 Spark 从零开始
什么是spark? 相关应用场景特性1.快速性如果在内存中运行MapRaduce,要比Hadoop快100倍如果在磁盘中运行,要比Hadoop快10倍Spark使用先进的有向无环图执行引擎来支持非循环的数据流在内存中计算2.易用性Spark提供超过80个高阶算子,这些算子使其很容易构建并行应用这些算子支持多种语言 按照切合度排序为 Scala, Python, R3.通用性...
2021-11-28 16:19:10
1212
原创 Hive 从0开始 (1)
什么是 Hive在本次学过程中,因个人本机windows mysql存在问题,所以采用的是derby初始化的Hive首先进入apache-hive-3.1.2-bin的bin目录启动hive命令set hive.cli.print.current.db=true (显示当前数据库)set hive.cli.print.header=true (设置显示表头)案例Hive中表类型...
2021-11-25 19:55:52
1367
原创 在IDEA中对hadoop开发 相关pom依赖文件
<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/mav
2021-11-24 10:50:43
1495
1
原创 MapReduce--最最最基础部分
前言:MapReduce作为hadoop中和HDFS YARN 三大组件之一还是很有必要去掌握其中原理 并进行代码编写在这部分导包内容 是基于后续写代码的过程中 进行导入的(可跳过)package com.xkh.mr;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;import org.apach
2021-11-03 10:43:58
334
原创 基于R语言对哺乳动物睡眠时间sleep数据集的分析
前言R作为一种统计分析软件,是集统计分析与图形显示于一体的。它可以运行于UNIX,Windows和Macintosh的操作系统上,而且嵌入了一个非常方便实用的帮助系统,相比于其他统计分析软件,R还有以下特点:1.R是自由软件。这意味着它是完全免费,开放源代码的。可以在它的网站及其镜像中下载任何有关的安装程序、源代码、程序包及其源代码、文档资料。标准的安装文件身自身就带有许多模块和内嵌统计函数,安装好后可以直接实现许多常用的统计功能。2.R是一种可编程的语言。作为一个开放的统计编程环境,语法通俗易懂,.
2021-10-26 00:02:27
4652
9
原创 人岗智能匹配系统(中)
人岗智能匹配系统(中)5.1 数据库版本Mysql 5.75.2 数据库设计在导入数据之前,首先要创建所对应的表的列名和数据类型,再将/var/lib/mysql-files/中的csv文件导入到创建好的表中/var/lib/mysql-files/的csv文件在Sql语句中,每一次存储数据之前都要执行“set sql_mode=’’;”语句,目的是为了提高数据库的效率,清除默认的模式信息创建person表列名:PERSON_ID,GENDER,WORK_YEARS,HIGHEST_EDU
2021-10-25 23:40:02
2961
6
原创 基于房地产信息的数据可视化
基于房地产信息的数据可视化在这次可视化项目设计中,我选用的是有关于房地产信息的主题,在选用数据方面选择了一个中国不掉热度的热点话题,房地产行业的数据可视化。在选取数据的过程中还是比较困难的,要选择合适的数据并将这些数据通过图表的方式,让数据显示出来,主要的难点是图表的选择是否能够展现这些数据所要表达的东西。为了避免数据的重复性,需要寻找不同方向的数据,例如有的数据为了表现数据大小,有的数据为了表示单一的变化趋势,还有的表现区域之间的变化。在图标的选择上,根据每张图所要表达的含义来对图表进行选择,用图表让数
2021-09-21 15:48:50
1643
1
原创 人岗智能匹配系统(上)
人岗智能匹配系统(上)项目概述搭建大数据环境数据采集数据预处理数据存储数据分析数据可视化人岗智能匹配系统的设计与实现摘 要企业招聘需求日益多元化、精细化,招聘服务的开展难度正面临日益严峻的挑战。通过自然语言处理、机器学习等技术手段,建立海量企业招聘岗位画像、个人用户画像,在人才推荐、岗位推荐等方向提供数据智能服务,从而提高企业人才招聘效率。本系统的功能包括用户管理功能和人岗匹配功能,用户管理功能是系统的基本功能,包括用户注册和用户登录,用户分为个人求职者和企业招聘人员;人岗匹配功
2021-09-21 15:33:18
4776
8
原创 重启大数据
重启大数据在学校学习大数据一年之后,学的很浅 很乱打算进行自己的系统性学习关于环境走进大数据 最开始的就是hadoop生态圈(以后有机会在做hadoop的相关配置以及hdfs的简单使用)hadoop版本 hadoop 3.2.0编辑器notepad++IntelliJ IDEA Community Edition 2021.2.1maven apache-maven-3.0.5IDEA破解教程可自行网上搜索不会破解的就在官网下载社区版链接: https://www.jetb
2021-08-29 20:31:18
171
1
原创 python循环结构----python123.io
查找指定字符描述编写程序,从用户输入的字符串中查找某个指定的字符,并输出其对应的最大下标。输入格式用户输入两行数据:...
2020-04-22 22:06:08
4764
原创 python分支循环----小白学习中
编写程序,利用分支结构计算a除以b,要求:运算结果四舍五入,保留2位小数。注意一下数值的有效性即可温度划分根据用户输入的温度值(例如:C23.5),系统输出对应的温度等级。 温度等级的划分如下:...
2020-04-22 18:12:41
1479
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人