
大数据开发
文章平均质量分 86
Kay大
专注于机器学习,SQL,数据分析思维方向。少年太弱,请专心练剑!
展开
-
【Kay】HQL利用身份证号判断性别
利用身份证号去判断性别(18位身份证的倒数第二位偶数为女,奇数为男。15位身份证的倒数第一位偶数为女,奇数为男)HQL实现代码:SELECT name,CASE WHEN LENGTH(id) = 18 THEN CASE WHEN SUBSTR(id,-2,1) % 2 = 0 THEN "女" WHEN SUBSTR(id,-2,1) % 2 = 1 THEN "男" ELSE "Unknown" ENDWHEN LENGTH(id) = 15 THEN原创 2022-03-15 12:44:06 · 2101 阅读 · 0 评论 -
9 Hive操作——HQL语言(DML、Join、Hive函数)
一、DML语法之加载数据在Hive中建表成功之后,就会在HDFS上创建一个文件夹,文件夹名字就是表名;文件夹路径默认值是/user/hive/warehouse,可通过改参数修改需要把数据文件移动到对应表文件夹下面, Hive表才能映射成功; 最暴力的方式就是使用hadoop fs –put| -mv等方式直接移动 但是,Hive官方推荐使用Load命令将数据加载到表中注:本地文件系统指的是Hiveserver2服务所在机器(如Node1)的本地Linux文件系统,不是Hive客户原创 2022-03-09 22:25:40 · 2311 阅读 · 0 评论 -
8 Hive操作—DDL语言
一、Hive数据模型总览每个表都必须归属于某个数据库。故Hive里面首先是数据库,再是表。公司里面可以每个业务线创建一个数据库,属于同一个业务线的数据再分别创建比如评论表、订单表、用户表查看当前数据库:show databases /*查看当前数据库*/二、SQL中DDL语法的作用DDL语言 (Data Definition Language),即数据定义语言,是和库、表相关的语言。仅对database、table进行增删改操作。 DDL核心语法由CREATE、 ALT...原创 2022-03-09 20:08:44 · 1549 阅读 · 0 评论 -
7 Hive导论
Hive导论一、数据仓库概念数据仓库(Data Warehouse),是一个用于存储、分析的数据系统。数据仓库的目的是分析,为企业提供决策支持(Decision Support)CRM:客户关系管理 ERP:企业资源计划 Billing:支付 Supply Chain:供应链●业务数据的存储问题以中国人寿保险公司为例,保险公司具有多条业务线:人寿险、财险、养老险等。各业务线需要记录包括客户、保单、理赔等信息。这么多业务数据存储在哪里呢...原创 2022-03-09 18:23:53 · 2431 阅读 · 0 评论 -
6 Yarn资源管理器
一、Yarn基本介绍YARN是资源管理和调度平台,可为上层应用提供统一的资源管理和调度资源管理是指管理集群的硬件资源,和内存、 CPU等(磁盘则由HDFS管理)资源调度是指多个程序同时申请计算资源该如何分配,调度的规则。Yarn具有通用性:不仅支持MapReduce程序,还支持Spark,Flink等各种计算程序可以把Hadoop YARN理解为相当于一个分布式的操作系统平台,而MapReduce等计算程序则相当于操作系统上的应用程序, YARN为这些程序提供运算所需的资源(内存、 CPU等)原创 2022-01-23 20:46:18 · 2081 阅读 · 0 评论 -
5 MapReduce编程模型
一、MapReduce思想MapReduce的思想核心是“先分再合,分而治之”。把一个复杂的问题,按照一定的“分解”方法分为较小的若干部分,然后逐个解决, 然后把各部分的结果进行汇总。Map翻译为映射(Mapping),表示第一阶段,负责“拆分”:即把复杂的任务分解为若干“简单子任务”来并行处理。Reduce翻译为缩减,减少,表示第二阶段,负责“合并”:即对map阶段的结果进行汇总。这两个阶段合起来正是MapReduce思想的体现。二、什么是分布式计算分布式计算和集中式计算是相对的在数据量原创 2022-01-23 20:43:05 · 1899 阅读 · 0 评论 -
4 HDFS分布式文件系统
一、传统的文件系统所谓传统的文件系统指的单机的文件系统,底层不会横跨多台机器实现。比如windows上的文件系统、 Linux上的文件系统、 FTP文件系统等。这些文件系统的共同特征包括:带有抽象的目录树结构,树都是从/根目录开始往下蔓延;树中节点分为两类: 目录和文件;从根目录开始,节点路径具有唯一性。文件系统中,数据与元数据的区别:数据指存储的内容本身,比如文件、视频、图片等,这些数据底层最终是存储在磁盘等存储介质上的元数据(metadata)又称之为解释性数据,一般指文件大小、最原创 2022-01-23 20:36:36 · 991 阅读 · 0 评论 -
3 Hadoop导论
一、Hadoop概念和核心组件Hadoop用java语言实现,开源。允许用户使用简单的编程实现跨机器集群对海量数据进行分布式计算处理。#Hadoop的核心组件:Hadoop HDFS(分布式文件存储系统):解决海量数据存储Hadoop YARN(集群资源管理和任务调度框架):解决资源任务调度Hadoop MapReduce(分布式计算框架):解决海量数据计算YARN由于支持各种计算引擎运行,不止MR,还有Spark,Flink等,保证了Hadoop地位;Hadoop也支持阿里云、亚马逊替代HDF原创 2022-01-23 20:32:27 · 1121 阅读 · 0 评论 -
2 Linux基础
一、Linux文件系统概念文件系统的结构通常叫做目录树结构。主流的文件系统都是从/根目录开始的, Linux也不例外,而windows文件系统会以盘符来区分不同文件系统(每个盘相当于一个独立的文件系统)。目录树中节点分为两个种类: 目录(directory)、文件(file)二、3种路径区分当前路径:也叫当前工作目录,当下用户所属的文件夹;相对路径:站在当前工作目录开始的路径, 会随当前路径变化而变化;绝对路径:绝对路径都从/根目录开始,唯一不重复。特殊符号 . 表示当前路径(原创 2022-01-23 20:27:50 · 574 阅读 · 0 评论 -
1 大数据导论与Linux安装
大数据导论与Linux安装&导论一、企业数据分析方向①原因分析:分析过去的数据 ,面向历史(离线)②现状分析:分析当下的数据 (实时)③预测分析:结合数据预测未来 (机器学习)以上三个方向正好对应大数据中的离线分析、实时分析、机器学习实时分析又叫流式处理。实时和离线最大的区别在于:从数据产生到数据分析到应用的时间间隔不同。离线是天级,T+1、T+7。实时可细分到秒级二、数据分析步骤①明确分析目的和思路使分析框架体系化,比如先分析什么,后分析什么, 流程具有逻辑, 保证分析维度完整原创 2022-01-21 13:15:42 · 579 阅读 · 0 评论