
(大)数据分析
矮油葛格嗨你好
这个作者很懒,什么都没留下…
展开
-
Hive
文章目录前言一、Hive基础二、Hive安装配置1.地址2.安装3.启动三、Hive操作1. 简单操作2. 将本地文件导入hive(1)load(2)put3总结前言大数据框架解决的问题:海量数据的传输、存储、计算。hadoop:存储+计算一、Hive基础解决海量结构化日志的数据统计。基于hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。本质:将HQL转化成MapReduce程序。1)Hive处理的数据存储在HDFS2)Hive分析数据底层的默认原创 2020-10-23 12:06:28 · 298 阅读 · 0 评论 -
Hadoop伪分布式环境搭建记录
hadoop各版本下载地址:https://archive.apache.org/dist/hadoop/common/安装步骤:安装虚拟机安装Linux操作系统关闭防火墙安装JDK下载Hadoop并解压Hadoop安装原创 2020-10-21 17:07:27 · 309 阅读 · 0 评论 -
ETL工具Kettle的安装及使用
文章目录前言一、Kettle的组成1.勺子(Spoon.bat/Spoon.sh)2.煎锅(Pan.bat/Pan.sh)3.厨房(Kitchen.bat/Kitchen.sh)4.菜单(Carte.bat/Carte.sh)二、Kettle的下载安装前言本文主要是对一个开源的ETL工具——Kettle(水壶)的学习,特此记录。ETL:Extract(抽取)、Transform(转换)、Load(装载)Trans(转换)和Job(作业)的区别1) 作业是步骤流,转换是数据流。2)作业原创 2020-10-18 18:27:11 · 958 阅读 · 0 评论 -
MySQL存储过程
文章目录一、定义及优缺点二、使用1.关键语法及操作2.实例总结一、定义及优缺点存储过程(Stored Procedure)是一组为了完成特定功能的SQL 语句集,它存储在数据库中,一次编译后永久有效。用户通过指定存储过程的名字并给出参数(如果该存储过程带有参数)来执行它。优点:1. 执行效率高(因为预编译过);2. 通过其名称直接调用,减少网络通讯;3. 安全性高(需要一定的用户权限);4. 可重复使用。缺点:1. 可移植性差(不同数据库语法不一致);2. 过程化编程,复杂业务处理的维护成本高;3原创 2020-10-19 16:39:03 · 147 阅读 · 0 评论 -
Excel学习
学习地址:https://www.bilibili.com/video/BV184411C7Ci?p=4总所周知,哔哩哔哩是一个学习网站~一位台湾小哥的讲解,特别实在,全是干货没有系统学习过Excel,前几天看到隔壁小姐姐操作Excel起来6得飞起,可羡慕加上熟练操作Excel也是数据分析的必备技能赶紧学起来crt + ;分号 立马得出当前日期设置边框、常见函数(求和、均值、最大…)、排序筛选:“开始”下面注:排序时选一个单元格就好,选整列的话可能会造成数据的对应关系出错可自定义排序原创 2020-07-29 15:52:45 · 435 阅读 · 1 评论 -
Pandas学习
学习来源:公众号 数据不吹牛注:该系列文章每篇文章末尾有练习数据df["某列值"].max()df["某列值"].min()df["某列值"].mean()#均值df["某列值"].std() #标准差df["某列值"].median() #中位数读取文件:import pandas as pddf1 = pd.read_csv("文件位置") # 读取csv文件df2 = pd.read_excel("***.xsl") df1.head() #查看前几行df2.tail() #原创 2020-07-22 11:08:13 · 230 阅读 · 0 评论