刘李�-优快云博客

原创博客分享收藏~

技术博客收藏1.团酒旅数据治理实践https://tech.meituan.com/2021/04/15/data-governance-in-meituan-jiulv.html2.DataMan-美团旅行数据质量监管平台实践https://tech.meituan.com/2018/03/21/mtdp-dataman.html持续更新…

2021-04-28 16:25:57 157

原创 Hbase知识、shell、api

产生背景标题最早以前各大公司都使用hadoop作为大数据存储，并使用MapReduce做存储，它擅长存储各种庞大的数据，任意结构的数据都能存储。Hadoop的限制hadoop只能批量处理数据，且只能顺序访问数据。即搜索一个庞大的数据集需要从头搜到尾。hadoop的特点对于任意格式的数据，hadoop可以做到安全存储，但对于庞大数据单条的增删改查是做不到的。Hive的特点可以使用Hq...

2019-11-30 17:45:15 306

原创 Hbase相关知识及操作！

# 产生背景最早以前各大公司都使用hadoop作为大数据存储，并使用MapReduce做存储，它擅长存储各种庞大的数据，任意结构的数据都能存储。##Hadoop的限制hadoop只能批量处理数据，且只能顺序访问数据。即搜索一个庞大的数据集需要从头搜到尾。##hadoop的特点对于任意格式的数据，hadoop可以做到安全存储，但对于庞大数据单条的增删改查是做不到的。##Hive的特点可...

2019-11-30 10:19:28 193

原创 ElasticSearch API操作随笔

连接到集群的方式就不写了CRUD操作GetResponse response = client.prepareGet（" "，" "，" "）.setFields(" "," ").execute().actionGet();该构造器对象是GetRequestBuilder的一个实例，可以附加以下附加信息setFields(String)：这个方法指定需要返回哪些文档字段。默认情况...

2019-05-23 11:21:24 168

转载 Presto

Presto安装配置（初学）一、Presto简介1、PRESTO是什么？Presto是一个开源的分布式SQL查询引擎，适用于交互式分析查询，数据量支持GB到PB字节。Presto的设计和编写完全是为了解决像Facebook这样规模的商业数据仓库的交互式分析和处理速度的问题。2、它可以做什么？Presto支持在线数据查询，包括Hive, Cassandra, 关系数据库以及专有数据存储。...

2019-04-01 14:15:58 249

原创 yarn

YARN(Yet Another Resource Negotiator)yarn是一个资源调度平台，负责为运算程序提供服务器运算，相当于一个分布式操作系统平台，而MapReduce等运算程序则相当于运行于操作系统之上的应用程序yarn是Hadoop2.x版本的一个新特性。YARN主管角色叫ResourceManagerResourceManager 是基于应用程序对集群资源的需求进行调度...

2019-02-20 17:36:40 189

原创 HDFS

架构：主从架构，一主多从主节点：namenode(负责处理客户端的读写请求，客户端读写先去找namenode)1)存储元数据信息元数据:管理datanode数据的数据包括3部分：1）抽象目录树对于hdfs来说目录树不代表任何一个节点存储目录结构2）数据和块对应关系一个数据会被切分成多块 blockid会顺序递增，文件存储的时候是按照块为单位进行存储的一个块为128M 超过12...

2019-02-20 16:44:33 235

原创 MapReduce知识点梳理

1. MapReduce定义MapReduce是一个分布式运算程序的编程框架，是用户开发“基于hadoop的数据分析应用”的核心框架MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个hadoop集群上。2.MapReduce的优缺点优点：易于编程简单的实现一些接口，就可以完成一个分布式程序，这个分布式程序可以分布到大量廉价...

2018-12-18 17:19:59 417

转载 hive常用命令大全

1、建库create database mydb;create database if no exists mydb;create database if no exists mydb location “/aa/bb”;2、查询数据库查询库列表：show databases;查询库详细信息：desc database [extended] mydb;查询建库的详细信息：show c...

2018-12-17 09:48:26 1646 1

原创 hive的分桶和分区

hive的分桶和分区分桶概念：对分区的进一步的更细粒度的划分。分区类似创建分桶表create table stu_duck(id int,name strint) //创建表名字段clustered by(id) //按照id分桶into 4 buckets//分4个桶row format delimited fields terminated by ‘\t’;//通过\t...

2018-12-13 16:52:02 979

原创 hive小结

1.what is hive?Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件转换成一张表，并提供类sql查询功能。本质是：将HSQL转换成mapreduce的过程！1） hive处理的数据在hdfs上2）hive分析数据的地层是MapReduce3）执行程序在yarn上。2.hive的优缺点优点：1、可扩展性, 横向扩展，Hive 可以自由的扩展集群的规模，...

2018-12-10 17:02:08 274

原创 Hadoop、Hive、Hbase总结

hadoop hive hbase总结HadoopHadoop 只能执行批量处理，并且只以顺序方式访问数据。这意味着必须搜索整个数据集，即使是最简单的搜索工作。当处理结果在另一个庞大的数据集，也是按顺序处理一个巨大的数据集。在这一点上，一个新的解决方案，需要访问数据中的任何点（随机访问）单元。Hadoop 的特点：对于任意格式的庞大数据集，Hadoop 可以做到安全存储但是对于需要在...

2018-11-26 19:34:21 485

liuli