
大数据
文章平均质量分 76
月吖吖
上海尚学堂Java/前端/大数据培训老师,上海尚学堂官网www.shsxt.com的站长,网站负责人
展开
-
Apache Sentry部署
1 环境描述三台hadoop集群,分别是master、slave1和slave2。下面是这三台机器的软件分布:o master:NameNode、ZK、HiveMetaSotre、HiveServer2、SentryServer· slave1:DataNode、ZK· slave2:DataNode、ZK2 软件需求1. MySql2. mysql-jdbc.转载 2018-01-25 19:57:43 · 958 阅读 · 0 评论 -
一份完整的阿里云 Redis 开发规范,值得收藏!
来源:yq.aliyun.com/articles/531067作者:付磊-起扬本文主要介绍在使用阿里云Redis的开发规范,从下面几个方面进行说明。 键值设计 命令使用 客户端使用 相关工具 通过本文的介绍可以减少使用Redis过程带来的问题。一、键值设计1、key名设计可读性和可管理性以业务名(或数据库名)为前缀(防止ke...转载 2019-04-16 10:16:53 · 454 阅读 · 0 评论 -
进阶指南:如何从数据分析师转型为数据科学家?
大数据文摘出品来源:Medium编译:李雷、橡树_Hiangsug文章解释了转型为数据科学家的原因,整理了数据科学家应该掌握的技能,着重介绍了从数据分析师转型为数据科学家的具体方法。如何从数据分析师华丽转型,成为一名数据科学家?好比“把大象装进冰箱”,成为“数据科学家”仅需简单三步:1. 进入LinkedIn登录你的账号。2. 点击“编辑个人资料”。3. 将...转载 2019-02-28 15:37:39 · 396 阅读 · 0 评论 -
Hive如何处理小文件问题?
一、小文件是如何产生的1.动态分区插入数据,产生大量的小文件,从而导致map数量剧增。2.reduce数量越多,小文件也越多(reduce的个数和输出文件是对应的)。3.数据源本身就包含大量的小文件。 二、小文件问题的影响1.从Hive的角度看,小文件会开很多map,一个map开一个JVM去执行,所以这些任务的初始化,启动,执行会浪费大量的资源,严重影响性能。2.在HD...原创 2018-10-23 16:24:47 · 930 阅读 · 0 评论 -
大数据培训之核心知识点Hbase、Hive、Spark和MapReduce的概念理解、特点及机制等
今天,上海尚学堂大数据培训班毕业的一位学生去参加易普软件公司面试,应聘的职位是大数据开发。面试官问了他10个问题,主要集中在Hbase、Spark、Hive和MapReduce上,基础概念、特点、应用场景等问得多。看来,还是非常注重基础的牢固。整个大数据开发技术,这几个技术知识点占了很大一部分。那本篇文章就着重介绍一下这几个技术知识点。 一、Hbase1.1、Hbase是什么?HBa...原创 2018-08-29 17:05:14 · 998 阅读 · 0 评论 -
Redis入门基础,Redis优点特点,Redis的五种数据类型
Redis是一个开源,高级的键值存储和一个适用的解决方案,用于构建高性能,可扩展的Web应用程序。1、Redis的主要特点Redis有三个主要特点,使它优越于其它键值数据存储系统 -Redis将其数据库完全保存在内存中,仅使用磁盘进行持久化。与其它键值数据存储相比,Redis有一组相对丰富的数据类型。Redis可以将数据复制到任意数量的从机中。2、Redis的优点异常快 - Redis非常快,每秒...原创 2018-06-28 17:03:35 · 439 阅读 · 0 评论 -
大数据中的用户画像
摘要: 用户画像(persona)的概念最早由交互设计之父Alan Cooper提出:“Personas are a concrete representation of target users.” 是指真实用户的虚拟代表,是建立在一系列属性数据之上的目标用户模型。随着互联网的发展,现在我们说的用户画像又包含了新的内涵——通常用户画像是根据用户人口学特征、网络浏览内容、网络...原创 2018-02-06 20:21:14 · 8335 阅读 · 0 评论 -
HBase简介
各位小伙伴们,又到了每周分享java&大数据技术的时间,这一次我给大家分享的是hbase技术。那么hbase到底是一个什么样的技术,他又能拿来干嘛用的呢?接下来就让我们一起来学习这个技术吧~~。今天要讲的是第一辑:HBase简介。HBase简介在学习hbase之前,我们先了解一下hadoop的生态系统 HBase-Hadoop Database,是一个高可靠性、高性能、原创 2018-01-29 21:20:53 · 339 阅读 · 0 评论 -
Impala总结与优化
Impala是Cloudera公司推出,提供对HDFS、Hbase数据的高性能、低延迟的交互式SQL查询功能。•基于Hive使用内存计算,兼顾数据仓库、具有实时、批处理、多并发等优点•是CDH平台首选的PB级大数据实时查询分析引擎Impala的特点: 1、基于内存进行计算,能够对PB级数据进行交互式实时查询、分析 2、无需转换为MR,直接读取HDFS数据 3原创 2018-01-26 15:52:30 · 6148 阅读 · 0 评论 -
HBase数据模型
上次我们讲过了《HBase简介》,点击阅读有助于更好地理解本文。本文讲述的是HBase数据模型。1、ROW KEY决定一行数据按照字典顺序排序的。Row key只能存储64k的字节数据2、Column Family列族 & qualifier列HBase表中的每个列都归属于某个列族,列族必须作为表模式(schema)定义的一部分预先给出。列名以列族作为前缀,每个“列原创 2018-02-02 11:57:44 · 408 阅读 · 0 评论 -
关于Redis的常见面试题解析
1.使用redis有哪些好处?(1)速度快,因为数据存在内存中,类似于HashMap,HashMap的优势就是查找和操作的时间复杂度都是O(1)(2)支持丰富数据类型,支持string,list,set,sorted set,hash(3)支持事务,操作都是原子性,所谓的原子性就是对数据的更改要么全部执行,要么全部不执行(4)丰富的特性:可用于缓存,消息,按key设置过期...原创 2019-04-24 17:26:50 · 1946 阅读 · 0 评论