
大数据
La victoria
向内认知,向外行走
展开
-
hive细节补充
https://blog.youkuaiyun.com/iamlistening/article/details/93184700#comments转载 2020-05-29 17:21:16 · 221 阅读 · 0 评论 -
数据建模方法及步骤
何为建模?数据几乎总是用于两种目的:操作型记录的保存和分析型决策的制定。简单来说,操作型系统保存数据,分型型系统使用数据。前者一般仅反映数据的最新状态,按单条记录事务性来处理;其优化的核心是更快地处理事务。后者往往是反映数据一段时间的状态变化,按大批量方式处理数据;其核心是高性能、多维度处理数据。通常我们将操作型系统简称为OLTP(On-Line Transaction Processing)...转载 2020-04-21 19:22:23 · 8021 阅读 · 0 评论 -
MapReduce Shuffle 和 Spark Shuffle 区别
Shuffle的本意是洗牌、混洗的意思,把一组有规则的数据尽量打乱成无规则的数据。而在MapReduce中,Shuffle更像是洗牌的逆过程,指的是将map端的无规则输出按指定的规则“打乱”成具有一定规则的数据,以便reduce端接收处理。其在MapReduce中所处的工作阶段是map输出后到reduce接收前,具体可以分为map端和reduce端前后两个部分。在shuffle之前,也就是在m...转载 2020-04-15 19:25:54 · 1108 阅读 · 0 评论 -
通俗易懂的Kafka入门
什么是ZooKeeper? 什么是消息队列?众所周知,消息队列的产品有好几种,这里我选择学习Kafka的原因,无他,公司在用。我司使用的是Kafka和自研的消息队列(Kafka和RocketMQ)改版,于是我就想学学Kafka这款消息队列啦。本篇文章对Kafka入门,希望对大家有所帮助。本文知识点提前预览:一、什么是Kafka?首先我们得去官网看看是怎么介绍Kaf...原创 2020-04-02 13:17:18 · 223 阅读 · 0 评论 -
60款顶级大数据开源工具
一、Hadoop相关工具1. HadoopApache的Hadoop项目已几乎与大数据划上了等号。它不断壮大起来,已成为一个完整的生态系统,众多开源工具面向高度扩展的分布式计算。支持的操作系统:Windows、Linux和OS X。相关链接:http://hadoop.apache.org2. Ambari作为Hadoop生态系统的一部分,这个Apache项目提供了基于We...原创 2020-03-28 15:02:50 · 2558 阅读 · 0 评论 -
大数据数据仓库建设方案
大数据数据仓库建设方案互联网行业,除了数据量大之外,业务时效性要求也很高,甚至很多是要求实时的,另外,互联网行业的业务变化非常快,不可能像传统行业一样,可以使用自顶向下的方法建立数据仓库,一劳永逸,它要求新的业务很快能融入数据仓库中来,老的下线的业务,能很方便的从现有的数据仓库中下线。整体架构:数据仓库的逻辑分层架构:1.数据源数据源,顾名思义就是数据的来源,互联网公司的数据来源...原创 2020-03-28 08:48:01 · 3361 阅读 · 0 评论 -
《深度学习,统计学习,数学基础》人工智能算法工程师手册
[ 导读 ]市面上很多人工智能相关的书籍。大部分的书,面向小白,内容深度不够;小部分教材书或者科研书,内容艰深,又过于复杂。那么有没有,面向算法工程师(程序员)人群的,面向有一定数学基础、算法基础,能够快速上手写代码的人群的人工智能手册呢?有的!而且免费开源,非常有程序员范!《AI算法工程师手册》你值得拥有!作者Github:https://github.com/huaxz1986手...转载 2020-02-27 14:58:58 · 627 阅读 · 1 评论 -
元数据管理在银行业务中的应用
伴随着我国银行信息化建设的发展,银行形成了包括核心系统、数据仓库、风险管理、客户关系管理等在内的多种业务和管理系统。大数据给银行数据处理带来的大容量、快速处理和多样性,使得银行在数据标准建设、信息共享、信息挖掘利用等方面面临挑战,也越来越重视元数据的管理和体系的建设工作。本篇文章,笔者将为大家解读一下有关银行进行元数据管理的三个问题,明确在行业快速变化的大环境下,如何建设符合银行自身特色的元数...原创 2020-02-22 16:13:01 · 1041 阅读 · 0 评论 -
「网易云音乐」歌单推荐算法
推荐算法可以通过APP表现进行反推,不会100%准确,但应该也八九不离十。推荐依据推荐算法不是无根之水,它必须借助用户的数据才可以进行推荐。即使是冷启动,也需要获得你的微博、微信(你的登录方式)或其他已注册用户的热门喜好。具体的数据包括:浏览记录 页面停留时间 歌曲播放次数 点击歌曲但未播放记录 点击歌曲且播放完成记录 歌曲、歌单、歌手的收藏记录 歌单播放...转载 2020-01-29 10:13:11 · 5257 阅读 · 2 评论 -
Apache Spark和Apache Flink的区别
Apache Spark和Apache Flink的区别Apache Spark是Apache软件基金会开发的开源集群计算框架。Apache Spark非常快,可以用于大规模数据处理。它是大数据技术领域现有大型数据处理工具的替代。Apache Flink是一个开源框架,用于数据流应用程序的流处理,在分布式应用程序中具有高可用性、高性能、稳定性和准确性。Apache Flink在流引擎...转载 2019-12-21 13:28:45 · 472 阅读 · 0 评论 -
Hive 和 Impala的比较
Hive 和 Impala的异同Hive是一个建立在APACHE HADOOP之上的数据仓库软件项目,由Jeff在Facebook的团队开发,目前已经发布了2.3.0的稳定版本。它被用于总结大数据,使查询和分析变得容易。Apache Hive是SQL-in Hadoop的有效标准。Impala是一个运行在Apache Hadoop上的并行处理SQL查询引擎,用于处理存储在HBase (Hado...原创 2019-12-21 12:00:36 · 6154 阅读 · 1 评论 -
sqoop的使用之导入到hive和mysql
先登录hive在hive中操作,创建数据库:create database frommysql;创建表创建表create table importhive_info(num int,name string)row format delimited fields terminated by "\t";数据也有了执行语...转载 2019-12-21 11:57:51 · 222 阅读 · 0 评论 -
Zookeeper的介绍
高并发分布式开发技术体系已然非常的庞大,从国内互联网企业使用情况,可发现RPC、Dubbo、ZK是最基础的技能要求。关于Zookeeper你是不是还停留在Dubbo注册中心的印象中呢?还有它的工作原理呢?经典应用场景呢?对前面三个问题,如若回答时没有自己的思路或者说并未了解,那么我觉得我可以帮助到你去入门,并深化这些知识,让你在面试中更好地去回答。话不多说进入正题1. 并发环境下面临的挑战...原创 2019-12-21 11:52:44 · 223 阅读 · 0 评论 -
Hive性能优化
Hive性能优化 数据量大不是问题,数据倾斜是个问题。 jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,耗时很长。原因是map reduce作业初始化的时间是比较长的。 sum,count,max,min等UDAF,不怕数据倾斜问题,hadoop在map端的汇总合并优化,使数据倾斜不成问题。 count(d...原创 2019-11-30 20:42:41 · 493 阅读 · 0 评论 -
数据埋点
本文作者从工作实践出发,梳理总结了关于数据埋点的相关基本知识,与大家分享。产品汪每天都在和数据打交道,你知道数据来自哪里吗?移动app端内的用户行为数据大多来自埋点,了解一些埋点知识,能和数据分析师、技术侃大山,参与到前期的数据采集,更重要是让最终的埋点数据能为我所用,否则可怜巴巴等上几个月是常有的事。埋点类型根据埋点方式,可以区分为:手动埋点 半自动埋点 全自动...原创 2019-11-30 09:01:09 · 3434 阅读 · 0 评论 -
万亿级消息背后: 小米消息队列的实践
目录业务背景 架构与关键问题 性能与资源优化 平台化效率 小米消息中间件的规划与愿景前文《消息队列价值思考》讲述了消息中间件在企业 IT 架构中的重要价值,本文将呈现这些价值在落地小米业务过程中的遇到的问题和实践经验;其主要内容是流式平台团队在 SACC 2019 (sacc.it168.com)大会上分享的主题,这里简单整理成文,供大家参考,其中一些重要问题的细节会在后续文章陆续展...转载 2019-11-24 17:14:17 · 201 阅读 · 0 评论 -
Kafka可靠性、幂等性和事务
可靠性如何保证消息不丢失Kafka只对“已提交”的消息(committed message)做有限度的持久化保证。已提交的消息当Kafka的若干个Broker成功地接收到一条消息并写入到日志文件后,它们会告诉生产者程序这条消息已成功提交。有限度的持久化保证假如一条消息保存在N个Kafka Broker上,那么至少这N个Broker至少有一个存活,才能保证消息不丢失。丢失...原创 2019-11-24 17:12:15 · 372 阅读 · 0 评论 -
kafka速度快的原因
我们都知道Kafka非常快,比绝大多数的市场上其他消息中间件都要快。这里来研究下那么为什么Kafka那么快(当然不会是因为它用了Scala)。Kafka的消息是保存或缓存在磁盘上的,一般认为在磁盘上读写数据是会降低性能的,因为寻址会比较消耗时间。但是实际上,Kafka其中一个特性却是高吞吐率,即使是普通的服务器,Kafka也能轻松支持每秒百万级的写入请求,超过了大部分的消息中间件。这种特性...转载 2019-11-24 17:09:40 · 490 阅读 · 0 评论 -
保证分布式系统数据一致性的6种方案
问题的起源在电商等业务中,系统一般由多个独立的服务组成,如何解决分布式调用时候数据的一致性?具体业务场景如下,比如一个业务操作,如果同时调用服务 A、B、C,需要满足要么同时成功;要么同时失败。A、B、C 可能是多个不同部门开发、部署在不同服务器上的远程服务。在分布式系统来说,如果不想牺牲一致性,CAP 理论告诉我们只能放弃可用性,这显然不能接受。为了便于讨论问题,先简单介绍下数据一致...原创 2019-11-10 16:26:53 · 277 阅读 · 0 评论 -
Kafka消息队列
一、再谈消息队列的应用场景异步处理:例如短信通知、终端状态推送、App推送、用户注册等 数据同步:业务数据推送同步 重试补偿:记账失败重试 系统解耦:通讯上下行、终端异常监控、分布式事件中心 流量消峰:秒杀场景下的下单处理 发布订阅:HSF的服务状态变化通知、分布式事件中心 高并发缓冲:日志服务、监控上报但是,我们对消息队列的底层技术和原理还是不了解,那么我们马上开始吧…二、...原创 2019-11-10 16:25:28 · 539 阅读 · 0 评论 -
Hbase超时机制
配置优化zookeeper.session.timeout默认值:3分钟(180000ms)说明:RegionServer与Zookeeper间的连接超时时间。当超时时间到后,ReigonServer会被Zookeeper从RS集群清单中移除,HMaster收到移除通知后,会对这台server负责的regions重新balance,让其他存活的RegionServer接管.调优:...转载 2019-11-05 09:00:30 · 1057 阅读 · 0 评论 -
国际三大主流ETL工具选型分析
摘要:做ETL产品的选型,仍然需要从以前说的四点(即成本、人员经验、案例和技术支持)来考量。在此,主要列举三种主流ETL产品:Ascential公司的Datastage、Informatica公司的Powercenter、 NCR Teradata公司的ETL Automation ETL(extract,transform and load)产品乍看起来似乎并不起眼,单就此项...原创 2019-10-24 09:50:34 · 1768 阅读 · 0 评论 -
MySQL InnoDB事务ACID实现原理
原子性(atomicity) 一致性(consistency) 隔离性(isolation) 持久性(durability)隔离性隔离性的实现原理就是锁,因而隔离性也可以称为并发控制、锁等。事务的隔离性要求每个读写事务的对象对其他事务的操作对象能互相分离。再者,比如操作缓冲池中的 LRU 列表,删除,添加、移动 LRU 列表中的元素,为了保证一致性那么就要锁的介入。InnoDB...原创 2019-04-05 21:20:38 · 2300 阅读 · 1 评论 -
ods数据清洗
0x01 讨论问题: ODS 有的公司说几乎不处理,有的说这一层要做第一次数据清洗,大家怎么看?回答一: 我感觉基本的监控要做,然后字段类型,命名统一可以做,ip转地址也可以做。复杂的 不太容易做,数据源的接入不一定都可控。回答二: 看数据的规整性吧。有的公司业务方数据很规整。ODS层只用做简单的砍字段即可,有的业务数据不规整比如埋点类的那么不做清洗就肯定不行了。有公司是从业务库直接到...转载 2019-05-19 12:44:46 · 2911 阅读 · 0 评论 -
hive全量与增量~的思考
1.背景数据如果保留多份,就会存在一致性问题,就需要同步,同步分为两大类:全量和增量2. 概述数据如果要保留副本,要么同时写(就是多写),或者进行复制:异步写(即从主数据拷贝到副本);同时写(多写),引出一个问题,写多少节点算成功(场景:分布式系统)?全部写成功才算成功,还是写大多数成功算成功,还是写指定几个节点算成功?异步写的话,如果采用异步复制,那么实时性需要考量的话,就需...转载 2019-05-19 11:30:35 · 4575 阅读 · 0 评论 -
Hadoop总结
1.HDFS读写流程(1)写数据流程1).客户端发出请求 hdfs dfs -put /etc/profile /qf/data2).namenode查看维护的目录结构,检查/qf/data是否存在,如不存在直接报错”no such file or directory“,如存在返回给客户端同意上传文件请求,将操作写入日志文件3).客户端请求上传第一个块,询问namenode块的存储位置...转载 2019-05-19 01:06:42 · 302 阅读 · 0 评论 -
sparkstreaming消费kafka如何保证输出结果只会产生一次
问题:sparkstreaming消费kafka如何保证输出结果只会产生一次解决方案:1.自己实现commitsync方法 ,这个方法运行时毫秒级2.每次消费完之后将offset保存到hdfs或本地,启动的时候读这个文件并且加入新增的partition offset即可但是!上面的方案还是会出现问题。。。因为入库操作和commitc方法不是一个原子操作。所以程序停止时可...原创 2019-05-19 01:02:03 · 1604 阅读 · 0 评论 -
Kafka重复消费~SparkStreaming
1.问题描述使用SparkStreaming连接Kafka的demo程序每次重启,都会从Kafka队列里第一条数据开始消费。修改enable.auto.commit相关参数都无效。2.原因分析demo程序使用"KafkaUtils.createDirectStream"创建Kafka输入流,此API内部使用了Kafka客户端低阶API,不支持offset自动提交(提交到zookee...转载 2019-05-19 01:00:17 · 755 阅读 · 0 评论 -
kafka:如何保证消息不丢失不重复
首先要考虑这么几个问题: 消息丢失是什么造成的?(从生产端和消费端两个角度来考虑) 消息重复是什么造成的?(从生产端和消费端两个角度来考虑) 如何保证消息有序? 如果保证消息不重不漏,损失的是什么? 下面是文章详情,这里先简单总结一下: 消费端重复消费:很容易解决,建立去重表。 消费端丢失数据:也容易解决,关闭自动提交offse...转载 2019-05-19 00:59:10 · 284 阅读 · 0 评论 -
spark性能优化(数据倾斜调优,shuffle调优)
前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。 数据倾斜调优 调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以...转载 2019-05-19 00:51:24 · 385 阅读 · 0 评论 -
Spark中的Spark Shuffle详解
Shuffle简介Shuffle描述着数据从map task输出到reduce task输入的这段过程。shuffle是连接Map和Reduce之间的桥梁,Map的输出要用到Reduce中必须经过shuffle这个环节,shuffle的性能高低直接影响了整个程序的性能和吞吐量。因为在分布式情况下,reduce task需要跨节点去拉取其它节点上的map task结果。这一过程将会产生网络资源消...转载 2019-05-19 00:48:05 · 1061 阅读 · 0 评论 -
Spark~内存管理
近期在调实验,发现了一个Java.lang.nullPointerException异常, 导致部分task挂掉,最终通过调节参数内存管理参数成功解决。下面总结一下Spark中的内存管理机制。 从Spark1.6.0开始,Spark的内存管理采用了和之前不同的方式,采用了一种新的内存管理模式叫做统一内存管理,UnifiedMemoryManager。而1.6.0版本之前的Spark的内存管...转载 2019-05-18 23:42:56 · 223 阅读 · 0 评论 -
数据仓库中的元数据管理系统
一、元数据的定义按照传统的定义,元数据(Metadata)是关于数据的数据。在数据仓库系统中,元数据可以帮助数据仓库管理员和数据仓库的开发人员非常方便地找到他们所关心的数据;元数据是描述数据仓库内数据的结构和建立方法的数据,可将其按用途的不同分为两类:技术元数据(Technical Metadata)和业务元数据(Business Metadata)。技术元数据是存储关于数据仓库系统技术细...转载 2019-05-19 12:56:40 · 2563 阅读 · 0 评论 -
大数据技术相关组件
虽说人生没有白走的路,新的一年来到,会的还是原来的知识,人的身价就摆在那里,无论怎么折腾,也不会拿到更好的offer。所以在年轻还有拼劲的时候多学学知识,寻找自身的不足,查漏补缺非常重要。****今天小编给大家带来的是绝对的干货!以下是我自己这些年爬过的那些坑。在大数据开发这一块来说还算是比较全面的吧!废话不多说,直接上干货!**1、Java编程技术Java编程技术是大数据学习的基础,Ja...转载 2019-05-07 15:40:50 · 1045 阅读 · 0 评论 -
如何提高elasticsearch的查询速度
ES性能并非想像中的那么好ES数据量一大时,特别是第一次搜索的时候耗时会很久(甚至10s以上)。也不要认为改个参数就能改善所有性能慢的场景。通过ES慢日志可分析查询效率ES提供了慢日志,但默认是没有开启的。ES中的慢日志主要分两类:索引慢日志、搜索慢日志。如何开启呢?参考如下:PUT /my_index/_settings{"index.search.slowlog.thre...原创 2019-06-10 17:18:21 · 16792 阅读 · 0 评论 -
数据仓库模型建设基础
观察数据的角度称之为维。决策数据市多为数据,多维数据分析是决策分析的组要内容。OLAP是在OLTP的基础上发展起来的,OLTP是以数据库为基础的,面对的是操作人员和底层管理人员,对基本数据进行查询和增,删,改等处理。OLAP是以数据仓库为基础的数据分析处理,它有两个特点:1.在线性,体现为对用户请求的快速响应和交互式操作,它的实现是由客户/服务器这种体系结构来完成的;2.多维分析,...转载 2019-06-06 23:08:29 · 1119 阅读 · 0 评论 -
BI和大数据的关系
一 概念BI又称商业智能分析,个人理解为是一个解决方案,其作用是将企业的数据整合并快速准确的提供数据给需求方使用,简单的可以说是由数据同步,数据仓库,数据可视化,策略算法等部分组成,是一个相对抽象的概念。笔者后续会更新什么是数据仓库,有不理解的朋友可以跟一下笔者后续的博文大数据本义是指海量的数据并且具有4V的特性。个人觉得目前人们常说的大数据可以粗浅的理解为所谓的大数据工程师用Hadoop...转载 2019-05-26 16:33:54 · 1101 阅读 · 0 评论 -
基于大数据技术构建数仓模型实践
最近刚接触一个线上运行的数仓环境,是针对用户流量日志做点击量指标的多维度分析,维度表每天一个快照,经过数据统计分析发现有的维度表数据量很大,每天竟然有5亿多条的素材日志,并且这些维度数据是渐变维度,数据存储在亚马逊S3文件系统上面,严重浪费公司的存储成本,同时要是查询跨度一个周的数据则涉及到的维度数据就40亿条进行关联,这还不算其他维度的统计在内,个人观点,涉及到这些大维度数据的统计应该通过当前构...转载 2019-05-12 20:00:05 · 699 阅读 · 0 评论 -
Hbase查询速度快的原理分析
因为Hbase属于NoSQL,非关系型数据库,所以会经常拿来和关系型数据库做对比。面试的时候也会问到为何Hbase的速度快或者为什么选择Hbase作为数据库存储。下面的文章是转发的,对于上述问题的回答有一定的参考意义。仅供参考。HBase能提供实时计算服务主要原因是由其架构和底层的数据结构决定的,即由LSM-Tree(Log-Structured Merge-Tree) + HTable(re...转载 2019-05-21 22:54:41 · 1816 阅读 · 0 评论 -
数仓 架构层次
1. Source, 3NF/File, 源数据2. Stg, 3NF,暂存数据(同源同构,不对外提供服务)3. ODS, 3NF,操作数据(简单处理,提供基于业务数据的应用)4. BL, Star, 明细数据(面向主题域,数据加工,产生衍生指标)5. DM, Start, 汇总数据(特定领域的应用)6. OLAP, Cube, 多维数据7. Report。最难:...转载 2019-05-15 00:49:06 · 1162 阅读 · 0 评论