
大数据
文章平均质量分 92
zl1zl2zl3
这个作者很懒,什么都没留下…
展开
-
数据仓库、数据湖、流批一体,终于有大神讲清楚了!
摘要数据仓库,数据湖,包括Flink社区提的流批一体,它们到底能解决什么问题?今天将由阿里云研究员从解决业务问题出发,将问题抽丝剥茧,从技术维度娓娓道来:为什么你需要数据湖或者数据仓库解决方案?它的核心难点与核心问题在哪?如果想稳定落地,系统设计该怎么做?业务背景1.1 典型实时业务场景首先我们来看一个典型的实时业务场景,这个场景也是绝大部分实时计算用户的业务场景,整个链路也是一个典型的流计算架构:把用户的行为数据或者数据库同步的Binlog,写入至kafka,再通过...转载 2020-08-09 17:31:24 · 829 阅读 · 0 评论 -
我该建数仓、大数据平台还是数据中台?看完脑子终于清醒了
一、层出不穷的新名词现在各种新名词层出不穷: 顶层的有数字城市、智慧地球、智慧城市、城市大脑; 企业层面的有数字化转型、互联网经济,数字经济、数字平台; 平台层面的有物联网,云计算,大数据,5G,人工智能,机器智能,深度学习,知识图谱; 技术层面的有数据仓库、数据集市、大数据平台、数据湖、数据中台、业务中台、技术中台等等。 总之是你方唱罢他登场,各种概念满天飞…在比拼新经济的过程中,其实比拼的是流量也就是用户,但流量不等于用户,用户也不完全等同于流量;有了流量转载 2020-06-12 17:24:35 · 1469 阅读 · 0 评论 -
实时计算:Apache Flink在滴滴的应用与实践
导读:Apache Flink 是一个分布式大数据处理引擎,可对有限数据流和无限数据流进行有状态计算。可部署在各种集群环境,对各种大小的数据规模进行快速计算。滴滴基于 Apache Flink 做了大量的优化,也增加了更多的功能,比如扩展 DDL、内置消息格式解析、扩展 UDX 等,使得 Flink 能够在滴滴的业务场景中发挥更大的作用。本文中,滴滴出行实时计算负责人、高级技术专家梁李印分享了...转载 2020-04-26 18:21:00 · 949 阅读 · 0 评论 -
阿里大规模应用Flink踩过的坑:如何大幅降低HDFS压力?
作者介绍邱从贤(山智),Apache Flink Contributor,中南大学硕士,2018 年加入阿里巴巴计算平台事业部,专注于 Flink 核心引擎开发,主要从事 Flink State&Checkpoint 相关研发工作。众所周知,Flink 是当前最为广泛使用的计算引擎之一,它使用 checkpoint 机制进行容错处理 [1],checkpoint 会将状态快照备份...转载 2020-04-05 14:49:52 · 724 阅读 · 0 评论 -
如果你也想做实时数仓…
数据仓库也是公司数据发展到一定规模后必然会提供的一种基础服务,数据仓库的建设也是“数据智能”中必不可少的一环。本文将从数据仓库的简介、经历了怎样的发展、如何建设、架构演变、应用案例以及实时数仓与离线数仓的对比六个方面全面分享关于数仓的详细内容。1.数据仓库简介数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volati...转载 2020-03-17 09:51:06 · 347 阅读 · 0 评论 -
美团配送数据治理实践
背景大数据时代的到来,让越来越多的企业看到了数据资产的价值。将数据视为企业的重要资产,已经成为业界的一种共识,企业也在快速探索应用场景和商业模式,并开始建设技术平台。但这里要特别强调一下,如果在大数据“拼图”中遗忘了数据治理,可能再多的技术投入也是一种徒劳。因为没有数据治理这一环节,其带来后果往往是:随处可见的数据不统一,难以提升的数据质量,难以完成的模型梳理,难以保障的数据安全等等,源源...转载 2020-03-13 21:32:44 · 473 阅读 · 0 评论 -
Demo:基于 Flink SQL 构建流式应用
摘要:上周四在 Flink 中文社区钉钉群中直播分享了《Demo:基于 Flink SQL 构建流式应用》,直播内容偏向实战演示。这篇文章是对直播内容的一个总结,并且改善了部分内容,比如除 Flink 外其他组件全部采用 Docker Compose 安装,简化准备流程。读者也可以结合视频和本文一起学习。完整分享可以观看视频回顾:https://www.bilibili.com/vi...转载 2020-03-06 21:52:54 · 436 阅读 · 0 评论 -
小米流式平台架构演进与实践
摘要:小米业务线众多,从信息流,电商,广告到金融等覆盖了众多领域,小米流式平台为小米集团各业务提供一体化的流式数据解决方案,主要包括数据采集,数据集成和流式计算三个模块。目前每天数据量达到 1.2 万亿条,实时同步任务 1.5 万,实时计算的数据 1 万亿条。伴随着小米业务的发展,流式平台也经历三次大升级改造,满足了众多业务的各种需求。最新的一次迭代基于 Apache Flink,对于流式平...转载 2020-03-06 17:04:14 · 649 阅读 · 0 评论 -
性能提升约 7 倍!Apache Flink 与 Apache Hive 的集成
导读:随着 Flink 在流式计算的应用场景逐渐成熟和流行,如果 Flink 能同时把批量计算的应用场景处理好,就能减少用户在使用 Flink 时开发和维护的成本,并且能够丰富 Flink 的生态。SQL 是批计算中比较常用的工具,所以 Flink 针对于批计算也以 SQL 为主要接口。本次分享主要介绍 Flink 对批处理的设计与 Hive 的集成。主要分为下面三点展开: 设计架构 ...转载 2020-03-06 21:57:43 · 591 阅读 · 0 评论 -
美团点评基于 Flink 的实时数仓平台实践
摘要:数据仓库的建设是“数据智能”必不可少的一环,也是大规模数据应用中必然面临的挑战,而 Flink 实时数仓在数据链路中扮演着极为重要的角色。本文中,美团点评高级技术专家鲁昊为大家分享了美团点评基于 Apache Flink 的实时数仓平台实践。主要内容为以下三个方面: 实时计算演进与业务实践 基于 Flink 的实时数仓平台 未来发展与思考 一、美团点评...转载 2020-03-06 10:22:37 · 858 阅读 · 0 评论 -
我的数据分析师转型之路,从零到字节跳动数据分析师
从一个什么都不懂的小白,到现在字节跳动的数据分析师,我用了大概1年的时间,在这里想给大家分享一下我的转行经历,希望能有一些帮助。出于隐私考虑,我就全部打码了。。。先说一下个人背景,本科是工科相关,非计算机非统计学,硕士是金融相关,基本也算是和数据分析没什么关系,毕业之前有过迷茫,因为自己其实也不知道到底适不适合金融行业,而且上学的时候没有认真搞过什么银行、券商的实习,基本毕业就是凉凉的节奏。所...转载 2020-03-06 09:45:51 · 87805 阅读 · 73 评论 -
字节跳动 EB 级 HDFS 实践
本文选自“字节跳动基础架构实践”系列文章。“字节跳动基础架构实践”系列文章是由字节跳动基础架构部门各技术团队及专家倾力打造的技术干货内容,和大家分享团队在基础架构发展和演进过程中的实践经验与教训,与各位技术同学一起交流成长。作为目前字节跳动内部存储量及集群规模最大的分布式存储系统,HDFS 一直伴随着字节跳动关键业务的飞速扩张而快速发展。本文会从 HDFS 发展历程入手,介绍发展路径上的...转载 2020-01-02 09:42:53 · 358 阅读 · 0 评论 -
3万字细品数据倾斜(建议收藏)
一、前言1.1绪论数据倾斜是大数据领域绕不开的拦路虎,当你所需处理的数据量到达了上亿甚至是千亿条的时候,数据倾斜将是横在你面前一道巨大的坎。迈的过去,将会海阔天空!迈不过去,就要做好准备:很可能有几周甚至几月都要头疼于数据倾斜导致的各类诡异的问题。1.2 郑重声明话题比较大,技术要求也比较高,笔者尽最大的能力来写出自己的理解,写的不对和不好的地方大家一起交流。有些例子不是...转载 2019-12-18 09:05:47 · 520 阅读 · 0 评论 -
如何快速安全的插入千万条数据?
最近有个需求解析一个订单文件,并且说明文件可达到千万条数据,每条数据大概在20个字段左右,每个字段使用逗号分隔,需要尽量在半小时内入库。思路1.估算文件大小因为告诉文件有千万条,同时每条记录大概在20个字段左右,所以可以大致估算一下整个订单文件的大小,方法也很简单使用FileWriter往文件中插入一千万条数据,查看文件大小,经测试大概在1.5G左右;2.如何批量插入由上可...转载 2019-11-27 20:51:55 · 435 阅读 · 0 评论 -
RabbitMQ和Kafka到底怎么选?
作者:haolujun来源:cnblogs.com/haolujun/p/9632835.html前言开源社区有好多优秀的队列中间件,比如RabbitMQ和Kafka,每个队列都貌似有其特性,在进行工程选择时,往往眼花缭乱,不知所措。对于RabbitMQ和Kafka,到底应该选哪个?RabbitMQ架构RabbitMQ是一个分布式系统,这里面有几个抽象概念。 brok...转载 2019-10-23 17:14:16 · 200 阅读 · 0 评论 -
Flink or Spark?实时计算框架在K12场景的应用实践
如今,越来越多的业务场景要求 OLTP 系统能及时得到业务数据计算、分析后的结果,这就需要实时的流式计算如Flink等来保障。例如,在 TB 级别数据量的数据库中,通过 SQL 语句或相关 API直接对原始数据进行大规模关联、聚合操作,是无法做到在极短的时间内通过接口反馈到前端进行展示的。若想实现大规模数据的“即席查询”,就须用实时计算框架构建实时数仓来实现。本文通过一个教育行业的应用案例,剖...转载 2019-10-23 17:10:20 · 715 阅读 · 0 评论 -
大数据学习笔记1000条
1、Zookeeper用于集群主备切换。2、YARN让集群具备更好的扩展性。3、Spark没有存储能力。4、Spark的Master负责集群的资源管理,Slave用于执行计算任务。5、Hadoop从2.x开始,把存储和计算分离开来,形成两个相对独立的子集群:HDFS和YARN,MapReduce依附于YARN来运行。6、YARN可以为符合YARN编程接口需求的集群提供调度服务。...转载 2018-12-02 13:42:14 · 479 阅读 · 0 评论 -
京东「卖家日志」系统的构建 | 流式计算日志系统应用实践
引言本文讲述如何去构建一个日志系统,用到了哪些技术?为什么用这些技术?遇到的问题及优化的过程,希望给大家在实践中提供一些参考。这是一个有关于日志的项目,负责收集、处理、存储、查询京东卖家相关操作的日志,这里就叫它“卖家日志”。在日常的开发过程中,可能对日志这个词并不陌生,例如常接触到的Log4j、slf4j等等,这些日志工具通常用来记录代码运行的情况,当系统出问题时,可以通过查看日志及时的...转载 2019-03-28 23:46:49 · 390 阅读 · 0 评论 -
为什么MapReduce会被硅谷一线公司淘汰?
你好,我是蔡元楠, 目前在 Google Brain 担任 AI Healthcare (人工智能的健康医疗应用) 领域资深工程师,也是极客时间《大规模数据处理实战》的专栏作者,这篇文章便出自这个专栏的第一篇文章。每次和来 Google 参观的同行交流的时候,只要谈起数据处理技术,他们总是试图打探 MapReduce 方面的经验。这一点让我颇感惊讶,因为在硅谷,MapReduced 大家谈...转载 2019-04-25 16:03:49 · 1011 阅读 · 1 评论 -
通过女票的淘宝历程,大白话讲解大数据各个方向的分工
浙江女性胸部全国最小!--马云本文转自公众号“大数据肌肉猿”,作者无精疯1 背景总跟女票说我是做大数据的,女票也跟她朋友说我是做大数据的,但一问是啥,我跟我女票解释了半天她都没听懂,她也不知道怎么跟她朋友说。最好的解决方法是换女票,当然这是不存在的,想都不会想也不敢想。于是乎说写篇她看完也能知道大数据的文章给她。下次要是有人问你大数据开发是什么,希望你能把这篇文章分享给他...转载 2019-06-19 15:54:53 · 274 阅读 · 0 评论 -
大数据架构如何做到流批一体?
阿里妹导读:大数据与现有的科技手段结合,对大多数产业而言都能产生巨大的经济及社会价值。这也是当下许多企业,在大数据上深耕的原因。大数据分析场景需要解决哪些技术挑战?目前,有哪些主流大数据架构模式及其发展?今天,我们都会一一解读,并介绍如何结合云上存储、计算组件,实现更优的通用大数据架构模式,以及该模式可以涵盖的典型数据处理场景。大数据处理的挑战现在已经有越来越多的行业和技术领域需求...转载 2019-07-02 16:33:21 · 1057 阅读 · 0 评论 -
干货 | 每天十亿级数据更新,秒出查询结果,ClickHouse在携程酒店的应用
作者简介蔡岳毅,携程酒店大数据高级研发经理,负责酒店数据智能平台研发,大数据技术创新工作。喜欢探索研究大数据的开源技术框架。一、背景1)携程酒店每天有上千表,累计十多亿数据更新,如何保证数据更新过程中生产应用高可用;2)每天有将近百万次数据查询请求,用户可以从粗粒度国家省份城市汇总不断下钻到酒店,房型粒度的数据,我们往往无法对海量的明细数据做进一步层次的预聚合,大量的关键...转载 2019-06-27 10:39:47 · 4042 阅读 · 5 评论 -
京东HBase平台进化与演进
文章转载自公众号京东零售技术,作者 吴怡燃数据存储之HBase随着信息化数字化的发展,越来越多的数据以数字化的方式存储在计算机系统中。而传统的数据库已经无法满足海量数据存储的需求。数据存储技术也由原来的单机演变成了现在的多机分布式。虽然已经有很多数据存储、实现方式以及访问策略,但其在构建数据模型时并没有考虑超大规模分布式的特点。比较典型是关系型数据库,虽然他们都已经支持了集群模...转载 2019-08-15 10:48:50 · 475 阅读 · 0 评论 -
大数据团队工作与建设
1. 概要在过去五年间,负责过从数百万DAU到几千万DAU的成熟型数据算法团队,也曾负责从零开始的到几百万DAU增长型团队,积累了一些数据建设的想法思考以及数据团队管理经验。以前数据团队-启明星的好几个小伙伴,现在也陆续走上了数据团队负责人的管理岗位,时不时还会和我讨论数据团队的建设、管理遇到的问题和疑惑,讨论过程沉淀了不少的总结和思索。于是乎写下这篇文章,旨在介绍在公司内大数据团队的定位...转载 2019-03-11 14:32:09 · 7253 阅读 · 0 评论 -
Google MapReduce到底解决什么问题?
第二篇,Google MapReduce架构启示(上)。很多时候,定义清楚问题比解决问题更难。 什么是MapReduce?它不是一个产品,而是一种解决问题的思路,它有多个工程实现,Google在论文中也给出了它自己的工程架构实现。 MapReduce这个编程模型解决什么问题?能够用分治法解决的问题,例如: 网页抓取 日志处理 索引倒排 ...转载 2018-12-14 09:45:19 · 1657 阅读 · 0 评论 -
GFS架构启示 | Google File System
第一篇,GFS(Google File System)架构启示。GFS是什么?Google早期研发的分布式文件系统。画外音:与分布式文件系统对应的,是单机文件系统,Windows和Linux操作系统都有文件系统。 GFS的设计目标是什么?主要有四个目标:(1) 高可用(availability);(2) 高可靠(reliability);(3) 高性能(pe...转载 2018-12-14 09:43:22 · 855 阅读 · 0 评论 -
大数据凉了?No,流式计算浪潮才刚刚开始!
AI 前线导读:本文重点讨论了大数据系统发展的历史轨迹,行文轻松活泼,内容通俗易懂,是一篇茶余饭后用来作为大数据谈资的不严肃说明文。本文翻译自《Streaming System》最后一章《The Evolution of Large-Scale Data Processing》,在探讨流式系统方面本书是市面上难得一见的深度书籍,非常值得学习。大规模数据处理的演化历程大数据如果从 G...转载 2018-12-08 09:32:12 · 546 阅读 · 0 评论 -
为什么大数据需要数据湖?
自2011年“数据湖”概念被提出,业界便对数据湖一直有着广泛而不同的理解和定义。“数据湖是一个集中化存储海量的、多个来源,多种类型数据,并可以对数据进行快速加工,分析的平台,本质上是一套先进的企业数据架构。”——这是对数据湖比较清晰且完整的定义。然而,从定义上看不出数据湖对企业的重要性,本文从数据湖架构的发展,数据平台对企业的重要性,华为数据湖方案等角度阐明数据湖的对企业的价值。一、 ...转载 2018-12-07 22:09:45 · 9589 阅读 · 0 评论 -
海量数据的分库分表技术演进,最佳实践
每个优秀的程序员和架构师都应该掌握分库分表,移动互联网时代,海量的用户每天产生海量的数量用户表 订单表 交易流水表以支付宝用户为例,8亿;微信用户更是10亿。订单表更夸张,比如美团外卖,每天都是几千万的订单。淘宝的历史订单总量应该百亿,甚至千亿级别,这些海量数据远不是一张表能Hold住的。事实上MySQL单表可以存储10亿级数据,只是这时候性能比较差,业界公认MySQL单表容量在1KW以...转载 2018-11-27 09:08:09 · 613 阅读 · 0 评论 -
不是技术也能看懂云计算,大数据,人工智能
我今天要讲三个话题,一个云计算,一个大数据,一个人工智能,我为什么要讲这三个东西呢?因为这三个东西现在非常非常的火,它们之间好像互相有关系,一般谈云计算的时候也会提到大数据,谈人工智能的时候也会提大数据,谈人工智能的时候也会提云计算。所以说感觉他们又相辅相成不可分割,如果是非技术的人员来讲可能比较难以理解这三个之间的相互关系,所以有必要解释一下。一、云计算最初是实现资源管理的灵活性我们...转载 2018-11-20 10:47:04 · 859 阅读 · 0 评论 -
解读:大数据在电信行业的五大应用
调查结果显示,全球120家运营商中约有48%的运营商正在实施大数据业务。大数据业务成本平均占到运营商总IT预算的10%,并且在未来五年内将升至23%左右,成为运营商的一项战略性优势。电信与媒体市场调研公司Informa Telecoms & Media在2013年的调查结果显示,全球120家运营商中约有48%的运营商正在实施大数据业务。该调研公司表示,大数据业务成本平均占到运营商总IT预...转载 2018-11-03 00:09:54 · 8017 阅读 · 0 评论 -
物联网、云计算、大数据、人工智能之间有怎样的联系和区别?
一、物联网1、什么是物联网?物联网在之前被定义为通过射频识别(RFID)、红外线感应器、全球定位系统、激光扫描器、气体感应器等信息传感设备按约定的协议把任何物品与互联网连接起来进行信息交换,以实现智能化识别、定位、跟踪、监控和管理的一种网络,简言之物联网就是“物物相连的互联网”。后来被重新定义为当下几乎所有技术与计算机、互联网技术的结合,实现物体与物体之间:环境以及状态信息实时的实时共享...原创 2018-11-01 10:16:43 · 4237 阅读 · 0 评论 -
终于有人把云计算、大数据和人工智能讲明白了!
今天跟大家讲讲云计算、大数据和人工智能。这三个词现在非常火,并且它们之间好像互相有关系。一般谈云计算的时候会提到大数据、谈人工智能的时候会提大数据、谈人工智能的时候会提云计算……感觉三者之间相辅相成又不可分割。但如果是非技术的人员,就可能比较难理解这三者之间的相互关系,所以有必要解释一下。云计算最初的目标我们首先来说云计算。云计算最初的目标是对资源的管理,管理的主要是计算资源、...转载 2018-04-04 08:27:51 · 30175 阅读 · 4 评论 -
Google MapReduce有啥巧妙优化?
搞架构的人,Google的架构论文是必看的,但好像大家都不愿意去啃英文论文。故把自己的读书笔记,加入自己的思考,分享给大家。《MapReduce到底解决什么问题?》做了简介,这是第二篇,Google MapReduce优化启示(中)。 什么是MapReduce?MapReduce这个编程模型解决什么问题?Google MapReduce是Google产出的一个编程模型,同时...转载 2018-12-14 09:52:10 · 265 阅读 · 0 评论 -
Google MapReduce架构设计
前情回顾Google MapReduce到底解决什么问题?Google MapReduce是Google产出的一个编程模型,同时Google也给出架构实现,它能够解决“能用分治法解决的问题”。 Google MapReduce有啥巧妙优化? 分区函数:保证不同map输出的相同key,落到同一个reduce里 合并函数:在map结束时,对相同key的多个输出做本地...转载 2018-12-14 09:55:45 · 365 阅读 · 0 评论 -
一文盘点数据行业的动态演变
近年来,数据行业不断涌现的职能和头衔让人惊讶。不可否认,这是一个模糊不清的领域,甚至连从业者对这个领域的构成也有不同看法,但有一些趋势是公认的。随着数据相关的职位、投资和技术越来越多,机构对数据的重视也达到了前所未有的程度。为了方便阅读,我想按几种技术革命来介绍数据角色,尤其是那些在未来将不断发展的革命。此外,我最近写了一篇关于数据分析角色演变的文章,可以为本文提供很好的背景知识。附链接...转载 2018-12-19 19:20:04 · 534 阅读 · 0 评论 -
数据驱动决策的10种思维方式
很多人都说会数据分析的人比别人聪明,实际上他们“聪明”在拥有分析思维,今天我们就来说说常见的数据分析思维。以下10种数据分析思维可能不会瞬间升级你的思维模式,但说不定会为你以后的工作带来“灵光一闪”的感觉,请耐心读完,灵光一闪的时候别忘了我,你们的数据猎人DataHunter。一、分类思维日常工作中,客户分群、产品归类、市场分级……许多事情都需要有分类的思维。关键在于,分类后的事物...转载 2019-03-15 10:42:05 · 1537 阅读 · 0 评论 -
业界 | 5个步骤开启你的数据科学职业生涯!(附链接)
大数据文摘授权转载自数据派THU作者:Thomas翻译:王雨桐校对:丁楠雅数据科学已经成为21世纪最热门的工作领域,但如何才能成为数据科学家呢?作为一名有抱负的数据科学家,或是准备从事数据科学工作的学生,你应该做好哪些准备?需要什么技能?不要担心!本文将会回答以上所有问题,并提供相关的资源链接,帮助你开启新的职业生涯!数据科学是一个跨学科的领域,这意味着数据科学家要了解...转载 2019-01-02 10:38:07 · 262 阅读 · 0 评论 -
通俗说Spark
前面有一篇文章形象解析了Yarn的工作原理,这一篇文章通俗解析一下当前最火的大数据框架Spark。通俗说基于Yarn的Map-Reduce过程听说过Spark 的人常听到他强于Hadoop 的原因是他是基于内存的计算,因而比Hadoop快,可是数据量如此之大,怎么可能都放在内存里面呢?当然不是所有的都在内存里面,Spark比hadoop快而是由Spark全新的运行机制决定的。一提S...转载 2019-01-02 10:38:40 · 1297 阅读 · 1 评论 -
通俗说基于Yarn的Map-Reduce过程
先看全图是基于Yarn的Map-Reduce运行过程,下面通俗的说一下这个过程。从前有一个老板Resource Manager,开了一家外包公司,这家公司有很多的团队Node,每个团队都有个经理Node Manager,每过一段时间,团队经理Node Manager都要到老板那里开会,向老板的人事部门Manage NMs的ResourceTackerService报告当前的人员使用情况。...转载 2019-01-02 10:40:24 · 280 阅读 · 0 评论