
大数据系统
文章平均质量分 95
Mr-Bruce
专注于大数据系统研发
展开
-
图计算思维与实践 (三)项目实践
本文截取了我们在网络数据分析项目中的一小块,阐述了使用图计算解决相关业务问题的基本思路。原创 2021-02-27 22:00:30 · 657 阅读 · 0 评论 -
图计算思维与实践 (二)核心概念与算法
本文介绍了图计算中的核心概念与算法,了解这些基本知识可以帮助我们更好更快的探索一个图,找到相应的解决方案,同时也是更深层次研究的基础。原创 2021-01-10 21:34:23 · 13363 阅读 · 4 评论 -
图计算思维与实践 (一)概览
本文介绍了以知识图谱、网络分析为主的图计算的应用,阐述了图思维的方式。原创 2020-12-27 16:10:40 · 28339 阅读 · 1 评论 -
让业务数据流动起来~
本文探讨了一种优雅的、没有倾入性的获取核心业务数据对应的过程型数据的通用解决方案。原创 2020-07-12 22:11:57 · 14654 阅读 · 1 评论 -
大数据的一生一世——谈数据冷热分离技术
本文探讨了大数据冷热分离的诸多解决方案,包括冷热分离异构系统、冷热分离同构系统。原创 2020-06-14 23:31:45 · 19164 阅读 · 4 评论 -
再谈Spark下写S3文件的File Output Committer问题
本文回顾了Spark写文件的机制,探讨了AWS EMRFS S3-optimized Committer的工作原理、存在的数据一致性问题以及如何解决。原创 2020-05-03 17:11:38 · 11402 阅读 · 1 评论 -
Parquet的那些事(三)嵌套数据模型
本文从嵌套结构的特性出发,逐步探讨了Parquet是如何支持嵌套结构存储的。原创 2020-04-12 23:05:09 · 14977 阅读 · 3 评论 -
Spark最佳实践之如何有效分配资源
本文主要探讨如何在AWS EMR下为Spark有效分配资源,从而充分利用一个集群的所有可用资源。原创 2020-03-28 22:39:20 · 22448 阅读 · 0 评论 -
Parquet的那些事(二)Spark中的Schema兼容问题
本文探讨了在Spark中经常会遇到的Parquet Schema兼容的问题,分析了文件加载和表加载的细节与Schema兼容的规则。原创 2020-03-14 20:10:50 · 16825 阅读 · 1 评论 -
Parquet的那些事(一)基本原理
本文阐述了Parquet的价值、基本文件结构、Predicate Pushdown Filter特性以及常用的工具。原创 2020-03-09 00:47:29 · 19209 阅读 · 0 评论 -
探秘HDFS —— 发展历史、核心概念、架构、工作机制 (上)
本文作为“探秘HDFS”上篇,主要分享Hadoop发展历史、HDFS核心概念和整体架构。原创 2019-09-01 18:28:16 · 22167 阅读 · 5 评论 -
谈Spark下并行执行多个Job的问题
本文结合笔者的实践场景,探讨了Spark下并行执行多个Job的问题。梳理了Spark任务调度的机制,并总结了实践中需要考虑的问题。原创 2019-03-20 19:08:03 · 27456 阅读 · 11 评论 -
聊一聊Spark写文件的机制——如何保证数据一致性
本文结合实践中遇到的问题来分析Spark写文件的机制,探讨其在性能和数据一致性上的权衡,包括什么是Rename机制,诸如S3这种对象存储的特殊性以及当前的优化方案(Consistent View,S3 Multipart Upload)。原创 2019-03-03 13:36:27 · 13886 阅读 · 0 评论 -
Elasticsearch最佳实践之Index与Shard设计
作为专栏的第三篇,本文主要探讨实际应用中Index与Shard的设计方法。主要包括这样几方面:基于时间的Index设计、Mapping设计技巧、巧妙的Alias、Shard分配原则、整体思路。原创 2019-01-22 16:44:53 · 21628 阅读 · 8 评论 -
创业公司做数据分析(二)运营数据系统
本文探讨数据应用层中的运营数据系统,因为运营数据几乎是所有互联网创业公司开始做数据的起点,也是早期数据服务的主要对象。本文将着重回顾下我们做了哪些工作、遇到过哪些问题、如何解决并实现了相应的功能。原创 2016-12-07 22:39:07 · 13056 阅读 · 4 评论 -
创业公司做数据分析(三)用户行为数据采集系统
本文将重点探讨数据采集层中的用户行为数据采集系统,分析了为什么要建设用户行为数据采集系统、采什么、前端怎么采、后端怎么存。原创 2016-12-27 17:12:46 · 21689 阅读 · 8 评论 -
创业公司做数据分析(一)开篇
作为系列文章的第一篇,本文采用“WHY->WHAT->HOW”的思考方式来介绍三点:1. 创业公司为什么需要做数据分析?2. 创业公司做数据分析,需要做哪些事情?3. 如何实现这些数据上的需求?原创 2016-12-01 23:14:06 · 13665 阅读 · 4 评论 -
创业公司做数据分析(四)ELK日志系统
本文将重点探讨数据采集层中的ELK日志系统,结合自身实践来介绍如何使用ELK系统、使用中的问题以及如何解决。ELK是一套开源的集中式日志数据管理的解决方案,由Elasticsearch、Logstash和Kibana三个系统组成。原创 2017-01-07 00:54:07 · 14415 阅读 · 4 评论 -
创业公司做数据分析(五)微信分享追踪系统
本文重点探讨数据采集层中的微信分享追踪系统。用户在微信中对Web H5网页进行浏览、分享,便会形成两种数据:操作行为数据和用户之间的传播关系数据,微信分享追踪系统便是对这类数据进行采集、存储,本文主要总结我们在微信分享追踪上的技术思考和方案演进。原创 2017-01-12 21:13:27 · 12231 阅读 · 3 评论 -
创业公司做数据分析(六)数据仓库的建设
本文重点探讨了数据处理层中数据仓库的建设,旨在构建一个适于分析的数据存储系统。文章探讨了数据仓库建设中的两个重要环节:数据建模与ETL过程,根据实践谈了谈维度建模的方法,以及ETL中的增量更新机制与基于Airflow的任务流管理系统。原创 2017-02-02 19:36:58 · 15925 阅读 · 6 评论 -
打造私人搜书系统之系统设计
作者利用业余时间打造了一个自己的搜书系统,基本的思路是:从各个小说网站爬取相关的书籍信息,通过一个手机客户端来阅读小说。本文将从系统设计的角度,来谈谈设计的思路和踩过的坑。原创 2017-08-26 19:11:11 · 5376 阅读 · 2 评论 -
聚合查询越来越慢?——详解Elasticsearch的Global Ordinals与High Cardinality
本文结合笔者在实践过程中遇到的由High Cardinality引起Global Ordinals构建过慢,从而导致聚合查询变慢的问题,阐述了Elasticsearch中两个核心概念:Global Ordinals和High Cardinality。原创 2018-10-22 17:42:37 · 12137 阅读 · 8 评论 -
详解Spark Streaming的Graceful Shutdown
本文主要探讨Spark Streaming的Graceful Shutdown,重点为三个问题:为什么需要Graceful Shutdown?如何触发Graceful Shutdown?Graceful Shutdown过程是怎样的?原创 2019-01-06 23:22:08 · 12179 阅读 · 0 评论 -
当Spark遇上Zeppelin
本文将会发表在GitChat上面,主要探讨Spark with Zeppelin。Zeppelin是一个基于Web的交互式数据分析工具,里面有很多解释器,透过这些解释器可以利用相应的引擎完成数据分析,Spark便是其中一种。原创 2019-01-13 14:19:09 · 4200 阅读 · 0 评论