
大数据
HenryLee699
三人行,必有我师。
展开
-
Hadoop内hive之间,hive与DB、ES等之间数据交互的问题与解决方案
之前做大数据处理,经常遇到各种问题。很多时候是项目作业简单项配置问题,也可能是导入导出参数配置的问题,也可能是公司Hadoop平台的问题。那么如何排查问题,解决问题?这种事情,除了自己要积累一些大数据的知识和技能外,也需要一些获得一些排查问题的技巧、方法。原创 2022-09-09 10:31:23 · 1014 阅读 · 1 评论 -
大规模数据获取提升效率时,对Bitmap的应用探索
Bitmap的秘密https://kb.cnblogs.com/page/515258/作者:周海鹏来源:infoQ转载 2021-05-16 12:23:39 · 181 阅读 · 0 评论 -
实时流处理Storm、Spark Streaming、Samza、Flink孰优孰劣
From http://www.dataguru.cn/article-9532-1.html分布式流处理需求日益增加,包括支付交易、社交网络、物联网(IOT)、系统监控等。业界对流处理已经有几种适用的框架来解决,下面我们来比较各流处理框架的相同点以及区别。分布式流处理是对无边界数据集进行连续不断的处理、聚合和分析。它跟MapReduce一样是一种通用计算,但我们期望延迟在毫秒或者秒级别。这类系统...转载 2018-05-16 15:20:04 · 989 阅读 · 0 评论 -
大数据简介
大数据的4V特征 体量大(volume): 非结构化数据的超大规模和增长总数据量的80%~90%,比结构化数据增长快10倍到50倍,是传统数据仓库的10倍到50倍。 多样性( variety ): 大数据的异构和多样性,很多不同形式(文本,图像,视频,机器数据) 无模式或者模式不明显,不连贯的语法或句意。 价值密度( value ): 大量的不相关信息,对未来趋势与模式的可预测分析 深度复杂分析(...转载 2018-05-16 15:33:48 · 417 阅读 · 0 评论 -
大型网站架构与分布式架构
解决问题的通用思路是将分而治之(divide-and-conquer),将大问题分为若干个小问题,各个击破。在大型互联网的架构实践中,无一不体现这种思想。架构目标低成本:任何公司存在的价值都是为了获取商业利益。在可能的情况下,希望一切都是低成本的。高性能:网站性能是客观的指标,可以具体体现到响应时间、吞吐量等技术指标。系统的响应延迟,指系统完成某一功能需要使用的时间;系统的吞吐量,指系统在某一时间...转载 2018-05-16 15:54:57 · 361 阅读 · 0 评论 -
Docker基本概念详解
本文只是对Docker的概念做了较为详细的介绍,并不涉及一些像Docker环境的安装以及Docker的一些常见操作和命令。阅读本文大概需要15分钟,通过阅读本文你将知道一下概念:容器什么是Docker?Docker思想、特点Docker容器主要解决什么问题容器 VS 虚拟机Docker基本概念: 镜像(Ima...转载 2019-02-25 16:17:31 · 313 阅读 · 0 评论