大数据
文章平均质量分 70
首席数据师
7年数据仓库及大数据平台开发,架构经验参与并主导多个数据平台的搭建.
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
程序员按代码行数算工资,员工利用规则赚2.6万,隔天却辞职了
对于职场朋友来说,工资无疑是对于自己最重要的,每家公司对于员工的工资都有一定的标准,有些是恒定的,也有一些是根据一些因素来决定的,难么你知道程序员的工资都是如何规定的吗?最近看到一个很有意思的工资标准。一位朋友说自己以前在一家公司工作,这家公司对于程序员的工资是按照代码行数来算工资的,这的确是很稀奇的一件事情,后来这家公司有位员工就利用了这个规则,最后光是提成就拿到了2.6万,听起来真的很不错...原创 2018-12-19 19:22:56 · 1004 阅读 · 0 评论 -
flink内部计算指标的95线-99线等的实现
15年在某电商从0设计了一个通用的API监控系统,当时只是计算了成功率+平均耗时,没有算75,90,95,99,999,9999线,这次单位需要,所以促使我去思考这个问题,问了单位CAT维护人员,大致了解了计算方式,跟我在18年7月份在单位内网BBS发表的文章思路是一致的,所以就直接写了下面的代码PercentageCalculation.javapackage com.ymm.comp...原创 2018-12-24 19:50:24 · 10938 阅读 · 1 评论 -
深度预警:深入理解HBase的系统架构
HBase的构成物理上来说,HBase是由三种类型的服务器以主从模式构成的。这三种服务器分别是:Region server,HBase HMaster,ZooKeeper。其中Region server负责数据的读写服务。用户通过沟通Region server来实现对数据的访问。HBase HMaster负责Region的分配及数据库的创建和删除等操作。ZooKeeper作为HDF...原创 2018-12-24 17:30:28 · 508 阅读 · 0 评论 -
小议Lambda与Kappa架构,不可变数据的计算探索
Lambda架构说起来也很简单,就是通过分布式系统的组件搭建,设计出一个具有鲁棒性,可扩展,低延时的分布式计算系统。之所以称之为Lambda架构,就是它最为核心的点就是理由了数据处理过程之中的不可变性与无依赖性。Lambda架构说起来也很简单,就是通过分布式系统的组件搭建,设计出一个具有鲁棒性,可扩展,低延时的分布式计算系统。之所以称之为Lambda架构,就是它最为核心的点就是理由了数据处理过...原创 2018-12-23 16:29:49 · 456 阅读 · 0 评论 -
大数据分析技术与实战之 Spark Streaming
Spark是基于内存的大数据综合处理引擎,具有优秀的作业调度机制和快速的分布式计算能力,使其能够更加高效地进行迭代计算,因此Spark能够在一定程度上实现大数据的流式处理。随着信息技术的迅猛发展,数据量呈现出爆炸式增长趋势,数据的种类与变化速度也远远超出人们的想象,因此人们对大数据处理提出了更高的要求,越来越多的领域迫切需要大数据技术来解决领域内的关键问题。在一些特定的领域中(例如金融、灾害预...原创 2018-12-23 14:31:04 · 532 阅读 · 0 评论 -
解读 2018:13 家开源框架谁能统一流计算?
2018 年接近尾声,I我策划了“解读 2018”年终技术盘点系列文章,希望能够给读者清晰地梳理出重要技术领域在这一年来的发展和变化。本文是实时流计算 2018 年终盘点,作者对实时流计算技术的发展现状进行了深入剖析,并对当前大火的各个主流实时流计算框架做了全面、客观的对比,同时对未来流计算可能的发展方向进行预测和展望。今年实时流计算技术为何这么火今年除了正在热火落地的 AI 技术,实时流...原创 2018-12-21 19:24:51 · 996 阅读 · 0 评论 -
阿里重磅开源 Blink:为什么我们等了这么久?
今年,实时流计算技术开始步入主流,各大厂都在不遗余力地试用新的流计算框架,实时流计算引擎和 API 诸如 Spark Streaming、Kafka Streaming、Beam 和 Flink 持续火爆。阿里巴巴自 2015 年开始改进 Flink,并创建了内部分支 Blink,目前服务于阿里集团内部搜索、推荐、广告和蚂蚁等大量核心实时业务。12 月 20 日,由阿里巴巴承办的 Flink Fo...原创 2018-12-21 17:01:30 · 2192 阅读 · 0 评论 -
Hive实践分享之存储和压缩的坑
在学习大数据技术的过程中,HIVE是非常重要的技术之一,但我们在项目上经常会遇到一些存储和压缩的坑。大家都知道,由于集群资源有限,我们一般都会针对数据文件的「存储结构」和「压缩形式」进行配置优化。在我实际查看以后,发现集群的文件存储格式为Parquet,一种列式存储引擎,类似的还有ORC。而文件的压缩形式为Snappy。具体的操作形式如下:整理了一份2018年合适程序员学习的大数据的学习资料需...原创 2018-12-21 15:20:49 · 374 阅读 · 0 评论 -
Flink1.7稳定版发布:新增功能为企业生产带来哪些好处
1.Flink1.7开始支持Scala哪个版本?2.Flink1.7状态演变在实际生产中有什么好处?3.支持SQL/Table API中的富集连接可以做那些事情?4.Flink1.7新增了哪些连接器Apache Flink社区宣布Apache Flink 1.7.0发布。 最新版本包括超过420个已解决的问题以及Flink的一些新增内容,About云将在本文的以下部分中对其进行描述...原创 2018-12-20 19:28:37 · 449 阅读 · 0 评论 -
彻底明白Hadoop map和reduce的个数决定因素
Hadoop map和reduce的个数设置,困扰了很多学习Hadoop的成员,为什么设置了配置参数就是不生效那?Hadoop Map和Reduce个数,到底跟什么有关系。首先他的参数很多,而且可能随着版本不同一些配置参数,会发生一些变化,但是只要我们搞懂核心问题,那么其它在变,我们都能确定map的个数和reduce的个数。 首先来说,我们通过配置,无论你说的什么配置,能否就...原创 2018-12-20 19:22:07 · 3665 阅读 · 3 评论 -
spark--当分组遇到排序的解决思路
场景现在有如下数据格式图书分类,图书名,数量现在想统计全部分类中数量最多的书名以及数量场景解析如果不基于spark,我们来思考这个问题,数据量大内存是放不下,分类也不确定有多少类,图书名可能有重复,还需要合并计算。这种情况只能是分治,首先分类,把文件首先按照分类拆分成多个文件,每个文件中的数据都是图书名数量,然后根据图书名对数量进行合并,最后进行排序。整理了一份适合2018...原创 2018-12-20 15:07:02 · 471 阅读 · 0 评论 -
实时计算——聊一聊我所经历的计算框架
在聊实时计算之前,先说一下我对离线和批量、实时和流式的一些看法。我们首先来简单看一下计算任务的大致流程:首先先说下批量计算和流式计算:图中显示了一个计算的基本流程,receiver处负责从数据源接收数据,并发送给下游的task,数据由task处理后由sink端输出。以图为例,批量和流式处理数据粒度不一样,批量每次处理一定大小的数据块(输入一般采用文件系统),一个task处理...原创 2018-12-19 20:35:16 · 1624 阅读 · 0 评论 -
2018最常用大数据业务监控项目方案流程解析(文章结尾内附重大干货和福利)
根据监控对象的不同,监控系统可以分为系统监控、应用监控和业务监控。“实时交易监控系统”属于业务监控,主要用于监控客户的购买行为及订单情况,一般用于支持公司的日常运营决策和重大营销活动,如“双11”、“双12”及“双旦”等,对数据的实时性要求较高。“实时交易监控系统”对数据的一般处理流程:实时捕获数据库中交易数据的变更、实时计算订单各维度的指标、再实时推送指标到浏览器大屏。通过采集...原创 2018-09-05 14:53:03 · 2469 阅读 · 0 评论
分享