- 博客(28)
- 收藏
- 关注

原创 TOGAF学习札记(二)
阐述企业架构企业架构框架的关系 从形式上二者的差异:企业架构是结果,企业架构框架是工具,用于产生这个结果。从发展上二者的关系:是一个抛问题解问题、相互促进发展的过程。
2022-11-13 11:26:44
287

原创 大数据技术架构演化
企业构建大数据技术体系时,会在一级架构的范围内,结合业务需要和未来规划目标,选择部分技术组件进行落地。构建初期,一般会通过CDH或HDP的产品套件,来完成数据采集(Sqoop、Flume)、数据存储(HDFS)、资源调度(Yarn)、分布式计算引擎(hive、spark)、集群管理(Ambari/CM)、安全能力(Ranger、kerberos、ldap)的快速引入,这时就已经具备基本的大数据服务能力。接下来,企业需要根据数据需求、完成数据架构的设计,在数据架构落地过程中,会对技术组件进行深度使用。
2022-02-22 21:31:03
2159
原创 数据领域概念横行?让我们从本质出发
技术领域每隔几年就会出现一堆新的概念,概念刚出的时候都有一个非常清晰的锚点,在某个层面提出更优的解决办法。数据领域也不例外,从最早的数据库、数据仓库、数据集市、到数据湖、湖仓一体、数据中台、以及最近出镜率较高的DataMesh、Data Fabric。我们需要从变化中找到一些不变的东西,最底层的逻辑是企业越来越重视数据,希望通过数据挖掘价值,在这个过程中,范围逐步扩大:数据不再是部门级别的专享福利,而应该辐射到全企业;方式逐步增多:以固定报表为始,自助式分析、机器学习等多元化方式逐步加入。
2022-12-04 20:26:25
633
原创 数据集成领域的相关技术总结
Airbyte、dbt的成功除了在产品层面解决了用户的实际痛点外,还有时势造英雄。国外对云的拥抱程度更高,可以依托云外延打造更立体的服务,而国内对云大部分是为了替换IDC服务器(Iaas层+中间件Paas),对Saas的软件层面更喜欢定制。所以工具类Saas产品在国外的生态会更好。
2022-11-27 16:59:49
1330
原创 TOGAF学习札记(三)
前面搞清楚了EA(企业架构)和EAF(企业架构框架)的关系和发展,同时对几个主流的EAF做了简单的总结,本篇正式开启TOGAF的学习,对TOGAF标准指引结构、关键概念、ADM核心流程做一个简单介绍。
2022-11-17 12:53:48
488
原创 研发效能评估体系:技术组织内的一把利剑
企业数字化转型,除了要关心业务的数字化转型以外,我们的管理流程也要数字化,尤其是技术组织内对研发的管理度量,需要从经验主义切换到以数据说话,通过数字化的手段和灵活、契合实际情况的指标设计来充分挖掘技术组织的价值。
2022-09-06 18:03:33
740
原创 关于技术管理的思考:让工作价值最大化
技术管理的本质目的是:让技术团队的工作价值产出最大化。短短的一句话,需要布局者关注三个核心要点,技术团队的工作有哪些?价值产出点在哪里?如何最大化?接下来让我们逐步拆解这三个核心问题。
2022-09-02 23:19:50
531
原创 大数据从业人员需要哪些技能?
在之前的文章中《关于能力模型的思考 | 技术从业人员》中提到了道、法、术、器的能力模型,有小伙伴在问,大数据从业人员到底需要哪些技能?为什么搞大数据的最后变成了Sqlboy或Sqlgirl?搞大数据的每天到底在干什么?今天,我们就来一一回答下,并总结出在当下大数据从业人员需要会哪些技能。
2022-03-19 22:09:14
3913
原创 数据集成技术概述-常见的CDC方案比对
导读 数据集成的概念,与主要挑战。 CDC技术详解:概念、主流解决方案、以及两个技术流派。 实时增量数据集成的主要开源技术:canal、maxwell、Debezium、FlinkCDC、FlinkX的主要特点,并详细介绍了canal的架构。 离线数据集成的主要开源技术:Sqoop、DataX。 数据集成企业信息化建设中,有一个板块是企业应用集成,根据集成深度的不同,可以分为界面集成、数据集成、控制集成、业务流程集成。其中界面集成是指统一入口,使分散的系统..
2022-03-19 13:57:18
8058
1
原创 软件开发方法 | 软件开发过程 辨析
软件开发方法净室方法净室工程是软件开发的一种形式化方法,可以生成高质量的软件,主要强调模型的重要性,其目标和结果是非常高低的出错率,这是使用非形式化方法难以实现或者不能达到的。高度严谨,可以通过数据模型证明,偏向于理论的研究方法,模型生成软件等。结构化方法结构化方法是一种面向数据流的开发方法,由结构化分析、结构化设计、结构化程序设计构成。指导思想:自顶而下,逐步分解。基本原则:功能的分解和抽象。不适合解决大规模、特别复杂的项目,且难以适应需求的变化。系统开发过程工程化
2022-03-14 10:57:40
1979
1
转载 大数据架构-流批一体发展演进
大数据与现有的科技手段结合,对大多数产业而言都能产生巨大的经济及社会价值。这也是当下许多企业,在大数据上深耕的原因。大数据分析场景需要解决哪些技术挑战?目前,有哪些主流大数据架构模式及其发展?今天,我们都会一一解读,并介绍如何结合云上存储、计算组件,实现更优的通用大数据架构模式,以及该模式可以涵盖的典型数据处理场景。大数据处理的挑战关键词:持续聚合、分析时序数据现在已经有越来越多的行业和技术领域需求大数据分析系统,例如金融行业需要使用大数据系统结合 VaR(value at risk) 或者机器
2022-03-14 10:55:49
1035
原创 hive的三种Authentication认证机制配置和使用
技术层面3A+1E:Authentication 认证,Authorization 鉴权,和Audit 审计;Encrption 加密hive身份认证的三种方式 NONE:即不做身份校验; LDAP: 使用基于 LDAP/AD 的用户身份校验; KERBEROS: 使用 Kerberos/GSSAPI 做身份校验; hive.server2.authentication = none 不做任何校验,登陆时可以不配置用户名密码,在服务端hive会显示匿名...
2022-03-08 15:59:50
7173
原创 代码优化原则
理透需求原则,这是优化的根本;把握数据全链路原则,这是优化的脉络;坚持代码的简洁原则,这让优化更加简单;没有瓶颈时谈论优化,这是自寻烦恼。
2022-03-02 12:46:52
230
原创 从大数据白皮书看数据安全法制建设
自2014年中国首篇《大数据白皮书》公布以来,至今已经发布了6版,《大数据白皮书》涵盖了大数据的内涵、产业发展、新技术趋势,以及安全相关的多个内容。从2016年起,大数据安全也被反复提及。法律制度是数据要素市场化建设的重要保障,2021年我国数据立法取得突飞猛进的进展,备受关注的《数据安全法》和《个人信息保护法》先后出台,与《网络安全法》共同形成了数据合规领域的三驾马车,标志着数据合规的法律框架已初步搭建完成。在此基础上,重点行业、新兴技术的法律和司法解释在今年密集出台,地方性立法成果丰硕,为国家安全提
2022-02-28 19:42:17
1360
原创 Spark十年沉浮 | 各版本核心特性对比
引言Apache spark 是一个用于大规模数据处理的一站式分析引擎。它提供了 java、 scala、 python 和 r 的高级 api,同时支持图计算。它还支持一系列丰富的高级工具,包括 sql 和结构化数据处理的 spark sql、机器学习的 mllib、图形处理的 graphx 以及增量计算和流处理的结构化流。近10余年的发展,已经形成了一个庞大的生态,包括开源的数据湖解决方案Delta Lake,也将Spark作为核心计算引擎。Spark1.0Hadoop对数据的处理、加工依赖引
2022-02-27 13:04:46
1309
原创 隐私计算概念,你都清楚吗?
隐私计算技术分类隐私计算主要技术体系分三类,第一类是以多方安全计算为代表的基于密码学的隐私计算技术;第二类是以联邦学习为代表的人工智能与隐私保护技术融合衍生的技术;第三类是以可信执行环境为代表的基于可信硬件的隐私计算技术。 多方安全计算:基于密码学技术,完成多方间的数据融合计算,主要用于联合统计、联合查询、联合建模和联合预测。 联邦学习:本质上是一种分布式机器学习的一种,通过对各参与方间的模型信息交换过程增加安全设计,使得构建的全局模型既能确保用户隐私和数据安全,又能充分利用多方数据。主要用于联合建模、
2022-02-26 15:28:28
2124
原创 关于能力模型的思考总结
技能的分布、掌握程度和侧重点,在每个人职业生涯的不同阶段、不同高度、不同环境都会有差异。但站在更高的角度来俯瞰整个能力模型,可以发现有很多共性互通的东西,这部分内容我们会标记成另一个名字—”软实力”,软实力跨过了职业的壁垒,几乎在所有职业都是通用的。还有另外一部分能力,随着职业、岗位的不同而形成差异。
2022-02-23 21:35:00
617
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人