
大数据平台架构设计
讲述主流大数据平台的架构和核心技术
常耀斌
CTO,AI科学家。2024年,清华大学出版社发行《大数据架构之道和项目实战》《AI赋能企业数字化转型》《深度学习和大模型实战》
展开
-
数据科学家分享:“大数据全栈技术与商用平台架构设计之路”
各位好: 回首10年多的科研工作历程,也是中国经济高速发展的10多年,中国高铁、核电、航空、互联网、云计算、大数据、人工智能等领域无不铭刻着“中国名片”,这就是科技是第一生产力的实践验证!12年前,获得北邮计算机工学硕士后信心满满的踏上了科研之路,一干就是十多年,有苦有泪有艰辛,但收获的是一种为国防科技发展能奉献和敢担当的责任感。今天,更一次站在了移动互联网这个朝阳产业的跑道上,和诸多大...原创 2019-03-19 14:43:42 · 7071 阅读 · 17 评论 -
SpringMVC框架升级为SpringBoot的案例图解
存储端maven版本和spring-boot版本区别Maven版本的mongodb.properties以及mongodb.xml在boot版本已删除,取代的是在boot的核心配置文件中增加在boot版本中新增springboot的启动加载类以及hbase的配置类删除了maven版本关于hbase的配置文件hbase.xml以及hbase-site.xm...原创 2019-03-19 09:28:48 · 3566 阅读 · 0 评论 -
深入分析高并发框架Mina和Netty的内存模型差异
Mina和Netty的区别这样来看:Mina:开发高性能和高可用性的网络应用程序的基础框架。 Netty:开发高性能和高可用性的网络应用程序的基础框架。 内存分配方式:HeapByteBuffer和DirectByteBuffer分配。 线程模型:分析的数据集生成,数据处理,数据建模,数据预测,数据模型调优。MINA是用于开发高性能和高可用性的网络应用程序的基础框架 通过使用MINA框...原创 2019-03-15 11:20:03 · 2466 阅读 · 0 评论 -
支付系统的平台架构分析和思考
支付系统从架构上来说,分为三层;支撑层: 用来支持核心系统的基础软件包和基础设施, 包括运维监控系统、日志分析系统等。核心层: 支付系统的核心模块,内部又分为两个部分: 支付核心模块以及支付服务模块。产品层: 通过核心层提供的服务组合起来,对最终用户、商户、运营管理人员提供的系统。支付基础设施支撑系统是一个公司提供给支付系统运行的基础设施。 主要包括如下子系统:运维监控: 支付系统...原创 2019-03-14 11:02:12 · 2799 阅读 · 0 评论 -
一流项目历练大专家,核心技术挑战新高度
2019年,是国家大力发展大数据和人工智能产业的关键一年,需要更多中高端大数据人才助力,尤其是从事大数据相关专业领域的工程师,要迅速响应国家战略发展方向,我们必须要从事有核心技术的高质量项目,来提升和历练自己的核心竞争力!尤其在核心知识机构开始快速更替的关键时刻,掌握大数据和人工智能的核心项目从业者已经炙手可热,如何找到合适的顶级规模的项目来历练自己? 围绕国家大数据战略实施要求...原创 2019-03-10 14:04:11 · 986 阅读 · 0 评论 -
某知名支付系统的架构演进权威分析
知名支付系统自2011年搭建以来,在五年的时间里逐渐从一个高耦合的单一系统发展为众多子系统组成的高并发、高可用、支持多种交易支付业务的分布式系统。业务从最初的非代收到现在多种非代收、代收场景的支持,B2B业务的从无到有,支付方式从单一网银支付到现在银行卡、拿去花、代金券、红包、立减、积分、趣游宝等多种的组合,订单从单笔支付到多个订单同时支付和多次付款。下面对整体的演变过程进行简单的介绍。一个支...原创 2019-03-02 12:08:00 · 1304 阅读 · 0 评论 -
新浪微博平台的多级架构
新浪微博在2014年3月公布的月活跃用户(MAU)已经达到1.43亿,2014年新年第一分钟发送的微博达808298条,如此巨大的用户规模和业务量,需要高可用(HA)、高并发访问、低延时的强大后台系统支撑。微博平台第一代架构为LAMP架构,数据库使用的是MyIsam,后台用的是php,缓存为Memcache。随着应用规模的增长,衍生出的第二代架构对业务功能进行了模块化、服务化和组件化,后台...原创 2019-02-27 20:39:20 · 1474 阅读 · 0 评论 -
Spark技术框架对比Hadoop框架
Spark对MapReduce做了大量的改进和优化,主要包括以下个方面:1)磁盘I/O的读写优化:中间结果缓存在内存中:随着实时大数据应用越来越多,Hadoop作为离线的高吞吐、低响应框架已不能满足这类需求。Hadoop MapReduce的map端将中间输出和结果存储在磁盘中,reduce端又需要从磁盘读写中间结果,从而造成磁盘I/O成为瓶颈。Spark则允许将map端的中间输出和结果缓...原创 2019-02-27 15:34:56 · 555 阅读 · 0 评论 -
IDEA构建spring boot项目
Spring Boot可以轻松创建可以运行的独立的,生产级的基于Spring的应用程序。我们对Spring平台和第三方库进行了一种自以为是的观点,这样您就可以轻松上手了。大多数Spring Boot应用程序只需要很少的Spring配置。您可以使用Spring Boot创建可以使用java -jar或更传统的war部署启动的Java应用程序 。我们还提供了一个运行“spring脚本”的命令行工具...原创 2019-02-01 15:17:33 · 340 阅读 · 0 评论 -
大型分布式服务的主要技术攻关问题总结
大型项目常见问题总结业务发展快,代码规模爆发 接口定义不规范 业务耦合紧密 共用数据库,导致读写效率低和维护成本高 耦合第三方业务,比如支付和小视频等 数据库设计混乱技术挑战服务技术挑战::基于Dubbo分布式服务设计 实时业务分析:基于Storm实时统计分析 数据库服务 OLTP挑战:逻辑读总量与计算函数(解决方案:需要尽量避免计算过程,),磁盘单块读(解决方案:Cache技...原创 2019-01-16 16:51:59 · 859 阅读 · 0 评论 -
大数据培训的核心竞争力和企业项目实战分析
大数据培训的前景和现状分析大数据培训的国家发展战略支持大数据培训的核心技术栈分析项目实战引领技术培训原创 2019-01-13 13:19:23 · 410 阅读 · 0 评论 -
大型网站系统设计架构深入分析
我的研发实践中,组件框架设计应该采用分层设计模型,组件采用递归结构。每个框架不能依赖其他框架而存在,应该能够独立开发和部署。组件和组件之间,组件和框架之间只能通过API通讯。将组件框架应该再细分成表现层框架、业务层框架、数据层框架、公共服务框架、基础框架、系统框架和与业务系统密切相关的业务框架等构成,除了具体的业务框架外,其他框架必须优先选择比较成熟的产品和免费框架。 组件是事先...原创 2019-01-13 13:09:52 · 615 阅读 · 0 评论 -
OpenStack的架构详解(深度解析)
OpenStack的架构详解1. OpenStack概要介绍OpenStack既是一个社区,也是一个项目和一个开源软件,它提供了一个部署云的操作平台或工具集。其宗旨在于,帮助组织运行为虚拟计算或存储服务的云,为公有云、私有云,也为大云、小云提供可扩展的、灵活的云计算。OpenStack旗下包含了一组由社区维护的开源项目,他们分别是OpenStackCompute(Nova),OpenS...原创 2019-01-10 10:51:51 · 4742 阅读 · 0 评论 -
2018年物联网大数据架构演进分析
感知层:主要分为两类,自动感知设备:能够自动感知外部物理信息,包括RFID,传感器,智能家电等;人工生成信息设备:包括智能手机,个人数字助理(PDA)、计算机等。 网络层:网络层又称为传输层,包括接入层、汇聚层和核心交换层。 接入层相当于计算机网络的物理层和数据链路层,RFID标签、传感器与接入层设备构成了物联网感知网络的基本单元。接入层网络技术分为无线接入和有线接入,无线接入有无线局域网...原创 2019-01-05 12:38:03 · 2083 阅读 · 3 评论 -
2018年车联网大数据架构演进分析
物联网终端通过无线/有线网络发送到平台,经过一系列的处理后存入到各种存储引擎中,业务可以通过数据交换接口来访问处理后的数据。具体流程如下: 车载设备或者传感器设备通过网络经过LVS/F5负载均衡将数据发送至网关; 网关接收到数据后进行公共协议解析,然后把解析后的数据发给Kafka,存放在原始数据Topic; 实时计算任务从原始数据Topic中读取数据经过数据清洗后...原创 2019-01-05 12:30:25 · 3569 阅读 · 2 评论 -
2018年医疗大数据系统演进架构图解
海量的医疗大数据来自于各个业务信息子系统,数据的标准化程度低,在完成数据收集之后,随后就面向后续的数据的清洗和加工步骤。如何把这些海量数据按照统一的标准进行清洗,是很多行业和企业现在面对的最大困境。阿里数据中台为的数据ODS 层设计包含了三个特性:其一是数据同步功能,支持结构化数据增量或全量同步到ODPS;其二是实现全结构化数据转换,能够将非结构化数据(如日志)进行结构化处理后再存储;其三...原创 2019-01-05 12:25:20 · 5785 阅读 · 1 评论 -
互联网医疗大数据类型的深度分析
医疗大数据类型医疗大数据分类电子病历数据这是患者就医过程中所产生的数据,包括患者基本信息、疾病主诉、检验数据、影像数据、诊断数据、治疗数据等,这类数据一般产生及存储在医疗机构的电子病历中,这也是医疗数据最主要的产生地。电子化的医疗病历方便了病历的存储和传输,但是并未达到进行数据分析的要求。大约80%的医疗数据是自由文本构成的非结构化数据,其中不仅包括大段的文字描述,也包括包含非统...原创 2019-01-05 12:18:38 · 19745 阅读 · 1 评论 -
2018年医疗大数据产业的发展及解决方案
医疗大数据产业背景分析 近年来,健康医疗大数据相关产业已经被列入国家大数据战略布局,和医疗健康大数据相关的政策频出。在众多健康医疗大数据相关政策中,其中比较著名的是2014 年国家卫计委制定“46312”工程,即建设国家级、省级、地级市、县级4 级卫生信息平台,构建电子监控档案数据库、电子病历数据库、全员人口个案数据库3 个数据库,建立一个安全的卫生网络,加强卫生标准体系和安全体系建设。...原创 2019-01-05 12:04:05 · 25883 阅读 · 1 评论 -
Spark Streaming和Storm架构比对
Spark Streaming类似于Apache Storm,用于流式数据的处理。根据其官方文档介绍,Spark Streaming有高吞吐量和容错能力强等特点。Spark Streaming支持的数据输入源很多,例如:Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等等。数据输入后可以用Spark的高度抽象原语如:map、reduce、join、window等进行运算。而...原创 2018-12-24 16:04:42 · 367 阅读 · 0 评论 -
项目经理必读:敏捷开发的需求过程实战
•敏捷的需求分析管理需求管理(变更控制,版本控制,需求跟踪和状态跟踪)和需求开发(问题获取,分析,规格说明,验证)系统变更频繁 系统上线时遇到很大阻力 系统上线后效果不佳 系统不可用甚至崩溃•敏捷的需求过程需求获取:通过与用户的交流,对现有系统的观察及对任务进行分析,从而开发、捕获和修订用户的需求; 需求建模:为最终用户所看到的系统建立一个概念模型,作为抽象描述,并尽可能多的...原创 2018-12-19 16:30:17 · 1471 阅读 · 0 评论 -
商用大数据平台的五层架构分析
IaaS、PaaS、SaaS是云计算的三种不同的服务模式,IaaS基础设施在最下端,PaaS平台在中间,SaaS软件在顶端。IaaS :Infrastructure-as-a-Service 基础构架即服务。这一层主要是对基础设施进行管理以给用户提供资源使用,如提供计算服务、安全备份、负载管理等。PaaS :Platform-as-a-Service平台即服务。这一层主要是基于IaaS之上,...原创 2018-12-17 14:38:05 · 3605 阅读 · 0 评论 -
基于设计模式的通用大数据平台设计思想
核心功能需求描述:•分享给朋友圈•发送给大数据分析引擎系统•实现一对多的可扩展性•案例1:消息队列ActiveMQ•案例2:Kafka分布式消息中间件•发送者:发送数据到一个存储位置•接收者:监听这个位置是否有•实现原理:同时异步获取数据•点对点模式:1对1•主题模式:1对多 基于上述思想的核心架构设计:...原创 2018-12-17 10:00:07 · 688 阅读 · 0 评论 -
人工智能通用平台的微架构设计
云计算是分几层的,分别是Infrastructure(基础设施)-as-a-Service,Platform(平台)-as-a-Service,Software(软件)-as-a-Service。基础设施在最下端,平台在中间,软件在顶端。PAAS平台通过网络进行程序提供的服务称之为SaaS(Software as a Service),而云计算时代相应的服务器平台或者开发环境作为服务进行提供就...原创 2018-12-17 09:48:44 · 1159 阅读 · 0 评论 -
分布式微服务的平台架构实战
微服务的核心功能需求描述:•多种物联网设备上传数据到云平台•云平台具备大数据高并发采集功能•采集运动、心电、影像大数据•解析后保存到数据库中•数据库要先后保存设备信息、健康信息、图片信息•可视化和分析•分享给医生或者朋友圈•发送给大数据分析引擎系统•数据建模•数据预测...原创 2018-12-17 09:43:04 · 440 阅读 · 0 评论 -
HDFS分布式存储架构和读写机制总结
如上图所示,HDFS也是按照Master和Slave的结构。分NameNode、SecondaryNameNode、DataNode这几个角色。 NameNode:是Master节点,是大领导。管理数据块映射;处理客户端的读写请求;配置副本策略;管理HDFS的名称空间; SecondaryNameNode:是一个小弟,分担大哥namenode的一部分工作量;是NameNode的冷...原创 2018-11-19 10:02:14 · 970 阅读 · 0 评论 -
YARN架构的工作流程和调度机制总结
YARN 是一个资源管理、任务调度的框架,主要包含三大模块:ResourceManager(RM)、NodeManager(NM)、ApplicationMaster(AM).1).ResourceManager 负责所有资源的监控、分配和管理;2).ApplicationMaster 负责每一个具体应用程序的调度和协调;3).NodeManager 负责每一个节点的维护。对于所有...原创 2018-11-19 09:54:56 · 634 阅读 · 0 评论 -
Spark性能调优之原理分析
spark性能调优之前先明白原理,具体如下:使用spark-submit提交一个Spark作业之后,这个作业就会启动一个对应的Driver进程。根据使用的部署模式(deploy-mode)不同,Driver进程可能在本地启动,也可能在集群中某个工作节点上启动。Driver进程本身会根据我们设置的参数,占有一定数量的内存和CPU core。而Driver进程要做的第一件事情,就是向集群管理器申请...原创 2018-11-16 15:08:40 · 631 阅读 · 0 评论 -
分布式架构研究
分布式架构对于一个大型的互联网系统,一般会包含多个应用,而且应用之间往往还存在共同的业务,并且应用之间还存在调用关系。除此之外 ,对于大型的互联网系统还有一些其它的挑战,比如如何应对急剧增长的用户,如何管理好研发团队快速迭代产品研发,如何保持产品升级更加稳定等等 。因此,为了使业务得到很好的复用,模块更加容易拓展和维护,我们希望业务与应用分离,某个业务不再属于一个应用,而是作为一个独立的服务单...原创 2018-11-02 16:19:46 · 952 阅读 · 0 评论 -
五大AI开放平台引领新一轮科技革命
人工智能作为新一轮产业变革的核心驱动力,将进一步释放历次科技革命和产业变革积蓄的巨大能量,并创造新的强大引擎。科技部召开新一代人工智能发展规划暨重大科技项目启动会,标志着新一代人工智能发展规划和重大科技项目进入全面启动实施阶段。会议宣布首批国家新一代人工智能开放创新平台名单:依托百度公司建设自动驾驶国家新一代人工智能开放创新平台,依托阿里云公司建设城市大脑国家新一代人工智能开放创新...原创 2018-10-08 14:23:15 · 1335 阅读 · 0 评论 -
最主流的五个大数据处理框架的优势对比
我深入分析了五个大数据处理框架:Hadoop,Spark,Flink,Storm,SamazaHadoop顶尖的框架之一,大数据的代名词。Hadoop,MapReduce,以及其生态系统和相关的技术,比如Pig,Hive,Flume,HDFS等。Hadoop是第一个,在工业界被广泛采用。为什么仍然使用Hadoop。尽管Hadoop被用来处理复杂数据,其本身其实相当简单。如果你的数据可以批量处...原创 2018-10-08 10:36:30 · 12199 阅读 · 0 评论 -
主流物联网平台的架构设计思考
物联网平台的总体架构物联网平台的技术架构用户级物联网平台的解决方案:车联网平台的主流解决方案:原创 2018-09-29 14:49:57 · 3580 阅读 · 0 评论 -
主流Paas云平台架构设计思想
提供简便的海量连接、云端存储、消息分发和大数据分析等优质服务,从而降低物联网企业和个人(创客)的研发、运营和运维成本,使物联网企业和个人(创客)更加专注于应用。高并发可用支撑高并发应用及终端接入,保证可靠服务 提供高达99.9%的SLA服务可用性多协议接入支持多种行业及主流标准协议的设备接入,如HTTP、JT\T808以及TCP透传等 提供多种语言开发SDK,帮助终端快速接入平台...原创 2018-09-29 14:15:59 · 5592 阅读 · 0 评论 -
“不战而屈人之兵”思想对项目架构设计的战略指导
“不战而屈人之兵”作为战略指导的思想境界,把全胜作为战争的最高目标,以最小代价达成战争目的。对项目而言,我们要考虑项目的应用场景,用户规模和数据处理能力,以及项目未来3年的目标等。在应用场景的设计中,会考虑业务和技术的结合度量,业务的规模和流程设计。技术的选型没有涉及到。用户规模和数据处理能力,会考虑技术选型和架构设计。具体要考虑架构设计。架构中重要的核心指标:性能、可用性、伸缩性、扩展性的等...原创 2018-09-28 16:00:04 · 378 阅读 · 0 评论 -
分布式架构演进分析
分布式和集群的关系分布式:一个业务分拆多个子业务,部署在不同的服务器上集群:同一个业务,部署在多个服务器上分布式架构的里程碑 大型主机的出现。凭借着大型机超强的计算和I/O处理能力、稳定性、安全性等,在很长一段时间内,大型机引领了计算机行业及商业计算领域的发展。而集中式的计算机系统架构也成为了主流。随着计算机的发展,这种架构越来越难以适应人们的需求,比如说由于大型主机的复杂性...原创 2018-09-28 10:57:06 · 492 阅读 · 0 评论 -
灵活转发服务知识图谱
原创 2018-09-19 15:04:02 · 356 阅读 · 0 评论 -
高并发采集服务知识图谱
1.基于TCP/HTTP的知识图谱原创 2018-09-19 14:29:08 · 509 阅读 · 0 评论 -
海量存储服务核心知识图谱
1.海量存储服务知识点原创 2018-09-19 14:24:04 · 392 阅读 · 0 评论 -
通用接收服务核心知识图谱
大数据采集知识点总结原创 2018-09-19 14:22:56 · 294 阅读 · 0 评论 -
大数据平台技术架构和微服务建设
原创 2018-07-30 17:07:52 · 3359 阅读 · 0 评论 -
大数据之云平台的安全框架构建方法
原创 2018-08-22 09:59:36 · 825 阅读 · 0 评论