十年架构师的一些感悟 —— 总结过去,开创未来

本文回顾了作者在异构计算云服务项目中的经历,包括从零开始的团队建设,技术选型,客户需求挖掘,以及如何通过敏锐的洞察力抓住市场机遇。文章强调了架构师在预测未来趋势,把握技术方向,以及与客户紧密合作的重要性。

1、引子

回顾我的职业生涯,2006年从西安电子科技大学软件工程本科毕业,入职NEC西安研发中心,做NEC公司自有CPU的汇编;2011年入职华为云计算,2017年做到了华为云的异构计算首席架构师,完整负责公有云的四个产品,GPU/FPGA/鲲鹏/昇腾四个云服务;2018年12月加入鸿蒙团队,负责输入子系统的架构,联合人因团队的同事首次提出了统一输入体验的概念。

现在坐在新工位上,回想过去,感慨良多,重新整理一下这些过往的经验,整装出发,继续在新的岗位上闯出一片天地。

2017年开始搞异构计算,先是搞异构计算技术项目,云计算这边出了我一个人做架构师,开发是IT技术开发部的兄弟们,硬件那边是IT硬件和中硬,虚拟化是欧拉。我算了一下,和我接口的各种SE有20人左右,项目经理5个,后端开发估计有上百人了。虽然名头是首席架构师,但我觉得,我更像产品总监,项目、技术、合作、市场、交付,什么都要管。后来快交付上线的时候,部门给我配了一个PL,一个产品经理,号称异构计算三驾马车。牵引这么大一个团队,过程是十分痛苦的,但今天看来,这个经验又是我的一笔不小的财富。

还有一个小插曲,立项之初实际上是没有叫异构计算的,是叫GPU/FPGA服务化,我个人觉得这个名字太土了,才重新起了“异构计算云服务”。我当时的想法不仅仅是为了起一个看起来上档次的名字,还想埋个伏笔:我的团队不仅限于GPU和FPGA。后来异构计算团队也承接了其他异构的业务,比如现在很火的鲲鹏和昇腾,他俩的云服务产品就是我来负责的。

架构师,是一个复杂的结合体,要见客户搞需求,要排规划搞攻关,要带团队搞交付,等等等等,每个环节都不能少。

2、未来从哪里来

架构师,我认为最重要的一个工作就是预测未来,把握方向;尤其是产品的架构师,要能“做出来、卖出去!”,攻克技术难点只能得60分,甚至不及格!可是未来从哪里来?仅凭“YiYin”么?当然不行。“从客户中来,回到客户中去”,这是第一步。

我不是搞硬件出身的,立项之初,我其实是一点也不懂FPGA,对GPU也仅仅限于打游戏。我们集中到深圳封闭了两三次,我搞清楚了FPGA的来龙去脉,搞清楚了FPGA和GPU的优势;查阅了各种资料,搞清楚了当下业界的流行动态。后来我又密集拜访客户,搞清楚了客户对FPGA和GPU的诉求。当然,不能两手空空的去听客户讲,准备过程不是我要说的重点。

至少做出来以后,马上就有那么几个客户能用起来了。

3、一切可能的都是未来

保持敏锐,不要放过任何挖掘的可能。有些时候,客户有一些看似不太迫切的需求,但经过深入挖掘,客户用爽了以后,就会成为最迫切的需求,成为新的机会点。

有一个做渲染的客户,他们主要是搞电影渲染,当时客户只用CPU。渲染这个东西特别耗费计算资源,通常一帧就要渲染好几个小时。我查阅了一些资料,发现GPU做电影渲染已经非常成熟了,而且渲染效率比CPU高得多得多。与客户交流,客户意思是现在用CPU还不错,GPU没有那么迫切的诉求,暂时不考虑。

好在和客户关系不错,我动用了一点点特权,给客户申请了几台GPU机器,让客户试试。这一试不要紧,客户后来隔三差五追着我们产品经理要GPU资源。当时仅GPU这一项,收入相对是非常可观的。

4、客户的未来就是我们的未来

客户业务不中断,才有我们的未来。有一段时间我没有关注这个客户,后来我发现客户在我们GPU上的业务停了。我问了一下,是因为客户自己业务时遇到了一些问题,由于优先级不高,就暂停了这块业务。客户业务停了,我们也没钱赚呀!于是我又带队到客户现场在客户现场搞定。

在这期间,有兄弟找我抱怨,最起码我是一个华为的软件工程师,总是到客户那里去打下手,感觉不太爽。我说,咱们现在刚起步,没有资本吃山珍海味,甚至是在要饭阶段,客户哪怕给的是个干饼,能让我们吃饱了就行,何况这个客户体量也不小,出手也不吝啬,咱至少吃个肉夹馍。等以后强大了,吃山珍海味的时候多着呢。

后来,客户业务恢复正常,我们的收入也继续增长。客户不转,我们怎么转的起来?

5、平衡的艺术

架构师是整个产品或者项目方向的把控者,必须要有全局的视野,不能只把精力放在某一个方面,这样很容易忽略其他。从某种意义上讲,架构工作有重要的一部分是平衡的艺术,或者说取舍,规划与现状的平衡,范围与人员投入的平衡,紧迫程度与交付时间的平衡。

规划太过超前,短期内就很难产品化,所以要尽可能的分步交付。所谓船小好调头,前期交付发现的种种问题,对于后期技术有非常重要的参考价值,针对这些及时调整方向,才能稳步向前进。这就和开车是一个道理,车在行进过程中,司机总是在微调方向盘,不然车肯定会走偏。我认为小步快跑要比迈大步扯着dan要好一些。

那怎么取舍,我认为这个没有一个特别明确或者说特别靠谱的标准,完全要靠架构师或者架构团队的洞察力,绝对不是技术牛逼的点就搞。当前产品的TOP问题、客户的潜在需求、业界的技术动态和发展方向、各种论文/专利,这些都可以成为取舍的参考点。

细心地读者可能发现了,我上面的叙述把架构师和架构团队分开了,架构师不就是架构团队的成员么,为啥要特意分开呢。一些时候,真理往往掌握在少数人手中,这个的确是真理。所以,确信自己掌握真理的少数人一定要坚持!少数服从多数有时是致命的。当然我说的坚持真理,不能是盲目的,切忌“yiyin”!坚持真理并不代表“你以为你以为的就是你以为的”,原谅我皮了一下,哈哈。

我总结了我确定真理的一个大致准则:第一,在做或不做中挣扎的时候,不讲要技术,不要讲实现这个功能是困难还是容易,想象一下如果我是用户,我能不能接受这个结果。第二、还是不要讲技术,从逻辑上推断,如果结论是正向的,那就坚持。下面我讲个事情说明一下这两个准则。

6、“独断专行”

独断专行是个贬义词,但有时候在所有人都迷茫,甚至反对你的时候,你要坚持。再强调一下,是要坚持真理。有时候,真的是孤独的。。。

在服务器领域,如果一个PCI设备损坏,有很大的几率引起整个服务器重启。如果损坏或者故障,PCI链路可能会给系统发个fatal信号,CPU收到这个信号以后会重置服务器,也就是直接冷重启。我之前交流过的几乎所有硬件专家都表示,设备损坏,服务器下电或者重启这很正常,这个应该算是硬件领域的一个标准处理流程了。但是,显然我要说的是接受不了。

以GPU服务器为例,现在GPU服务器的密度都很高,一台服务器上8个GPU甚至16个GPU已经成了标配。按照上面所说,如果一个GPU故障,整个服务器都要重启。如果8个GPU上分别跑了8个渲染任务,即使是一个GPU坏了,最起码其他7个渲染任务还是正常的。如果重启服务器,那这8个渲染任务都会中断。显然保持其他7个业务能够正常运行是非常有价值的。所以我认为无论从用户,还是从逻辑上看,传统的这种对硬件故障的处理非常不合理,必须改变。于是我定了一个目标:硬件故障尽可能不重启物理服务器。

这个功能当然现在华为云的异构计算云服务器已经有了,并且其中的技术原理也用在另一个重点技术项目中。但是沟通的过程是痛苦的,我不是搞硬件的,但我要说服各种硬件专家,各种沟通、评审不下10次。。让我欣慰的是,这个特性成为当时的可靠性重点工作。硬件、OS、调度等各领域的兄弟姐妹们一起把这个问题搞定了。

7、千万抬头看路

“一顿操作猛如虎,仔细一看二百五”,这句话曾经在网络上十分流行,虽然有点粗俗,但我觉得的确可以给我们一些警示。项目往往要不断的校准,才能得到一个令人满意的结果。记得大学做金工实习的时候,我们是用锉刀把一段圆柱形的钢搓成小榔头。最后那几下要慢慢搓,然后拿尺子量,然后在搓再量,直到尺寸刚刚好。有一个哥们真的是一顿操作猛如虎,别的不说,就他那深蓝色的衬衫都湿透了,可见他多么猛如虎。结果过了大概两分钟,这哥们大吼一声卧槽。。。他把圆柱形搓成半圆柱了。。。而我们的目标是要搓成方柱,这块钢也就报废了。。。

实际上,我在处理规划的时候也犯了这样的错误,好在后来及时纠正了。17年那会AI已经非常非常火爆了,人工智能遍地开花,英伟达股价飞涨,所以立项初期我就瞄准打造极致性能的AI云服务器。我们当时的想法是,AI这么火爆,等我们搞出来还不卖疯了,我天天憧憬在家数钱的日子。项目搞出来上线以后,我们的各种测试结果都表明,同样的GPU配置,我们的GPU云服务器综合性能都非常好,还有一些性能遥遥领先于友商。这个状态我当时还是相当满意的,这么牛X的东东怎么可能不大卖?但的确天不遂人愿,初期咨询的客户非常多,真正买的客户却很少。当然现在异构云服务器销售非常火爆,这都是后话了。

后来调研才发现,初中政治课学的一句话在这应验了。。。“当主要矛盾解决以后,次要矛盾将会上升为主要矛盾”。人工智能尤其深度学习这个分支在近几年能够得到飞速的发展,一个重要的原因是算力的极大提升,由于GPU、FPGA、TPU的引入,使得训练与推理的效率飞速提高。这个算力就是我所说的主要矛盾。

大家都知道,训练需要大量的原始数据,训练后又会生成推理所需的模型。这两样东西被企业视作核心资产。这些东西上云,就像把自己的钱放到别人家,总有那么一点不安心。数据泄露怎么办?那我企业的竞争力岂不是丢失了。在这里,核心资产安全问题上升成了主要矛盾。当然数据安全这些问题在公有云上并不存在,公有云上有非常完善的安全机制。但我却忽视了客户的担心。

还有一个我个人认为的点,就是AI那么火爆,但实际上并没有到想象的那个程度,很多时候只是蹭蹭热点。这个观点仅仅是我自己的,请搞AI的童鞋轻拍。

所以后来根据调研结果对目标做了一些调整,后期也得到了不错的效果。

后记

本来打算躺平了,结果又找到了一个实现自我价值的工作,回过头来看看五年前写的文章,颇有感慨,略作修改,重新发表。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值