- 博客(177)
- 收藏
- 关注
原创 挑战Infiniband, 爆改Ethernet(1)
为了挑战Infiniband在HPC和AI集群的统治地位,包括AMD、Broadcom、Cicso、Intel、HP、Oracle等等多家公司联合成立的超以太网联盟UEC。从工作组设置看,包括了物理层、链路层、传输层、软件层等对应协议栈的工作中,还包括存储、性能和调试、管理、兼容性等应用类型的工作组。从协议栈工作中的目标看,物理层工作组目标包括这样一句话:包括以太网物理层规范、电气和光信号特性、应用程序接口和数据结构的开发。我们开发了优化以太网效率、安全性和可扩展性的规范。
2024-08-11 14:57:27
275
原创 SONiC的PMON和RMON
RMON是remote monitoring,远程网络监视,是IETF定义的一种MIB,主要用于对网络中的数据流量进行监视,是目前应用相当广泛的网络管理标准之一。既然RMON是MIB,对应需要通过SNMP协议进行管理,设备支持RMON就是支持了这些MIB,NMS相应地可以从设备上获取这些MIB所规定的信息。通过专门用于PMON的container,SONiC系统可以对各种电压、电流、温度等物理信号进行管理。SensorMon daemon 可以管理多种不同的传感器,可以是电压、电流、也可以是气压传感器。
2023-07-22 22:57:37
412
原创 SONiC 202311 Release内容介绍
NTT公司虽然只有一项,但是这一项内容却是解决了SONiC系统管理的一个大问题,NTT公司建议SONiC系统通过集成Netopeer来支持NETCONF协议接口,相对于RESTCONF接口,虽然两种协议可以支持相同的YANG模型,但是NETCONF协议支持的Transaction,支持回滚操作,支持通过两阶段提交可以实现在对多个设备进行相互关联的配置操作等等,这些都是RESTCONF所不能支持的。从计划为这些功能提供支持的公司来看,Microsoft占了7项,而NVIDIA占了20项。
2023-07-01 17:03:17
492
原创 SONiC系统对光模块信号完整性SI管理
随着光模块速率越来越高,模块和系统之间的接口的速率也越来越高,由此也带来了硬件设计中信号完整性SI的巨大挑战。由于光模块一般由专业厂家提供,当不同厂家的光模块适配到不同的交换机路由器系统上的时候,信号完整性SI方面需要进行适配。这些SI设置可以根据模块供应商和平台供应商的组合而变化,模块供应商会在其模块的EEPROM中写入模块所需的默认的TX/RX SI设置,平台供应商可以直接采纳这些值、或者用新的设置以匹配其平台的特殊要求。介绍了光模块在SONiC系统中的管理是如何实现的。
2023-06-28 22:56:18
305
原创 ARM平台上支持通过ONIE安装SONiC
在其他嵌入式CPU架构下,由于通常都是封闭的系统,从BSP开始的系统引导代码到嵌入式软件的执行过程往往也是固定的,通常基于PowerPC和ARM芯片的嵌入式系统会采用基于Uboot的Boot Loader,通过Uboot引导系统,然后启动目标操作系统,ONIE对这些系统的支持是通过Uboot引导到ONIE,然后再引导到目标操作系统。很多开源的东西,在受到业界关注的时候,即使开始的时候是平台绑定的,由于开源提供了检查源代码实现方式的机会,慢慢的社区也会将其移植到其他平台上。
2023-06-24 14:29:35
730
原创 SONiC 202311 Release内容
SONiC社区目前处于Active状态的Project中,除了202305以外,还有一个是202311。名字就清楚表达了11月份要出个新Release的意思。一起来看看202311已经接纳了哪些功能,注意这些功能不一定最后在这个版本中能实现,能否实现取决于参与者是否积极推动并做出贡献了。正如202305版本有很多功能会推迟到202311版本一样,缺乏积极有效推动的功能都会不断延迟到下一个版本...
2023-06-16 23:29:00
178
原创 SONiC 202305 Release内容
SONiC社区采用Github平台进行项目管理,Github平台不仅仅提供代码的托管服务,还能提供Isuue Tracking,Release management等Requirement Engineering的功能。在Github SONiC页面上选择Projects/SONiC 202305 Release以后,可以看到表格的形式显示的该Release计划的77个Issue的内容。到今...
2023-06-08 22:04:00
131
原创 SONiC系统的散热控制
现在的网络设备功耗越来越大,动辄几百瓦的功耗对设备内部的散热设计提出了很大的挑战。极端的解决方案是把整个设备浸泡在液体里面,通过液体相变散热,或者液体的流动带走热量。这样做可以达到非常高的功率密度,但是对电子设备的设计和用于导热的液体也提出了很高的要求。或者采用水冷的方式,通过管道将低温的水引导到每个芯片上的水冷散热器上,通过管道内部的水流经散热器带走热量。这种方式对管道接头提出了很高的要求,需...
2023-05-21 10:35:00
211
原创 SONiC中FRR-ISIS路由协议管理
在SONiC的management framework中,各种配置参数的类型和格式通过YANG来描述,基于YANG描述的数据可以直接导入到Redis数据库中。进而通过数据库数据变动触发其他定阅进程执行对应的配置。SONiC中对FRR BGP的配置管理实现了上述的功能,但是对ISIS协议并没有支持上述功能。HLDSONiC/frr-isis-sonic-config-support-hld....
2023-04-28 05:05:00
368
原创 SONiC社区成立了新的路由工作组
在国内某大型互联网公司的建议下,SONiC社区成立了新的路由工作组。工作组成立的目的在其建议PPT中写了几个点,包括:1)改善FRR、Kernel和SONiC之间的通信,例如从SONiC向FRR的反馈。当SONiC采用其他方式探测到链路状态发生了变化的时候,需要SONiC向FRR进行反馈,目前的架构还不支持这项功能。2)增强路由相关的功能,特别是对L3VPN的支持。当前SONiC在支持VXL...
2023-04-28 04:58:00
369
原创 SONiC VXLAN ARP/ND抑制
SONiC支持在VXLAN业务中配置ARP/ND抑制,但是最近邮寄组有人报告这个功能配置以后实际并没有起作用,ARP的报文还是通过隧道传递到远端了,而实际应该达到的效果是ARP报文在本地得到响应。目前社区还没有对这个问题的答复。ARP/ND抑制功能是说通过控制平面的协议,比如MP-BGP,可以把VTEP上挂着的主机的MAC/IP关联信息传递到同一个VNI里面所有的VTEP上,当其他VTEP收到...
2023-03-19 19:40:00
227
原创 SONiC系统通过Radius进行安全认证的YANG数据模型PR#12749
SONiC系统利用YANG来描述配置文件的格式。基于Radius的认证方式把登录用户的安全认证放在一个集中的Radius服务器上,被登录设备在需要进行登录用户认证的时候,发送认证请求给radius服务器,Radius服务器返回认证结果和用户权限信息。这样做的好处是多个系统可以用相同的用户名和密码,避免在每台设备上重复设置。Radius认证比单机的用户名/密码认证有更高的安全性。为了支持Rad...
2023-03-02 21:52:00
138
原创 SONiC系统第三方容器管理
SONiC系统采用基于容器的架构,包括Redis数据库在内的几个核心部件是运行在操作系统之上的几个容器应用,这个从SONiC的软件架构图上可以明确地看出来。SONiC系统采用基于容器的架构,包括Redis数据库在内的几个核心部件是运行在操作系统之上的几个容器应用,这个从SONiC的软件架构图上可以明确地看出来既然采用了容器架构,用户也可以在SONiC系统上人为添加第三方的容器,用来扩展系统的功...
2023-02-22 22:41:00
161
原创 SONiC OTN LAI没有OAI好 OTN media management
今天看了一下SONiC LAI代码仓库里面上载的代码,几个头文件,定义了一些类似SAI的数据结构。 点开头文件看了看,里面的内容看起来就是一个线路系统的模型,但是这个模型和现有的模型都不相同,有些对象的名称是相同的,但是属性和对应代表的物理对象不同。 SAI里面对不同的业务有标准化的报文处理流程,报文处理流水线上每一步所完成的任务和处理都是明确定义的,有对应模型和参数定义。 两个问题: 1)LA...
2023-02-21 22:05:00
114
原创 SONiC 202305 release content management
SONiC采用完全开源的社区开发模式,而Github也提供了除了代码托管之外的很多项目管理功能。 针对SONiC202305这个版本发布计划项目,在SONiC的Github托管库sonic-net/SONiC页面里面包含了SONiC 202305 Release这样一个还在开发状态的项目,这个项目的详细内容可以通过点击打开详细看板来了解。Github提供了Table View和Board Vi...
2023-02-17 23:52:00
74
原创 SONiC系统管理 sonic-mgmt
今天挑了一个sonic-mgmt的PR看看。、[Testbed] Update ansible playbook for deploying SONiC 202205 fanout switches by lizhijianrd · Pull Request #7433 · sonic-net/sonic-mgmt · GitHub这个PR建议把一个SONiC系统上自动化配置的ansible...
2023-02-12 11:45:00
372
原创 SONiC Issues 问题清单
SONiC社区通过Github托管了代码,同时也利用Github提供的功能协助跟踪和解决代码中发现的问题。在sonic-net页面里面,在项目相关的各个功能页中,Issues页在Code和PR之间。有了代码、发现问题、提交PR解决,这逻辑也很清晰。点开一个Issue看看,Issue#13658,[Chassis, DNX] Fabric card/links takes more tim...
2023-02-05 22:11:00
115
原创 从一个Git PR看SONiC社区的开发
开源软件的开发采用众人拾柴火焰高的模式,每一个有兴趣的参与者可以对代码的修改提出Pull Request,经过社区审核通过以后,所建议的修改可以被纳入到社区代码中。这里以一个SONiC社区的PR为例子来分析这种开发模式,我们分析的PR#1243是最近Intel向SONiC社区提交的,这个PR其实是一个新功能建议的HLD(High Level Design)描述,社区在Review完这个功能描...
2023-02-04 22:53:00
131
原创 从SONiC社区项目活跃度看SONiC发展
有一段时间没有跟踪关注SONiC社区的更新了,打开Github上SONiC页面看了看,活跃度排名前三的项目分别是sonic-mgmt, sonic-buildimage, sonic-utilities。sonic-mgmt项目是用于SONiC TestBed的管理和自动化测试的代码,包括基于Python的系统功能测试代码,针对每一个功能都有对应的测试代码。也包括对测试结果的上载、分析。测试的...
2022-10-22 11:04:00
197
原创 基于意图的网络
对于IBN的研究以及商业宣传逐渐热闹起来,也有不少公司把网络自动化以及SDN相关的产品打包宣传成IBN网络。自智网络和IBN从关注点看还是有所不同,IBN更多的关注网络和用户之间的接口,用户通过基于意图的描述来向网络提出业务申请,网络管控系统能识别意图并开通对应的业务。自智网络强调网络的自动维护、优化、业务运行。IBN需要关注几个问题,首先是意图的描述,如果需要用专用的语言或者语法规则...
2022-10-17 22:29:00
48
原创 AI\ML,数字孪生,知识图谱,数据湖,元宇宙......
AI\ML,数字孪生,知识图谱,数据湖,元宇宙....., 各种新名词层出不穷,应接不暇。不过也是好事,说明这个行业蓬勃发展,百花齐放,百家争鸣。在这些纷繁复杂的现象背后,还是要看到实物的本质和技术发展的一般规律,区分哪些是应用场景、哪些是解决问题的技术手段。基于AI/ML可以做很多事情,以前看起来很难解决的事情,利用AI/ML说不定可以提供一个不同视角的解决方案,已经有了许多成功的案例。...
2022-10-15 11:04:00
98
原创 高精度网络测量是网络自治的基础
诺贝尔奖获得者,理论和实验物理学家Enrico Fermi说过,There're two possible outcomes, If the result confirms the hypothesis, then you've made a measurement; if the result contradicts the hypothesis, you've made a discover...
2022-08-13 11:33:00
48
原创 从网络自动化到自治
好久没有更新了,上半年看了大学课程以后,结合目前的关注的领域,又特意回头看了两本书补充了一些领域特定的基础知识,这样关于自动化和自治的思考可以更贴近于可实现性和解决具体的问题,希望能结合起来有所突破,加油。昨天看了一个Cisco关于从网络自动化到网络自治的视频,视频里面对自治网络的定义是要求4自3零。自配置、自愈、自优化、自演进、零等待、零接触、零故障。用汽车雨刷作为例子:最早的汽车雨刷只...
2022-08-10 22:45:00
59
原创 网络数据管理是自动化的基石
今天看了一下这篇博文:Data management as the foundation of your automation strategy文章里面给出了几个有Enterprise Management Associates (EMA)组织调研的数据,说明实际的网络和网络未来技术的规划者心目中的网络还有很大的差距:1)48%的有数据中心网络的公司还存在需要手动收集数据的情况。2)这...
2022-05-29 22:21:00
98
原创 自动驾驶网络Workshop报告--自动驾驶网络的挑战3
以下内容来自2018年在普林斯顿大学自动驾驶网络研讨会报告,其中特别提到了关于自动驾驶网络技术之外的其他挑战,机器翻译了一下,只能为迅速读懂一个大概的内容提供参考,具体内容还得看原文。第一部分介绍过法律和政策的挑战,第二部分介绍了隐私的挑战,这里是第三部分,关于道德的挑战。伦理的挑战:●自动化安全决策在网络物理系统中产生了意想不到的副作用。自动驾驶网络大大增加了意想不到的后果和副作用的可能...
2022-05-22 15:13:00
38
原创 自动驾驶网络Workshop报告--自动驾驶网络的挑战2
以下内容来自2018年在普林斯顿大学自动驾驶网络研讨会报告,其中特别提到了关于自动驾驶网络技术之外的其他挑战,机器翻译了一下,只能为迅速读懂一个大概的内容提供参考,具体内容还得看原文。第一部分介绍过法律和政策的挑战,这里是第二部分,关于隐私的挑战。隐私的挑战:● 可编程网络的兴起增加了收集更多信息的可能性,针对特定的网络管理问题量身定制,而不是批量收集全部数据包的Trace信息。在这方面...
2022-05-22 15:04:00
49
原创 自动驾驶网络大学课程W15L1 ML网络数据平面 II
Week 15 Lesson 1这个课程马上就要结束了,Week 15 第一堂课的材料是一篇关于NetFPGA的介绍性资料,老师安排这个资料是为了方便学生在这个平台上做课程论文吗?NetFPGA伴随着FPGA作为加速卡在ML中的应用,以及作为SmartNIC在数据中心的应用火了很久,但是NetFPGA SUME也真心不便宜。材料内容不多,就是一些关于这块卡的简单介绍,文章是发表在Xcell...
2022-05-01 12:37:00
104
原创 自动驾驶网络大学课程W14L2 ML硬件架构 II
Week 14 Lesson 2第二堂课还是没课,学生需要写课程论文。很好奇那里可以看看正规的学生在经过这个课程的学习以后能提交出什么程度的论文?每周的课程都是一个全新的研究领域。...
2022-04-30 20:52:00
41
原创 自动驾驶网络大学课程W14L1 ML硬件架构 II
Week 14 Lesson 1Week 14课程的材料是关于ML的硬件架构的,作为课程材料的论文也是非常的牛,作者都是来自于Stanford大学的教授。课程材料的内容总结起来就是实现了一种针对ML优化的编程语言,该语言抽象了ML计算的硬件实现,就是说用这个语言编写的ML代码可以方便地利用ML的硬件加速器。做这样一个语言的出发点是基于FPGA的ML加速器如果采用HDL编程的话对软件人员非常...
2022-04-30 20:49:00
43
原创 自动驾驶网络大学课程W13L2 网络加速ML II
Week 13 Lesson 2感恩节假期,不上课。本周Lesson 1的材料的作者来自于美国的公司和学校,P4玩的很溜。本周不上课也看看文章,作者来自欧洲,伦敦国王学院。文章的出发点是说GPU加速ML的时候报文需要在NIC和GPU之间的多次传递,这样影响了ML的效率,如果NIC能为ML加速就可以节省下这部分的开销了。显然现在GPU也想直接和DPU通信来Bypass CPU也是基于这个出发...
2022-04-28 21:44:00
42
原创 自动驾驶网络大学课程W13L1 网络加速ML II
Week 13 Lesson 1本周课程的材料还是关于通过网内汇聚加速ML的。文章很长,25pages,内容很扎实;所作的工作SwitchML是一个基于P4的应用,并且文章的作者在Tofino的P4交换机上进行了实验对比。研究工作能做到这一步就是很厉害了,至少这整套的工具链是用起来了。经历过这些工作的学生应该是收货很大的,看这个工作也想起来了Stanford的CS344 实验课程,也是P4...
2022-04-28 21:26:00
73
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人