云计算旨在灵活、有弹性地为企业提供附加价值。中国移动(CMCC)是中国最大的电信运营商和云服务提供商之一,正是通过其 Bigcloud 公共云产品提供这一服务。
Bigcloud 为关键任务应用程序提供 PaaS 和 SaaS 服务,以满足企业云和混合云解决方案的需求。中国移动深知企业想要在实时在线的数字世界中保持竞争力就必须依赖其网络和通信基础设施。
当他们开始遇到对其云原生服务的巨大需求时,中国移动通过开放虚拟交换机 (OVS – Open vSwitch)实现网络抽象和虚拟化,以自动化并获得对其网络的动态网络控制,帮助他们满足不断增长的需求。
然而,由于东西向网络流量的增加,维持网络性能成为一项严峻的挑战。
图 1 . Bigcloud 网络解决方案。
识别网络挑战
随着云服务的大量采用,中国移动在其虚拟化环境方面获得了巨大的增长。这种虚拟化的扩展在其数据中心内的服务器之间产生了东西向流量的爆炸式增长。
由于网络流量的增加,他们还看到了网络拥塞的增加,导致更多的抖动和延迟,并阻碍了整体网络吞吐量和应用程序性能。这导致了有效带宽不足,他们无法跟上业务高峰时间的大量网络流量。
在中国移动调查这些挑战的原因时,他们确定这些问题的根源来自开放式交换机(OVS)的四个主要方面:
- 由于服务器 CPU 同时处理应用程序和网络请求, 用于 VXLAN 封装和解封规则处理的 vSwitch 交换效率低下。
- 由于在用户空间、内核空间和内存之间频繁进行上下文切换,导致基于内核的 vSwitch 转发性能不佳,从而产生数据复制开销。
- 基于 DPDK 的 vSwitch 转发造成了对服务器 CPU 资源的争抢,这些资源本已受到严格的限制。
- 由于过度的数据包丢失、抖动和延迟导致吞吐量降低, vSwitch 流规则能力有限。
这些挑战成为了瓶颈,阻碍了应用程序以尽可能低的延迟获得所需的高网络流量吞吐量。
虽然 OVS 允许在主机之间以及外部世界之间转发数据包和流规则,但它是 CPU 密集型的,并通过消耗本应用于客户应用程序的 CPU 内核来影响系统性能,这将阻碍充分利用可用带宽。
中国移动希望确保网络应用程序的响应时间保持在较低水平,交付的带宽保持一致,并且能够满足峰值需求。
图 2 . 中国移动想要在其 BigCloud 的vSwitch Forwarding 上 同时支持 OVS 和 OVS-DPDK, 但在这方面面临挑战。
中国移动与这一领域的两位专家,NVIDIA 和诺基亚合作,他们共同提供了一种高效的软件定义网络(SDN)解决方案。该解决方案结合了 NVIDIA ConnectX SmartNIC 和 NVIDIA BlueField DPU(数据处理器)在卸载、性能和效率方面的技术,以及 Nuage Networks 虚拟化服务平台(VSP)的灵活性、弹性和自动化。
NVIDIA 和 Nuage 共同卸载了与 OVS 相关的计算密集型数据包处理操作,并释放了昂贵的计算资源,以便它们可以运行应用程序而不是 SDN 任务。
SmartNIC 和 DPU 赋能的加速网络
NVIDIA ConnectX 系列智能网卡和 BlueField 系列 DPU 提供 NVIDIA 加速交换和数据包处理(ASAP 2)技术,该技术在网卡(NIC)硬件内运行 OVS 数据平面,同时保持 OVS 控制平面完整性和对应用程序的完全透明性。
ASAP2 有两种模式。在第一种模式中,硬件数据平面构建在 SR-IOV 虚拟功能(VF)之上,以便每个网络 VF 可以直接连接到其对应的虚拟机(VM) 。
另一种模式是通过虚拟数据路径加速(vDPA)进行 VirtIO 加速。VirtIO 允许虚拟机对硬件设备(如网卡)进行本地访问,而 vDPA 通过使用称之为 Virtqueue 的设备队列来在网络设备和标准 VirtIO 驱动程序之间构建的 OVS 数据平面,并与 VM 建立连接。这实现了虚拟机和加速网络之间的无缝集成,控制平面在主机上进行管理,而 VirtIO 数据平面则由智能网卡进行硬件加速。
图 3 . vDPA 使用智能网卡硬件来卸载和加速每个虚拟机的流量。
Nuage Networks SDN 与
NVIDIA vDPA 技术的无缝集成
Nuage Networks 通过其虚拟化服务平台(VSP)对本解决方案做出贡献。VSP 执行虚拟路由和交换,是基于开放虚拟交换机的分布式转发模块,用作网络服务的虚拟端点。VSP 立即识别计算环境中的任何变化,触发网络连接和配置中基于策略的即时响应,以确保应用程序性能。
Nuage Networks 的 VSP 使用 VXLAN 等隧道协议将原始有效负载封装为覆盖 SDN 解决方案。
由于标准网卡不识别新的数据包头格式,传统上所有数据包操作都必须由 CPU 执行,这可能会使 CPU 负担过重,并导致网络输入/输出(I/O)性能显著下降,尤其是随着服务器输入/输出速度的增加。
因此,Overlay 网络处理需要被卸载到一个特定用于 I / O 的硬件适配器上,该适配器可以处理 VXLAN ,如 ConnectX 或 BlueField ,以减少 CPU 压力。
vDPA 的性能优势
图 4 . 在软件中运行 OVS-DPDK 和 ASAP2 vDPA 硬件加速的性能对比。
中国移动决定采用 VirtIO 解决方案以实现最大的兼容性,他们希望能够根据使用情况选择纯 OVS 或 OVS DPDK 。Nuage Network 和 NVIDIA 携手合作,为中国移动的公共云提供了一个敏捷、可扩展、硬件加速的 SDN 解决方案,并支持两种类型的网络虚拟化。
使用 Nuage Networks VSP 和 NVIDIA 硬件加速 vDPA 的联合解决方案显著提高了性能。与单独在软件中运行 OVS-DPDK 相比,网络吞吐量增加了 1.5 倍,数据包转发速度加快了 3 倍,Apache 基准测试每秒支持的请求数增加了 7 倍。
NVIDIA 往期精彩内容
“我与代码的那些事儿” —— NVIDIA DOCA 开发者社区有奖征文比赛开启
NVIDIA 授权合作伙伴 DPU & DOCA 卓越中心开放免费 DOCA 开发环境
HPC 研究人员借助 NVIDIA BlueField DPU 为网络计算的未来打下坚实基础
更多精彩仍在继续...
敬请关注
,