YSim:高性能离散事件仿真系统
仿真是一个跨领域的课题。在许多领域,我们都需要使用仿真器对工作的成本与收益进行预估,以帮助决策。网络领域也是一样,无论是做算力调优,还是设计智能体,我们都需要对智算+网络进行仿真。
我们在业界首次提出面向数据设计的网络仿真技术YSim,能够仿真具有数万节点的网络的数据平面流量传输,仿真速度比业界最常用网络仿真引擎(NS-3)提升约60倍。针对网络控制平面路由协议的仿真,所提出的仿真技术能够模拟数万台路由节点构成的广域网,支持的规模比业界最常用路由仿真引擎(OMNeT++)提升一个数量级,仿真速度提升约15倍。并在业界首次提出支持GPU加速的大模型智算系统仿真平台,支持仿真5万张卡组网的训练集群,与当前业界普遍使用的智算系统仿真器ASTRA-Sim相比,可在仿真误差减少20倍的同时,将仿真速度提升40倍。该系统已在Github开源。
基于高性能仿真引擎,我们能高效地探索网络的规划与设计。基于我们对网络拓扑的高效建模,我们设计了一种自动化物理拓扑优化流水线,能够在给定流量目标与设计约束时,自动找出最具有性价比的设计方案。一个千卡集群的案例表明,通过拓扑设计的优化,能够提升12%的算力有效利用率且节省42%的成本。
此外,在数据中心网络之外,我们还可以针对供应链、专有网络等场景进行定制仿真设计。