智算运维系统

YOPS:智算运维系统

构建覆盖主机、容器、GPU 节点、交换机、RDMA/IB/以太网、LB、PD 路径、KV 传输链路的统一观测体系,以及 Agent 驱动的网络智能运维体系,提升巡检、诊断、复盘和知识沉淀效率,为智算系统全生命周期保驾护航。已在多个集群上线部署,显著提升智算集群运行稳定性。