运维智能体

YOA:智能运维智能体系统

随着信息技术的飞速发展和计算需求的日益扩张,企业所依赖的计算集群的规模不断扩大,集群设备的架构越来越复杂,运维的成本也随之不断升高。据Gartner报道,早在2022年,全球IT设施的总成本已超过4.5万亿美元,而对于以数据中心为代表的高计算密度的IT基础设施,其运维成本占总成本的12%以上。传统的运维方法以人工方式为主,高度依赖专家经验,存在成本高、效率低、易出错等问题,可能导致集群出现的故障难以得到及时、有效的应对和处理。

近年来,基于机器学习技术的人工智能运维(AIOps)技术实现了快速的发展,获得了产业界的广泛关注和应用。AIOps采集海量真实的运维数据,基于有监督学习、弱监督学习、强化学习等机器学习算法,训练出多种类型的人工智能模型。这些训练好的模型可用于指标数据分析、故障检测、故障根因分析等运维任务,从而辅助或替代人类运维人员进行运维决策。据美国IDC公司预测,到2026年,90%的全球前2000的企业将使用AIOps来驱动自动化运维和决策。

然而,现有的AIOps技术还存在明显的不足。首先,基于经典统计模型的AIOps技术只适用于特定具体的数值分析场景,不具备普适性、综合性的运维能力,并且由于模型本身的表征能力不足和训练中可能出现的过拟合,导致模型不具备泛化能力,难以迁移到新型的、突发的运维场景中。另一方面,近期新出现的基于大模型(如:ChatGPT、通义千问等)的新型AIOps技术还处于早期的发展阶段,由通用场景数据训练得到的基座大模型尚缺乏运维领域的专业知识和复杂运维操作的能力,现有的研究工作(如:RCACopilot、RCAgent等)大多局限在特定的实验场景中,只能完成单一的故障根因判断任务,还不能与各类主流运维工具或系统进行集成,以实现具备通用性、实用性的智能运维。

对此,我们提出YOA,一套智能运维智能体系统,使用大模型,帮助解决各类网络中的故障预测、定位和修复问题。在此方面,我们具备以下强大的技术壁垒:

  • 首先,我们具备领先的大模型的设计、训练和推理技术。依托清华大学顶尖的学术研究力量和丰富的计算资源,我们在大模型的架构设计、大规模训练、推理加速技术等技术点上有着深入的研究和丰硕的学术成果,部分成果已发表在顶级国际会议中。这些成果为我们训练运维智能体提供了坚实的基础,也让我们能取得更深层次的技术突破。

  • 其次,我们拥有产业界一线的运维场景数据。作为模型训练的基础,高质量的运维数据是智能体形成全面、可靠的运维能力的关键。我们通过广泛的合作,收集了大量产业界一线的运维数据,深度处理并挖掘了大量高价值的结构化运维数据,并基于此构建了运维知识库,为运维智能体提供全面的运维领域知识。

  • 最后,我们拥有积累深厚的智能系统开发经验。我们团队汇集了大量来自头部互联网企业的骨干工程技术人员,均具备长期积累的智能系统及其基础设施的开发和维护经验,为运维智能体系统的开发提供了质量和效率的保障。