行业首发！渊亭科技将重磅推出《军事大模型评估体系白皮书》

2024-05-16

ChatGPT、Sora等大模型应用的惊艳亮相，标志着生成式人工智能建设和应用的新浪潮已经到来。在这一背景下，无论是通用大模型、领域大模型，还是面向场景的大模型应用，都吸引了众多企业的关注和投入，成为推动社会进步和产业创新的重要力量。

大模型要真正在业务中发挥价值，全面、客观、准确的评估必不可少。但大模型评估目前还面临着诸多角度的问题需要解决，例如通用能力榜单的权威认可、领域大模型评估测试数据集的准备、大模型应用的持续评价方式等。在军事领域，数据的隔离要求、体系作战的复杂、军事天生的高对抗，使得军事大模型的构建和评估面临着更大的挑战。

近年来，渊亭科技积极参与行业内大模型的各项能力评估建设，取得了突出成果。作为国内最早从事军事大模型建设的企业之一，渊亭科技凭借在军事智能化领域的深厚积累，重磅推出《军事大模型评估体系白皮书》。

白皮书全面地梳理了军事大模型能力评估的行业特殊性和关注要素，并按照评估框架、评估标准、评估手段、评估数据、评估工具、评估平台等6大方向，系统性阐述了军事大模型评估过程中的最佳实践，预期能为行业内开展军事大模型的能力评估提供体系化的参考。

其中，评估框架以架构能力、基础能力、平台能力、应用能力、安全能力等5大能力为基石，深入探讨了大模型评估的具体方法。

架构能力：围绕大模型应用系统，在准确性、健壮性、兼容性；可解释、可评估、可伸缩；高扩展、高可用、高运维角度进行全面阐述。

基础能力：通用基础能力集成行业主流的通用评估方法，军事基础能力提供针对军事特性的领域评估手段。通过贯通评测任务构建-评测执行-评测结果分析-评测报告生成，定义高度自动的基础能力评估工具集。

平台能力：针对大模型开发、训练和部署基础平台，对数据生成、开发训练、应用编排、会话管理等关键能力进行全面性和效果评估。

应用能力：提炼强敌研究、指挥作战、装备研制、训练管理、联勤保障等方向的典型应用场景，定义针对场景的标准评估手段，结合业务特性快速实施评估。

安全能力：设计面向对抗攻击、内容伪造、数据泄露等方向的评估手段，综合评估大模型的安全性和可靠性。

以白皮书的理念为依托，渊亭科技同步推出国内首个军事大模型评估平台。作为一款专注军事大模型能力评估的平台产品，旨在通过先进的评估框架、丰富的参考数据、全面的评估手段，助力研究者、开发者及企业有效度量模型表现，助力军事领域大模型应用。

军事大模型评估平台综合考量基础能力、架构能力、平台能力、应用能力和安全能力，确保每一项评估都落到实处，有效度量模型能力。为用户生成详尽、全面的模型能力分析报告，辅助用户在大模型应用构建和部署时进行科学决策。

形成全面、灵活且可靠的评估框架，并提供灵活的评估方式，支持算法规则评分、仲裁大模型评分、人工评分等多种不同的评估机制，满足不同用户在特定场景下的复杂评估需求。

渊亭科技将于2024年5月17日在第九届中国（北京）军事智能技术装备博览会上正式发布《军事大模型评估白皮书》以及渊亭军事大模型评估平台产品，届时欢迎各界人士垂询。