行业首发!渊亭科技将重磅推出《军事大模型评估体系白皮书》

2024-05-16


ChatGPT、Sora等大模型应用的惊艳亮相,标志着生成式人工智能建设和应用的新浪潮已经到来。在这一背景下,无论是通用大模型、领域大模型,还是面向场景的大模型应用,都吸引了众多企业的关注和投入,成为推动社会进步和产业创新的重要力量。


大模型要真正在业务中发挥价值,全面、客观、准确的评估必不可少。但大模型评估目前还面临着诸多角度的问题需要解决,例如通用能力榜单的权威认可、领域大模型评估测试数据集的准备、大模型应用的持续评价方式等。在军事领域,数据的隔离要求、体系作战的复杂、军事天生的高对抗,使得军事大模型的构建和评估面临着更大的挑战。





近年来,渊亭科技积极参与行业内大模型的各项能力评估建设,取得了突出成果。作为国内最早从事军事大模型建设的企业之一,渊亭科技凭借在军事智能化领域的深厚积累,重磅推出《军事大模型评估体系白皮书》。



白皮书全面地梳理了军事大模型能力评估的行业特殊性和关注要素,并按照评估框架、评估标准、评估手段、评估数据、评估工具、评估平台等6大方向,系统性阐述了军事大模型评估过程中的最佳实践,预期能为行业内开展军事大模型的能力评估提供体系化的参考。


其中,评估框架以架构能力、基础能力、平台能力、应用能力、安全能力等5大能力为基石,深入探讨了大模型评估的具体方法。



架构能力:围绕大模型应用系统,在准确性、健壮性、兼容性;可解释、可评估、可伸缩;高扩展、高可用、高运维角度进行全面阐述。


基础能力:通用基础能力集成行业主流的通用评估方法,军事基础能力提供针对军事特性的领域评估手段。通过贯通评测任务构建-评测执行-评测结果分析-评测报告生成,定义高度自动的基础能力评估工具集。


平台能力:针对大模型开发、训练和部署基础平台,对数据生成、开发训练、应用编排、会话管理等关键能力进行全面性和效果评估。


应用能力:提炼强敌研究、指挥作战、装备研制、训练管理、联勤保障等方向的典型应用场景,定义针对场景的标准评估手段,结合业务特性快速实施评估。


安全能力:设计面向对抗攻击、内容伪造、数据泄露等方向的评估手段,综合评估大模型的安全性和可靠性。





以白皮书的理念为依托,渊亭科技同步推出国内首个军事大模型评估平台。作为一款专注军事大模型能力评估的平台产品,旨在通过先进的评估框架、丰富的参考数据、全面的评估手段,助力研究者、开发者及企业有效度量模型表现,助力军事领域大模型应用。



军事大模型评估平台综合考量基础能力、架构能力、平台能力、应用能力和安全能力,确保每一项评估都落到实处,有效度量模型能力。为用户生成详尽、全面的模型能力分析报告,辅助用户在大模型应用构建和部署时进行科学决策。



形成全面、灵活且可靠的评估框架,并提供灵活的评估方式,支持算法规则评分、仲裁大模型评分、人工评分等多种不同的评估机制,满足不同用户在特定场景下的复杂评估需求。


渊亭科技将于2024年5月17日在第九届中国(北京)军事智能技术装备博览会上正式发布《军事大模型评估白皮书》以及渊亭军事大模型评估平台产品,届时欢迎各界人士垂询。