本报讯 (记者何 可)记者从中国信息通信研究院(以下简称“中国信通院”)获悉,近日,国际电信联盟电信标准分局(ITU-T)正式发布基础模型的评估标准:基准测试(ITU—T F.748.44)。该标准由中国信通院牵头制定,旨在推动大模型基准测试体系架构形成国际共识,为大模型技术提供方和应用方提供高质量的能力评估依据,引导大模型技术及产业健康有序发展。
近年来,如何客观、全面地衡量大模型能力并且充分挖掘大模型潜在缺陷得到产学研各界的广泛关注。模型基准测试通过设计合理的测试任务和评价数据集来客观、公正、量化地评估模型的性能,是目前产业界和学术界最为认可的模型能力评估方法。当前已有数百个基准测试方法和数据集用于衡量大模型的能力。但当前产学研各界对大基础模型基准测试的体系、指标、数据集、方法、平台工具等仍未达成一致,缺乏统一的标准,导致大模型评测的结果公正性受到质疑。为进一步推动大模型基准测评的技术发展与实际应用,充分释放基准测试在人工智能领域的价值,中国信通院联合相关单位开展标准的编制工作。
本次发布的国际标准基于当前产学研界500余项基准测试系统性研究,一方面确立了大模型基准测试的4项核心要素,包括测试维度(测试场景、测试能力、测试任务和测试指标)、测试数据集、测试方法和测试工具。另一方面,针对通用场景的基础模型,提供了标准化的测试用例和流程范例,以支持企业规范开展大模型能力评估。
据介绍,中国信通院人工智能研究所于2023年开始布局大模型基准测试研究,并于2023年底发布“方升”大模型基准测试体系,推出自适应动态测试方法,积累600万条数据集,构建测试工具,支撑整个大模型测试过程的自动化实施。自2024年以来,参照已发布的ITU大模型基准测试国际标准,该所对国内外标杆大模型以两个月为周期开展持续监测工作,包括上百个测试模型,目前已发布大语言通用能力、推理能力、代码能力,多模态理解能力、文生图能力、文生视频能力等多个轮次的评测结果。此次发布的国际标准是大模型测试领域的重要标准化成果,对推动技术创新和发展、引领行业发展趋势、促进国际合作与交流等方面具有重要意义。
【标准发布】