智源研究院发布FlagEval“百模”评测结果

中国经济网| 2024年12月20日 10:52

　　12月19日，智源研究院发布并解读国内外100余个开源和商业闭源的语言、视觉语言、文生图、文生视频、语音语言大模型综合及专项评测结果。

　　智源评测发现，2024年下半年大模型发展更聚焦综合能力提升与实际应用。多模态模型发展迅速，涌现了不少新的厂商与新模型，语言模型发展相对放缓。模型开源生态中，除了持续坚定开源的海内外机构，还出现了新的开源贡献者。

　　语言模型，针对一般中文场景的开放式问答或者生成任务，模型能力已趋于饱和稳定，但是复杂场景任务的表现，国内头部语言模型仍然与国际一流水平存在显著差距。语言模型主观评测重点考察模型中文能力，结果显示字节跳动Doubao-pro-32k-preview、百度ERNIE 4.0 Turbo位居第一、第二，OpenAI o1-preview-2024-09-12、Anthropic Claude-3-5-sonnet-20241022位列第三、第四，阿里巴巴Qwen-Max-0919排名第五；在语言模型客观评测中，OpenAI o1-mini-2024-09-12、Google Gemini-1.5-pro-latest 位列第一、第二，阿里巴巴Qwen-max-0919、字节跳动Doubao-pro-32k-preview位居第三、第四，Meta Llama-3.3-70B-Instruct排名前五。

　　视觉语言多模态模型，虽然开源模型架构趋同（语言塔+视觉塔），但表现不一，其中较好的开源模型在图文理解任务上正在缩小与头部闭源模型的能力差距，而长尾视觉知识与文字识别以及复杂图文数据分析能力仍有提升空间。评测结果显示，OpenAI GPT-4o-2024-11-20与字节跳动Doubao-Pro-Vision-32k-241028先后领先于Anthropic Claude-3-5-sonnet-20241022，阿里巴巴Qwen2-VL-72B-Instruct和Google Gemini-1.5-Pro紧随其后。

　　文生图多模态模型，今年上半年参评的模型普遍无法生成正确的中文文字，但此次参评的头部模型已经具备中文文字生成能力，但整体普遍存在复杂场景人物变形的情况，针对常识或知识性推理任务，小于3的数量关系任务表现有所提升，大于3的数量关系依然无法处理，涉及中国文化和古诗词理解的场景对于模型而言是不小的挑战。评测结果显示，腾讯Hunyuan Image位列第一，字节跳动Doubao image v2.1、Ideogram 2.0分居第二、第三，OpenAI DALL·E 3、快手可图次之。

　　文生视频多模态模型，画质进一步提升，动态性更强，镜头语言更丰富，专场更流畅，但普遍存在大幅度动作变形，无法理解物理规律，物体消失、闪现、穿模的情况。评测结果显示，快手可灵1.5（高品质）、字节跳动即梦 P2.0 pro、爱诗科技PixVerse V3、MiniMax 海螺AI、Pika 1.5位列前五。

　　语音语言模型，得益于文本大模型的进步，能力提升巨大，覆盖面更全，但在具体任务上与专家模型还存在一定差距，整体而言，性能好、通用能力强的开源语音语言模型偏少。专项评测结果显示，阿里巴巴Qwen2-Audio位居第一，香港中文大学&微软WavLLM、清华大学&字节跳动Salmon位列第二、第三，Nvidia Audio-Flamingo，MIT & IBM LTU均进入前五。

　　智源研究院副院长兼总工程师林咏华在评测发布会上表示，FlagEval评测体系一直坚守科学、权威、公正、开放的准则，通过技术方法平台持续创新，打造丈量模型能力的标尺，为大模型技术生态发展提供洞察。2025年，FlagEval评测体系的发展将进一步探索动态评测与多任务能力评估体系，以评测为标尺感知大模型的发展趋势。

（责任编辑：马常艳）