企业宣传,产品推广,广告招商,广告投放联系seowdb

引领MLLMs多模态推理新基准 谷歌DeepMind 微软 联合团队的杰作 亚马逊 POLYMATH

多模态大语言模型(MLLMs)的发展迅速,成为了人工智能研究的一个关键领域。这些模型不仅能够处理文本,还能够理解并生成视觉信息,使其在许多应用中展现出卓越的潜力。尽管在某些领域取得了显著进展,但在复杂的视觉和数学推理任务上,MLLMs的表现仍有待提高。为此,来自亚马逊、微软、谷歌DeepMind 联合研究团队开发了POLYMATH,这是一个具有挑战性的基准,旨在系统地分析和评估这些模型在视觉复杂场景下的数学推理能力。通过5000个多模态推理问题,涵盖10个不同类别,POLYMATH为MLLMs的认知能力提供了全面的测试平台。

此次研究由一支由各领域专家组成的团队完成。核心团队成员包括Himanshu Gupta(亚利桑那州立大学,现供职于亚马逊)、Shreyas Verma(Asurion)、Ujjwala Anantheswaran(亚利桑那州立大学,现供职于微软)、Kevin Scaria(亚利桑那州立大学,现供职于亚马逊)、Mihir Parmar(亚利桑那州立大学)、Swaroop Mishra(亚利桑那州立大学,现供职于Google DeepMind)和Chitta Baral(亚利桑那州立大学)。团队成员均在各自领域有着深厚的专业背景,确保了POLYMATH基准的科学严谨性和技术先进性。

该项目的代码库可以在GitHub上找到,地址为:,数据集则托管在Hugging Face上,地址是:​​ ​​ ​,为研究人员提供了便捷的访问和使用途径。

相关工作

MLLMs的核心优势在于其能够同时处理文本和视觉信息,具备跨模态理解和生成能力。这些模型不仅在语言理解和生成上表现出色,还能够处理复杂的视觉任务,为多种应用场景提供了解决方案。

多模态大语言模型的发展得益于大语言模型(LLMs)和大型视觉模型的进步。近年来,OpenAI的GPT系列和Google的Gemini系列等模型在处理多模态任务上取得了显著成就。例如,GPT-4V不仅能够生成高质量的文本,还能够理解复杂的图像内容,展现了强大的视觉推理能力。这些模型通过结合自然语言处理(NLP)和计算机视觉(CV)技术,能够在教育、医疗、科学研究等多个领域中提供创新的解决方案。

在数学推理方面,MLLMs同样展现了巨大的潜力。现有的研究表明,这些模型在解决几何问题、图表理解和数学运算等任务中表现出色。尽管如此,MLLMs在处理涉及空间关系和抽象逻辑推理的复杂数学问题时,仍存在一定的局限性。这是因为这些问题不仅需要模型具备良好的视觉理解能力,还需要其能够进行深层次的逻辑推理和认知过程。

图1:MLLM在面对涉及视觉信息的问题时所采用的推理模式示例。在第一行,模型无法感知相邻半圆之间的关系;在最后一行,模型无法理解答案图像中的细节。

在评价MLLMs性能的过程中,研究人员开发了多种基准数据集,其中比较著名的包括GeoQA、VQA和UniGeo。这些基准在推动多模态模型的发展中起到了重要作用,但它们也存在一定的局限性。

GeoQA是一个专注于地理问题的问答数据集,主要评估模型在处理地理信息和地理推理任务上的能力。尽管GeoQA包含了一些复杂的地理问题,但其问题类型相对单一,未能全面覆盖多种数学和视觉推理任务。

VQA(Visual Question Answering)则是一个视觉问答数据集,旨在评估模型在理解图像内容和回答相关问题方面的能力。VQA的数据集包含了大量的日常场景和常识性问题,虽然在一定程度上考察了模型的视觉理解能力,但其数学推理任务相对较少,未能充分评估模型在复杂数学问题上的表现。

UniGeo是一个专注于几何问题的数据集,评估模型在处理几何图形和几何推理任务上的能力。尽管UniGeo在几何推理方面取得了一定的进展,但其数据集规模较小,问题类型也较为有限,未能全面反映模型在多模态任务中的综合能力。

为了解决现有基准的局限性,研究团队提出了POLYMATH这一具有挑战性的多模态数学推理基准。POLYMATH旨在全面评估MLLMs在复杂视觉场景下的数学推理能力,其数据集包含了5000个高质量的认知文本和视觉挑战,涵盖了图案识别、空间推理等10个类别。通过多样化的任务设置,POLYMATH能够全面测试模型的认知推理能力,特别是在处理复杂数学和视觉推理任务时的表现。

图2:POLYMATH的分布和难度概述(a)显示了数据集中5000个问题的类别划分,以及该类别的有图(WD)和无图(WoD)划分;(b) 比较各种MLLM的每类别性能。

POLYMATH不仅在数据规模上领先于现有基准,其任务设置也更加多样化和复杂化,能够全面评估模型在多模态任务中的综合表现。研究团队通过严格的数据收集和质量控制流程,确保了POLYMATH数据集的高质量和高可信度。此外,研究团队还提供了详细的文本描述和图像内容,以支持基于文本和视觉的双重评估。

图3:带图和不带图问题的示例。除了问题图像外,POLYMATH还包括上面显示的元数据。没有图表的问题不会出现在测试img中,而这两种问题都会出现在testmini中。

POLYMATH数据集的整理

为了系统地评估多模态大语言模型(MLLMs)在复杂视觉场景下的数学推理能力,研究团队开发了POLYMATH这一具有挑战性的基准。该数据集的整理过程包括精细的数据收集流程、严格的质量保证措施以及科学的分类架构,确保数据集的高质量和多样性。

数据收集是确保POLYMATH数据集高质量的关键。研究团队采用了手动和自动化相结合的方式,经过五个步骤来收集和整理数据:

这一系统化的数据收集流程确保了POLYMATH数据集的高质量和多样性,为模型评估提供了坚实基础。

在数据收集和标注过程后,研究团队进行了全面的质量检查,以确保数据集的高质量和可信度。

这些质量保证措施确保了数据集的准确性和一致性,使POLYMATH成为评估MLLMs性能的可靠工具。

为全面评估模型的多模态认知推理能力,研究团队开发了一个分类架构,根据提供的信息和评估的推理技能对问题进行分类。POLYMATH数据集包含以下10个类别,每个类别都有其定义和示例。

这一分类架构不仅涵盖了多种推理技能,还确保了数据集的多样性和复杂性,使其能够全面评估MLLMs在多模态任务中的表现。通过精细的数据收集流程、严格的质量保证措施和科学的分类架构,POLYMATH数据集为评估和提升MLLMs的性能提供了重要工具。

实验设计

为了深入分析多模态大语言模型(MLLMs)在复杂视觉场景下的数学推理能力,研究团队在POLYMATH基准上进行了系统的实验设计。这一实验设计包含了评估模型的选择、提示策略的应用以及具体的实验方法和附加实验分析。

评估模型的选择

在评估模型的选择上,研究团队综合考虑了闭源和开源MLLMs,旨在全面了解不同模型在多模态推理任务中的表现。闭源模型包括OpenAI的GPT-4o、OpenAI O1以及Anthropic的Claude-3.5 Sonnet和Gemini-1.5 Pro等。这些模型在处理多模态任务上表现出色,是当前技术前沿的代表。闭源模型的选择使得实验可以评估最先进的商业化模型的性能。

与此同时,研究团队也选择了多种开源MLLMs,包括LLaVA(如LLaVA-v1.6-Mistral-7B、LLaVA-v1.6-Vicuna-13B)、G-LLaVA(如G-LLaVA-7B)以及ShareGPT4V等。这些模型提供了一个开放的研究平台,允许学术界和开发者进一步研究和改进多模态推理能力。通过评估开源模型,研究团队不仅可以比较闭源和开源模型的性能,还可以识别开源模型在具体任务中的优势和不足。

提示策略的应用

提示策略在多模态推理任务中扮演着重要角色,研究团队采用了四种不同的提示策略,分别是零样本推理、少量样本推理、链式思维提示和退一步提示。这些策略旨在测试模型在不同信息量和提示方式下的表现。

通过这些提示策略,研究团队能够深入分析模型在不同提示方式下的推理性能,揭示其在复杂任务中的潜在能力和不足。

附加实验分析

除了主要实验设置外,研究团队还进行了三项附加实验分析,以进一步验证和扩展实验结果。

这些附加实验提供了进一步的分析视角,有助于全面了解模型在不同场景下的性能和局限。

实验方法

实验方法包括严格的设置和详细的操作步骤,以确保实验结果的可靠性和可重复性。具体方法包括:

通过这些实验方法,研究团队能够系统地评估不同模型在多模态数学推理任务中的表现,揭示其在复杂视觉场景下的推理能力和局限性。

结果分析

在这项研究中,研究团队通过系统的实验,详细评估了多种闭源和开源的多模态大语言模型(MLLMs)在POLYMATH基准上的表现。通过比较模型在各类问题中的表现,我们可以深入了解其在复杂推理任务中的能力和局限性。以下是实验结果的详细分析。

闭源模型

在闭源模型的评估中,Claude-3.5 Sonnet和GPT-4o表现尤为突出。Claude-3.5 Sonnet在不同的提示策略下展现了强大的推理能力,特别是在Step Back提示策略中,准确率达到了41.90%。这一策略鼓励模型重新审视和评估其推理步骤,从而提高了准确性和逻辑性。GPT-4o紧随其后,尤其在零样本推理和Step Back提示下表现优异,显示了其强大的适应性和推理能力。

Gemini-1.5 Pro的表现相对中等,在所有类别中表现稳定,但未能在任何特定领域中占据主导地位。相比之下,Claude Haiku作为最小的闭源MLLMs,表现普遍较差,未能在复杂推理任务中展现出足够的能力。

开源模型

开源模型的评估结果显示,LLaVA-v1.6-Mistral-7B在整体表现上名列前茅,总体得分为15.2%。特别是在找出不同(OD)、空间推理(SR)、相对推理(RR)和数学推理(MR)类别中表现突出。这表明LLaVA-v1.6-Mistral-7B在生成精确、一致且相关的响应方面表现出色,即使在超出分布的数据样本中也是如此。

图4:不同问题类别中逻辑缺陷(LF)和空间误解(SM)错误的频率。我们报告每个模型的数据,以便比较模型的能力。由于这些问题需要大量的逻辑跳跃和视觉推理,它们在OD、PR和SC类问题中最为普遍。

ShareGPT4V(13B)模型在PR、SC、RR、MR、SR和OD类别中的表现也非常优异,总得分为12.8%。其他模型如LLaVA-v1.6-Vicuna-13B、LLaVA-1.5(13B)、G-LLaVA(13B)和LLaVA-v1.6(34B)在不同类别中表现各异,显示出其在处理多样推理任务时的个体优势和不足。

错误类型分析

在分析错误类型时,研究团队识别出了七种常见错误类型,并详细分析了其分布。

研究团队通过对236个错误样本的手动检查,发现逻辑缺陷(LF)是最常见的错误,接近60%的错误样本中出现。空间误解(SM)位居第二,占约25%。这些错误在找出不同(OD)、图案识别(PR)和序列完成(SC)类别的问题中尤为常见,因为这些问题要求模型进行不常见的逻辑跳跃和完全理解视觉信息,而这些正是模型的弱点所在。

此外研究还发现,模型在推理过程中常常犯相同的错误,例如假设某一模式在每行都适用,而正确的推理应涉及跨列的模式复制。特别是在PR类别中,GPT-4o、Gemini-1.5 Pro和Claude-3.5 Sonnet在近80%的样本中遵循了相同的错误推理结构。这表明尽管模型之间存在差异,但在实践中它们展示了相同的优势和不足。

人类评估

为了确认数据集的难度,研究团队邀请了六名研究生进行人类评估。每位研究生被分配到一个特定的问题类别,以避免从同一类别的其他问题中获得额外信息。他们只提供最终答案,没有详细的推理过程。

人类评估的结果显示,尽管模型在某些类别中表现优异,但与人类推理能力相比仍有显著差距。特别是在处理复杂逻辑和空间推理任务时,模型表现明显逊色。这一结果为未来的研究提供了明确的方向,强调了开发能够无缝结合数学推理和视觉理解的模型的必要性。

实验分析

在对多模态大语言模型(MLLMs)进行系统评估的过程中,研究团队发现了它们在视觉推理方面的依赖性和常见错误模式。以下是对模型依赖图像描述而非图像的表现差异分析,以及对模型常见错误的深入探讨。

模型依赖图像描述而非图像

通过对test-img子集的实验分析,研究团队发现大多数MLLMs在处理带有图表的问题时表现出明显的局限性。具体而言,当模型面对的是直接的图像时,其表现明显不如面对详细文本描述时的表现。为了验证这一发现,研究团队将test-img子集中的图表替换为详细的文本描述,生成一个文本版本的test-img进行测试。

结果显示,所有模型在处理文本描述问题时的表现提升了约3-4%。这表明,尽管这些模型在处理文本数据时表现优异,但在视觉推理任务中存在显著的不足。特别是GPT-4o和Claude-3.5 Sonnet这两个模型在文本描述中的表现提升尤为明显。这种现象表明,当前的MLLMs虽然在理解和生成文本方面已经取得了显著进展,但在处理复杂的视觉信息时,仍然依赖于能够清晰描述图像内容的文本信息。

这一发现对未来的研究具有重要启示:要进一步提高MLLMs在多模态任务中的表现,需要增强其对视觉信息的理解和推理能力,减少对文本描述的依赖。

模型错误的深入分析

在对模型错误类型的分析中,研究团队识别出七种常见的错误类型,其中逻辑缺陷(LF)和空间误解(SM)最为常见。以下是对这些错误类型及其对模型推理能力影响的深入探讨。

逻辑缺陷(LF)

逻辑缺陷是模型在推理过程中违反既定的逻辑规则或现实世界的原则。例如,当模型在解决数学问题时,未能正确应用等式或基数原则。研究发现,逻辑缺陷在接近60%的错误样本中出现,这一比例相当高。特别是在图案识别(PR)、序列完成(SC)和找出不同(OD)类别的问题中,逻辑缺陷尤为常见。这些问题通常要求模型进行复杂的逻辑跳跃和模式识别,而模型在这方面表现出的不足导致了高频率的逻辑错误。

空间误解(SM)

空间误解是指模型在理解图像的空间关系或特定细节时出现的错误。例如,当面对涉及空间布局和相对位置的问题时,模型未能正确理解图像中的空间信息。研究表明,空间误解占约25%的错误样本,这一比例仅次于逻辑缺陷。特别是在涉及几何图形和空间推理的问题中,模型容易出现空间误解。这种现象表明,尽管MLLMs在处理文本信息方面有一定的优势,但在处理需要深入理解空间关系的视觉信息时,仍存在显著的不足。

通过对逻辑缺陷和空间误解的深入分析,我们可以看到当前MLLMs在复杂推理任务中的局限性。为了解决这些问题,未来的研究需要专注于增强模型的逻辑推理能力和空间理解能力。例如,可以通过引入更多的空间推理任务和复杂逻辑推理问题来训练模型,从而提高其在这两个方面的表现。

总结

通过深入探讨模型在视觉推理方面的依赖情况和常见错误模式,我们可以更好地理解当前MLLMs在复杂推理任务中的表现和局限。尽管这些模型在文本描述方面表现优异,但在处理复杂的视觉信息时仍存在显著的不足。未来的研究需要专注于增强模型的视觉理解和逻辑推理能力,从而全面提升其在多模态任务中的表现。通过不断改进和优化,MLLMs有望在更多应用场景中展现出更加卓越的性能和能力。(END)

参考资料:

本文转载自​​,作者:​​

© 版权声明
评论 抢沙发
加载中~
每日一言
不怕万人阻挡,只怕自己投降
Not afraid of people blocking, I'm afraid their surrender