理大研究发现感官及运动信息有助大语言模型表达复杂概念

互联网2025-06-09

香港 -Media OutReach Newswire- 2025年6月9日 - 没有闻过花香、触摸过花瓣，或在花园散步过，有可能真正了解什么是「花」吗？这个问题引发了不少的哲学与认知科学争论；有认知理论专家认为，亲身感受和体验是概念形成的关键，但目前飞速发展的大语言模型研究却表明，仅凭语言便有可能建立对现实具有意义的真实表征。

由理大冼为坚基金人文与科技讲座教授、人文学院院长兼理大杭州技术创新研究院副院长李平教授领导的研究团队，透过分析大语言模型和人类在概念表征上的相似度，为语言能在多大程度上推动复杂概念的形成和学习提出新见解。

由香港理工大学（理大）研究人员与合作者组成的团队，透过分析大语言模型和人类在概念表征上的相似度，为语言能在多大程度上推动复杂概念的形成和学习提出了新见解。研究并揭示「具身化训练」（grounding），即为大语言模型提供感官（如视觉）及运动信息，让模型能将抽象与具体概念联系起来，可以影响其对复杂概念的理解并生成接近人类的表征。此研究与俄亥俄州立大学、普林斯顿大学及纽约市立大学的研究人员合作进行，成果最近于《Nature Human Behaviour》上发表。

理大冼为坚基金人文与科技讲座教授、人文学院院长兼理大杭州技术创新研究院副院长李平教授领导的研究团队选取大语言模型ChatGPT（GPT-3.5和GPT-4）和 Google LLMs（PaLM 和 Gemini）所生成的词汇评分，并将其与公开发表及经过验证的《格拉斯哥词汇范本》（Glasgow Norms）和《兰卡斯特词汇模板》（Lancaster Norms）数据集中近4,500个词语的人类评分进行比较。这些评分涵盖了非感官运动领域，包括情感效价、具体性、可意象性等维度；感官领域，包括视觉、嗅觉、听觉等维度，以及运动领域，包括腿／脚、嘴巴／喉咙等维度。

研究团队以人与人之间的配对结果作为基准，首先将个别人类和大语言模型生成的数据进行比较，以探究人类与大语言模型的词汇评分在上述领域各维度中的相似程度，从中找出大模型和人类在理解不同领域概念上的一致性，例如两者是否都认为某些概念相较其他概念更加具体。然而，这种分析或会忽略不同维度如何共同影响词汇的整体表征。以「pasta」（意大利面）和「 roses」（玫瑰）为例，两者同样在嗅觉维度拥有较高的评分，但实际上「pasta」与「roses」远远不及「pasta」与「noodles」（面）接近，因为概念之间的相似度需要综合考虑其外观和味道。因此，团队再运用了表征相似性分析（representational similarity analysis），将每个词汇在各领域多个范畴的评分数据整合成一个向量（vector），以进行更全面的人类与模型比对。

研究结果表明大语言模型生成的词汇表征与人类表征的相似度，在非感官运动领域最高，感官领域次之，而在运动领域表现最差。这凸显了大语言模型在表征人类概念上的局限；模型虽然能够有效掌握非感官运动领域的概念，但在理解涉及视觉外观、味觉等感官概念，或需要肢体动作体验的运动概念时，表现明显较为逊色。其中，动作性概念较少被文字完整描述，且高度依赖具身经验，相对于色彩一类能从文本数据学习到的感官概念，对模型而言更具挑战性。

根据研究结果，研究人员进一步检验具身化训练能否提升大语言模型的表现。他们比较了同时接受语言及视觉输入训练的具身化模型（如GPT-4和Gemini），跟仅接受语言训练的模型（如GPT-3.5和PaLM）之间的差异，结果发现结合视觉输入的模型生成的表征与人类表征相似度明显更高。

李平教授表示：「纯语言训练及语言＋视觉输入（如图像及视频等）训练的大语言模型，为研究感官及运动信息如何影响人类概念形成提供了独特的机遇。我们的研究具体展现了多模态学习的潜在优势，因为实时整合多种模态的信息正是人类学习和表征的特点，如大模型能吸取到这个特征，就可更趋近人类的认知模式以及更如人类行为一样高效率。」

值得注意的是，这项发现与以往提出人类表征迁移现象的研究结果吻合。人类透过视觉和触觉的多模态经验获取对象形状知识，如当我们观看或触摸对象时，大脑中同一区域会被激活。研究人员指出，正如人类一样，经过多模态输入训练的大语言模型在接收了多种信息后，或能在连续的高维度空间中进行表征融合或迁移。李教授续解释：「大语言模型嵌入空间所具有的平滑及连续特性或许能解释为何我们观察到源自单一模态的知识能够扩散至其他相关模态。此发现也可能揭示了先天失明人士与视力正常者之间为何会在某些领域上有相似表征。目前的大语言模型在这方面还有明显不足。」

展望未来，研究团队指出今后可以透过类人型机械人技术把大语言模型与多模态数据整合，使其能主动解读真实世界，并作出相应行动。李教授指：「相关技术发展或将催化大语言模型真正实现具身人工表征，从而更切实反映出人类认知所具有的复杂性和丰富性，届时人们将无法指出大模型对玫瑰花的表征与人类的表征有何分别。」

免责声明

本文登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。如有稿件内容、版权等问题请联系QQ:211544606