理大开发崭新长视频推理多模态框架 加速生成式人工智能应用于视频分析

互联网2025-06-10

香港 -Media OutReach Newswire- 2025年6月10日 - 人工智能发展迅速,但不少模型在理解长视频时仍面对不少挑战。香港理工大学(理大)研究团队开发多模态智能体VideoMind,令人工智能模型能通过模仿人类思考过程,理解长视频及回答内容提问,并结合创新的链式低秩适应(Low-Rank Adaptation,LoRA)策略,大大减低消耗资源和所需算力,推动生成式人工智能于视频分析的商业化应用。研究成果已投稿至人工智能顶级会议。

理大计算器及数学科学学院暂任院长及视觉计算讲座教授陈长汶教授带领的研究团队开发多模态智能体VideoMind,令人工智能模型能通过模仿人类思考过程,理解长视频及回答内容提问,并结合创新的链式低秩适应策略,减低消耗资源和所需算力,推动生成式人工智能视频分析的商业化应用。

视频,尤其是长视频(15分钟以上),不单纯是叠加的静态画面,其内容包含随时间推移产生的信息,例如事件的发生时序、前因后果、连贯性及场景转换等。人工智能模型要理解视频,不但要识别当中的事物,还要兼顾时间维度的讯息,即事物如何随时间变化。由于画面占用了大量标记(token),导致视频推理需要消耗庞大算力和内存,令一般大模型难以应付太长的视频。

理大计算器及数学科学学院暂任院长及视觉计算讲座教授陈长汶教授带领的研究团队在长视频推理研究取得突破,团队参考了人类理解视频的过程,在其开发的VideoMind框架内设计角色化流程,以渐进式推理的方式,解决模型在理解时序上的困难。框架内的四个角色分别为负责决定如何调用其他角色的规划者(Planner)、搜寻及定位与问题相关片段的定位者(Grounder)、透过裁剪片段及放大画面等方法验证片段的验证者(Verifier),以及分析选定片段并生成答案的回答者(Answerer)。

VideoMind的另一核心创新在于采用了链式LoRA(Chain-of-LoRA)的策略。LoRA是最近两年新兴的大型语言模型微调技术,透过在既有模型内进行低阶调整,令模型不需要重新接受全量(full-parameter)训练,亦能执行特定功能。团队提出的创新链式LoRA策略,只需要在同一基础模型上,加载四个轻量级的LoRA适应器,对应不同角色,即可令模型按需要自行启动不同的适应器,动态切换角色,减省了需要动用的模型量及相关成本,同时提高单一模型的效能及灵活度。

研究团队已在GitHub和HuggingFace平台开源VideoMind项目,以公开测试的长视频任务,涉及14个人工智能模型基准检验集。团队将VideoMind与多个先进大语言模型及多模态模型作比较,发现VideoMind在处理平均时长达27分钟的长视频时,定位准确度较GTP-4o、Gemini 1.5等尖端大模型更优胜。值得注意的是,团队同时测试了较小的20亿(2B)参数量及较大的70亿(7B)参数量的VideoMind,发现2B模型的VideoMind性能已足以媲美其他7B或以上的大模型。

陈长汶教授表示:「人类观看视频时会切换思维方式,先拆解问题,再找出相关片段,然后反复重温及核对,才对内容下结论。此过程效率极高;大脑总功耗仅25瓦左右,比相同算力的超级计算机要低100万倍。我们从这种人类的思考模式中获得启发,设计角色化流程,真正让人工智能像人类一样理解视频,并成功透过链式LoRA策略降低算力和内存需求。」

人工智能浪潮席卷全球,但算力不足和耗能过高的情况日益严重。VideoMind以开源、参数量少的多模态模型Qwen2-VL为骨干,配置优化工具,降低了技术成本和部署门槛,为人工智能模型功耗过高的问题提出可行解决途径。陈教授补充:「VideoMind框架不但突破了人工智能在视频处理的限制,更可作为一个模块化、可扩展、具解释能力的多模态推理框架,拓展生成式人工智能的应用范围,如智能保安监控、体育竞技及娱乐视频分析、视频搜寻功能等领域。」

免责声明

本文登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。如有稿件内容、版权等问题请联系QQ:211544606

淮北食博会重磅启幕,打造绿色食品产业新高

5月16日上午,以“食尚淮北·香悦未来”为主题的2026第十三届淮北食品工业博览会

香港会计师公会携手中南大 共育国际化会计

香港 -Media OutReach Newswire- 2026年5月15日 -香港会计师公会(公会)与中南财经政法大

微投智控(Votee AI)与 Beever AI 联合开

专为团队协作场景打造的开源大模型知识库,提供两个版本:面向个人的 Apache 2.0 开源版,

天然钻石闪耀2026年MET GALA盛典红毯

众星佩戴天然钻石,以独特个性与自信演绎“服装艺术”主题美国纽约 -Media OutReach Newswi

理大国际未来挑战赛2026正式启动 透过内地

香港 -Media OutReach Newswire- 2026年5月14日 - 香港理工大学(理大)昨日(5月13日)正

连续八年领跑 范式蝉联IDC中国机器学习平台

北京 ,中国 -Media OutReach Newswire- 2026年5月14日 – IDC 今日发布《中国 AI

SCOPE Thonglor以其三层复式豪宅"Triplex R

曼谷,泰国 -Media OutReach Newswire- 2026年5月14日 - 随着超豪华居住体验从单纯的奢华向

全球首款轻小型高分辨率高精度二氧化碳与甲

科大领衔研製 写下香港首项太空站科研载荷历史香港 -Media OutReach Newswire- 2026年5月13

Esperanza 携手天下一幕,拓展香港文化资产

以《大龙凤》为剧场 IP 案例,连接粉丝参与与娱乐资产代币化应用,潜在项目储备规模预计逾

「澳門銀河」正式启动高尔夫球大使计划 委

澳门特别行政区 -Media OutReach Newswire- 2026年5月12日 -「澳門銀河」隆重宣布正式启动&