理大开发崭新长视频推理多模态框架 加速生成式人工智能应用于视频分析

互联网2025-06-10

香港 -Media OutReach Newswire- 2025年6月10日 - 人工智能发展迅速,但不少模型在理解长视频时仍面对不少挑战。香港理工大学(理大)研究团队开发多模态智能体VideoMind,令人工智能模型能通过模仿人类思考过程,理解长视频及回答内容提问,并结合创新的链式低秩适应(Low-Rank Adaptation,LoRA)策略,大大减低消耗资源和所需算力,推动生成式人工智能于视频分析的商业化应用。研究成果已投稿至人工智能顶级会议。

理大计算器及数学科学学院暂任院长及视觉计算讲座教授陈长汶教授带领的研究团队开发多模态智能体VideoMind,令人工智能模型能通过模仿人类思考过程,理解长视频及回答内容提问,并结合创新的链式低秩适应策略,减低消耗资源和所需算力,推动生成式人工智能视频分析的商业化应用。

视频,尤其是长视频(15分钟以上),不单纯是叠加的静态画面,其内容包含随时间推移产生的信息,例如事件的发生时序、前因后果、连贯性及场景转换等。人工智能模型要理解视频,不但要识别当中的事物,还要兼顾时间维度的讯息,即事物如何随时间变化。由于画面占用了大量标记(token),导致视频推理需要消耗庞大算力和内存,令一般大模型难以应付太长的视频。

理大计算器及数学科学学院暂任院长及视觉计算讲座教授陈长汶教授带领的研究团队在长视频推理研究取得突破,团队参考了人类理解视频的过程,在其开发的VideoMind框架内设计角色化流程,以渐进式推理的方式,解决模型在理解时序上的困难。框架内的四个角色分别为负责决定如何调用其他角色的规划者(Planner)、搜寻及定位与问题相关片段的定位者(Grounder)、透过裁剪片段及放大画面等方法验证片段的验证者(Verifier),以及分析选定片段并生成答案的回答者(Answerer)。

VideoMind的另一核心创新在于采用了链式LoRA(Chain-of-LoRA)的策略。LoRA是最近两年新兴的大型语言模型微调技术,透过在既有模型内进行低阶调整,令模型不需要重新接受全量(full-parameter)训练,亦能执行特定功能。团队提出的创新链式LoRA策略,只需要在同一基础模型上,加载四个轻量级的LoRA适应器,对应不同角色,即可令模型按需要自行启动不同的适应器,动态切换角色,减省了需要动用的模型量及相关成本,同时提高单一模型的效能及灵活度。

研究团队已在GitHub和HuggingFace平台开源VideoMind项目,以公开测试的长视频任务,涉及14个人工智能模型基准检验集。团队将VideoMind与多个先进大语言模型及多模态模型作比较,发现VideoMind在处理平均时长达27分钟的长视频时,定位准确度较GTP-4o、Gemini 1.5等尖端大模型更优胜。值得注意的是,团队同时测试了较小的20亿(2B)参数量及较大的70亿(7B)参数量的VideoMind,发现2B模型的VideoMind性能已足以媲美其他7B或以上的大模型。

陈长汶教授表示:「人类观看视频时会切换思维方式,先拆解问题,再找出相关片段,然后反复重温及核对,才对内容下结论。此过程效率极高;大脑总功耗仅25瓦左右,比相同算力的超级计算机要低100万倍。我们从这种人类的思考模式中获得启发,设计角色化流程,真正让人工智能像人类一样理解视频,并成功透过链式LoRA策略降低算力和内存需求。」

人工智能浪潮席卷全球,但算力不足和耗能过高的情况日益严重。VideoMind以开源、参数量少的多模态模型Qwen2-VL为骨干,配置优化工具,降低了技术成本和部署门槛,为人工智能模型功耗过高的问题提出可行解决途径。陈教授补充:「VideoMind框架不但突破了人工智能在视频处理的限制,更可作为一个模块化、可扩展、具解释能力的多模态推理框架,拓展生成式人工智能的应用范围,如智能保安监控、体育竞技及娱乐视频分析、视频搜寻功能等领域。」

免责声明

本文登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。如有稿件内容、版权等问题请联系QQ:211544606

「2025数码港创业投资论坛」盛大揭幕

年内数码港新增10间上市企业及两间独角兽企业「数码港投资者网络」八周年,年度融资增加3倍

瑞士云端平台 pCloud 推出 11.11 超值优惠

pCloud 于 11 月 3 日至 11 月 17 日期间为亚洲市场推出限时优惠,提供终身储存与加密服务

「澳門銀河」呈献Tatler Off Menu

澳门瞩目年度美食盛典将于亚洲顶级奢华综合度假城,呈献由11位星级名厨及2位调酒大师精心打

科技园公司与东莞市科学技术局及滨海湾合办

签署多项合作协议 深化粤港创科合作香港 -Media OutReach Newswire- 2025年11月5日 - 香港

胡志明市发展股份商业银行(HDBank)九个月

越南胡志明市 - Media OutReach Newswire - 2025年11月5日 - 胡志明市发展股份商业银行(HD

海防可持续工业再添动力 —— Indochina Ka

越南海防 - Media OutReach Newswire - 2025年11月4日– 由英迪中华资本(Indochi

AI驱动增长新范式,生态共赢成品牌进化方向

近日,由新华社品牌工作办公室、新华出版社、凯度集团、HBR中国与牛津大学赛德商学院联合主

2025“越来越好”国际设计大赛终评工作在深

10月31日至11月1日,2025“越来越好”国际设计大赛终评工作在深圳三诺智慧大厦圆满落幕。这

中国平安MSCI ESG评级提升至最高AAA级,连

10月27日,国际权威指数机构MSCI更新2025年度环境、社会及治理(ESG)评级信息。中国平安凭

香港国际机场时尚购物赏瞩目登场

HKairport Rewards会员享港币 $600现金券 尽享无限时尚购物乐趣香港 -Media OutReach Newsw