
智能体目下能 hold 住越来越多复杂任务了,但问题仍然不少。
比如,多智能体协同作念视觉任务,不竭轮次越多错得越离谱——根源不在模子才调不够,而在于智能体之间传递视觉信息的款式自身就有残障。
来悔改加坡国立大学 LV-Lab 过头他国表里科研机构的商酌东谈主员关切到:
基于视觉言语模子(VLM)的多智能体系统(MAS)正成为复杂多模态配合的中枢决策,却被一个致命痛点死死卡住:多智能体视觉幻觉滚雪球——单个智能体的视觉误判通过纯文本信息流逐级放大,早期眇小虚假最终演形成系统性崩溃。
此前哨案确实只聚焦「单智能体幻觉扼制」,压根无法阻断跨智能体的虚假传播。长轮次配合中,模子性能被幻觉"滚雪球"越拖越垮。

针对这一贫瘠,他们提倡了 ViF(Visual Flow),一种轻量通用的视觉流范式。用「视觉流 + 谨防力重分拨」重构智能体间视觉传递逻辑,无需改进基座模子即可大幅压制幻觉滚雪球。
该责任已入选 ICLR 2026,在 8 大基准、4 种 MAS 结构、10 款主流 VLM 上已毕踏实培植。
纯文本流信息传递:导致视觉幻觉滚雪球效应
现时 VLM 多智能体配合,全程依赖文本流传递视觉信息,这一想象存在两大无国法避的残障:
内在幻觉:单智能体自身生成与图像不符的虚假视觉描述;
幻觉传播:后续智能体过度依赖前置文本,将早期虚假行动先验,视觉 - 文本养息的损耗与偏差被逐级放大。

此前优化决策确实皆只聚焦「单智能体幻觉扼制」,无法阻断跨智能体的虚假传播;在长轮次配合中,模子性能可能会被视觉幻觉的"滚雪球"株连,可能导致无法胜任复杂视觉任务。
三种纬度的谨防力分析:锁定错误表象成因
商酌团队从轮次、层级、令牌三个维度作念深度谨防力拆解,初次系统性的探究了幻觉滚雪球的实质:
1. 随智能体轮次增多,视觉令牌平均谨防力分拨在第 20 轮暴跌 62%,中层视觉谨防力峰值径直脱色;

2. 中层单峰谨防力视觉令牌是保存原生视觉凭证的中枢载体,对视觉暴露起决定性作用;

3. 这类错误令牌占比从首轮 1.22% 骤降至第 20 轮 0.10%,视觉信息澈底被文本信息压制。

这些中枢发现,开云为精确拓荒视觉信息流提供了最错误的依据。
视觉流替代文本流:即插即用,轻量且兼容
ViF 澈底消释「纯文本传视觉」的逻辑,打造即插即用、模子无关的轻量「视觉径直传递」范式,两大中枢想象直击痛点:

视觉中继流(Visual Relay Tokens)精确筛选中层单峰视觉令牌作为视觉中继载体,勾通教唆作念轻量化高下文编码,径直传递原生视觉凭证,从根源幸免「视觉→文本」养息带来的信息损耗与偏差。
分层谨防力重分拨中:中间层放大错误视觉令牌谨防力、回收无效谨防力;深层优化谨防力散播,让视觉信号执续聚合长轮次配合。
此外,FlashAttention 兼容决策针对当代模子常用的 FlashAttention 2/3(无法赢得谨防力分数),想象 Key-Norm 替代战略,兼顾效果与落地兼容性。该团队提倡的圭臬支拨较小,且可无缝适配不同 VLM 与 MAS 结构。
全维度培植:幻觉滚雪球降近 40%
ViF 历程了全面的本质考证:
全隐匿踏实培植:8 大详细 / 幻觉基准、4 种 MAS 结构(线性 / 分层 / 飞快 / 环形)、10 款基座模子(LLaVA、LLaVA-OV、Qwen2-VL、Qwen2。5-VL 等),平均培植 2.4%~3.8%;
视觉幻觉滚雪球扼制:提倡了幻觉滚雪球分数 HS,并平均着落超 30%,交互最密集的环形结构降幅近 40%;
大模子增益更多:34B/32B 大参数模子培植超 4%,澈底解锁大模子多智能体后劲;
多场景通吃:多图、视频等增强视觉场景,平均培植 2.0%~4.9%;
高效:仅增多 8.1%~13.4% 推理蔓延、4.8%~11.9% 盘算支拨,大模子下支拨确实可忽略。


对比 5 款 SOTA 单智能体幻觉决策,ViF 在多智能体场景下已毕断层式向上:传统决策只从单智能体开拔,ViF 从底层堵截视觉幻觉传播,权贵扼制多智能体幻觉滚雪球。
瞻望:解锁有用长轮次视觉多智能体配合
ViF 是业内首个从信息流重构层面责罚多智能体视觉幻觉滚雪球的决策,径直突破长轮次配合「越作念越错」的魔咒,它用较小的代价,成就了智能体间的视觉流信息传递,让多智能体配合着实着实、可用。
论文:https://arxiv.org/pdf/2509.21789
代码:https://github.com/YU-deep/ViF
一键三连「点赞」「转发」「小心心」
接待在驳斥区留住你的念念法!
— 完 —
咱们正在招聘又名眼疾手快、关切 AI 的学术剪辑实习生 � �
感兴致的小伙伴接待关切 � � 了解投降

� � 点亮星标 � �
科技前沿发扬逐日见开云
滚球app中国官网下载入口