基于机器之心与 PaperWeekly 关于 LongLLaVA 的报道整理的简要摘要,补充 FreedomAI Lab 参与贡献与资源链接。
本文为媒体报道摘要,不保留完整转载内容;原文版权归原媒体与原作者所有。LongLLaVA 由香港中文大学(深圳)、深圳大数据研究院等团队共同提出,报道中提到通讯作者王本友教授,相关开源资源由 FreedomIntelligence 社区维护。FreedomAI Lab 的参与贡献主要体现在多模态长上下文建模、混合架构设计、训练数据构建与开源项目发布。 完整原文、论文、代码和项目入口见文末 Resources。
LongLLaVA 面向多图像、长视频和高分辨率理解场景,把 Mamba 与 Transformer 混合架构引入多模态大模型,并结合图像 token 压缩、多阶段训练和长上下文数据构建,提升多模态长上下文推理效率。报道强调其在 VNBench、MileBench 等任务中的表现,以及单卡处理近千张图像的系统能力。