多模态大模型
Multimodal foundation models for long visual context, image generation, video reasoning, medical vision, audio-language alignment, and efficient deployment.
多模态大模型方向把视觉、语言、视频、音频和专业领域知识组织成一条统一能力线。它既关注模型能否看懂很多图像、长视频和复杂场景,也关注能否生成和编辑图像、在医学影像中结合专业知识、在音频中理解语义和韵律,并把这些能力做得足够高效、可评测、可复现。
研究脉络
LongLLaVA 和 MileBench 关注多图像、长视频和长视觉上下文,让模型从单图问答走向跨帧、跨页、跨证据的推理。
TRIM 把多模态能力放进实际部署约束中,减少视觉 token 冗余,让长上下文和多图像任务不被推理成本吞掉。
ShareGPT-4o-Image 和 Janus-4o 把 GPT-4o 风格的图像生成、图像条件编辑和统一多模态生成模型开放出来。
Video-R1、HuatuoGPT-Vision、GMAI-MMBench 等工作让多模态模型面对时间、医学知识和可验证任务,而不只是描述图像。
能力模块
处理上百到上千张图像、长视频和复杂视觉材料,要求模型能检索、计数、排序、归纳和跨上下文推理。
从开放 instruction data 到统一生成模型,支持 text-to-image、image-to-image、图像条件修改和生成行为研究。
Video-R1 把强化学习式推理训练带进视频理解,使模型在时间序列和事件链中形成可检查的推理路径。
HuatuoGPT-Vision、PubMedVision 和 GMAI-MMBench 把医学图像、报告、问答和临床知识连接起来。
Soundwave、FusionAudio、EchoMind 和 S2S-Arena 将语音、韵律、音频 caption 和人类感评测纳入多模态地图。
TRIM、LongLLaVA 和长上下文训练策略共同回答一个工程问题:多模态能力如何在真实成本下运行。
论文脉络
用混合架构和训练策略扩展多图像长上下文能力。
Paper用多图像、视频和长上下文任务测试模型是否真的使用视觉证据。
Paper减少视觉 token 冗余,让多模态模型更便宜、更容易部署。
Paper开放图像生成与编辑 instruction data,并训练统一多模态生成模型。
Paper把 R1-style 强化学习推理训练扩展到视频理解。
Paper将医学视觉知识注入多模态 LLM,连接医学图像、报告和问答。
Paper细粒度音频 caption 与 multimodal contextual fusion 数据资源。
Paper相关项目
长上下文多模态模型和 benchmark,覆盖 many-image reasoning、video tasks 和视觉上下文扩展。
Project page开放图像生成/编辑数据集、统一多模态模型和可复现发布资源。
Project page医学视觉语言模型和 PubMedVision 数据,属于 HuatuoGPT 医疗 AI 生态的一部分。
Project page视频理解中的强化学习式推理训练,把多模态能力和 reasoning 项目线连接起来。
Repository高效多模态 token reduction,让多模态模型在部署侧更可承受。
Repository语音、音频 caption、paralinguistic benchmark 和 audio-driven video generation。
Project page