多模态大模型

Multimodal foundation models for long visual context, image generation, video reasoning, medical vision, audio-language alignment, and efficient deployment.

Multimodal foundation models
Multimodal LLMs Long visual context Image generation Video reasoning Medical vision Audio-language
Long-context multimodal LLM architecture

多模态大模型方向把视觉、语言、视频、音频和专业领域知识组织成一条统一能力线。它既关注模型能否看懂很多图像、长视频和复杂场景,也关注能否生成和编辑图像、在医学影像中结合专业知识、在音频中理解语义和韵律,并把这些能力做得足够高效、可评测、可复现。

研究脉络

Context
扩展视觉上下文

LongLLaVA 和 MileBench 关注多图像、长视频和长视觉上下文,让模型从单图问答走向跨帧、跨页、跨证据的推理。

Efficiency
压缩无效视觉 token

TRIM 把多模态能力放进实际部署约束中,减少视觉 token 冗余,让长上下文和多图像任务不被推理成本吞掉。

Generation
开放图像生成与编辑

ShareGPT-4o-Image 和 Janus-4o 把 GPT-4o 风格的图像生成、图像条件编辑和统一多模态生成模型开放出来。

Reason
把推理迁移到视频和专业视觉

Video-R1、HuatuoGPT-Vision、GMAI-MMBench 等工作让多模态模型面对时间、医学知识和可验证任务,而不只是描述图像。

能力模块

长上下文视觉理解

处理上百到上千张图像、长视频和复杂视觉材料,要求模型能检索、计数、排序、归纳和跨上下文推理。

视觉生成与编辑

从开放 instruction data 到统一生成模型,支持 text-to-image、image-to-image、图像条件修改和生成行为研究。

视频推理

Video-R1 把强化学习式推理训练带进视频理解,使模型在时间序列和事件链中形成可检查的推理路径。

医学视觉语言

HuatuoGPT-Vision、PubMedVision 和 GMAI-MMBench 把医学图像、报告、问答和临床知识连接起来。

音频语言融合

Soundwave、FusionAudio、EchoMind 和 S2S-Arena 将语音、韵律、音频 caption 和人类感评测纳入多模态地图。

高效部署

TRIM、LongLLaVA 和长上下文训练策略共同回答一个工程问题:多模态能力如何在真实成本下运行。

论文脉络

Model
LongLLaVA: Scaling Multi-modal LLMs to 1000 Images Efficiently

用混合架构和训练策略扩展多图像长上下文能力。

Paper
Benchmark
MileBench: Benchmarking MLLMs in Long Context

用多图像、视频和长上下文任务测试模型是否真的使用视觉证据。

Paper
Efficient
TRIM: Less is More for Efficient Multi-modal LLMs

减少视觉 token 冗余,让多模态模型更便宜、更容易部署。

Paper
Generate
ShareGPT-4o-Image and Janus-4o

开放图像生成与编辑 instruction data,并训练统一多模态生成模型。

Paper
Video
Video-R1: Reinforcing Video Reasoning in MLLMs

把 R1-style 强化学习推理训练扩展到视频理解。

Paper
Medical
HuatuoGPT-Vision

将医学视觉知识注入多模态 LLM,连接医学图像、报告和问答。

Paper
Audio
FusionAudio-1.2M

细粒度音频 caption 与 multimodal contextual fusion 数据资源。

Paper

相关项目

LongLLaVA and MileBench

长上下文多模态模型和 benchmark,覆盖 many-image reasoning、video tasks 和视觉上下文扩展。

Project page
ShareGPT-4o-Image and Janus-4o

开放图像生成/编辑数据集、统一多模态模型和可复现发布资源。

Project page
HuatuoGPT-Vision

医学视觉语言模型和 PubMedVision 数据,属于 HuatuoGPT 医疗 AI 生态的一部分。

Project page
Video-R1

视频理解中的强化学习式推理训练,把多模态能力和 reasoning 项目线连接起来。

Repository
TRIM

高效多模态 token reduction,让多模态模型在部署侧更可承受。

Repository
Speech and Audio AI

语音、音频 caption、paralinguistic benchmark 和 audio-driven video generation。

Project page