多模态大模型 | Freedom AI

Multimodal foundation models

Multimodal LLMs Long visual context Image generation Video reasoning Medical vision Audio-language

Projects Map LongLLaVA and MileBench ShareGPT-4o and Janus-4o Medical Multimodality Speech and Audio

Long-context multimodal LLM architecture

多模态大模型方向把视觉、语言、视频、音频和专业领域知识组织成一条统一能力线。它既关注模型能否看懂很多图像、长视频和复杂场景，也关注能否生成和编辑图像、在医学影像中结合专业知识、在音频中理解语义和韵律，并把这些能力做得足够高效、可评测、可复现。

研究脉络

Context

扩展视觉上下文

LongLLaVA 和 MileBench 关注多图像、长视频和长视觉上下文，让模型从单图问答走向跨帧、跨页、跨证据的推理。

Efficiency

压缩无效视觉 token

TRIM 把多模态能力放进实际部署约束中，减少视觉 token 冗余，让长上下文和多图像任务不被推理成本吞掉。

Generation

开放图像生成与编辑

ShareGPT-4o-Image 和 Janus-4o 把 GPT-4o 风格的图像生成、图像条件编辑和统一多模态生成模型开放出来。

Reason

把推理迁移到视频和专业视觉

Video-R1、HuatuoGPT-Vision、GMAI-MMBench 等工作让多模态模型面对时间、医学知识和可验证任务，而不只是描述图像。

能力模块

长上下文视觉理解

处理上百到上千张图像、长视频和复杂视觉材料，要求模型能检索、计数、排序、归纳和跨上下文推理。

视觉生成与编辑

从开放 instruction data 到统一生成模型，支持 text-to-image、image-to-image、图像条件修改和生成行为研究。

视频推理

Video-R1 把强化学习式推理训练带进视频理解，使模型在时间序列和事件链中形成可检查的推理路径。

医学视觉语言

HuatuoGPT-Vision、PubMedVision 和 GMAI-MMBench 把医学图像、报告、问答和临床知识连接起来。

音频语言融合

Soundwave、FusionAudio、EchoMind 和 S2S-Arena 将语音、韵律、音频 caption 和人类感评测纳入多模态地图。

高效部署

TRIM、LongLLaVA 和长上下文训练策略共同回答一个工程问题：多模态能力如何在真实成本下运行。

论文脉络

Model

LongLLaVA: Scaling Multi-modal LLMs to 1000 Images Efficiently

用混合架构和训练策略扩展多图像长上下文能力。

Paper

Benchmark

MileBench: Benchmarking MLLMs in Long Context

用多图像、视频和长上下文任务测试模型是否真的使用视觉证据。

Paper

Efficient

TRIM: Less is More for Efficient Multi-modal LLMs

减少视觉 token 冗余，让多模态模型更便宜、更容易部署。

Paper

Generate

ShareGPT-4o-Image and Janus-4o

开放图像生成与编辑 instruction data，并训练统一多模态生成模型。

Paper

Video

Video-R1: Reinforcing Video Reasoning in MLLMs

把 R1-style 强化学习推理训练扩展到视频理解。

Paper

Medical

HuatuoGPT-Vision

将医学视觉知识注入多模态 LLM，连接医学图像、报告和问答。

Paper

Audio

FusionAudio-1.2M

细粒度音频 caption 与 multimodal contextual fusion 数据资源。

Paper

研究脉络

能力模块

论文脉络

相关项目