环境工程和世界模型
Engineering interactive environments, agent societies, micro-worlds, and executable sandboxes for training, evaluation, and alignment.
环境工程和世界模型关注的不是单个 prompt 或单次 benchmark,而是如何把任务放进一个会响应、会演化、可观测、可审计的环境里。这个方向把智能体、规则、状态、工具、用户、市场、科学机制和评价器组织成可运行的世界,用来训练模型、测试行为、做政策或系统沙盒,并把模拟结果对齐到真实证据。
组织逻辑
明确状态空间、行动接口、外部工具、任务目标、约束、观测窗口和失败模式,让任务从静态问答变成可复现的交互系统。
用户模拟器、角色扮演智能体、投资者、医生、病人或科学对象都可以成为环境中的行动者,暴露多轮行为和社会反馈。
从金融市场、经济制度到生物微世界,核心是状态如何因行动而变化,以及隐藏机制如何影响可观察结果。
环境要能记录轨迹、解释决策、比较真实数据、定位偏差,并支持后续的 agent tuning、policy testing 和 safety analysis。
论文脉络
把世界模型推进到器官、细胞和亚细胞过程,强调隐藏机制、状态演化和科学约束。
Paper用 LLM 投资者构建金融市场环境,从个体信念、意图和信息流生成宏观市场行为。
Paper提出经济世界模型的系统蓝图,把智能体、环境、共演化和真实世界对齐组织成可实现架构。
PDF用 LLM 构造可控用户环境,为多轮对话训练和评测提供可重复的交互对象。
Paper把代码执行接入推理过程,让模型在可运行环境中检查中间计算,而不是只输出自然语言链路。
Paper研究模块
用户模拟、Socratic dialogue、角色扮演和 AI 标准化病人,让模型在可控人物和多轮反馈里学习。
TwinMarket 和 Economic World Models 让金融市场、政策沙盒和制度变化成为可观测的多智能体环境。
MicroVerse 面向生物和科学机制,要求模型理解看不见的状态、约束和动态,而不只是生成视觉表象。
ORLM、CALM/STORM 和 CoRT 把推理连接到优化建模、代码执行和检查器,让答案可以运行、验证和修正。
相关项目
经济世界模型的总览页,覆盖 agentic economies、政策沙盒、能力阶梯和真实世界对齐。
Project page金融市场中的行为和社会多智能体仿真,是环境工程在市场世界中的具体原型。
Project page把世界模型拓展到生物微世界,强调科学机制、隐藏状态和动态演化。
Project page把用户模拟、标准化病人、语音交互和社会仿真放进同一个交互研究框架。
Project page