环境工程和世界模型

Environment engineering and world models

Environment engineering World models Agent societies Micro-world simulation Executable reasoning

Projects Map Economic World Models MicroVerse TwinMarket Benyou Wang Papers

Environment engineering connects agents, environments, co-evolution, and real-world alignment

环境工程和世界模型关注的不是单个 prompt 或单次 benchmark，而是如何把任务放进一个会响应、会演化、可观测、可审计的环境里。这个方向把智能体、规则、状态、工具、用户、市场、科学机制和评价器组织成可运行的世界，用来训练模型、测试行为、做政策或系统沙盒，并把模拟结果对齐到真实证据。

组织逻辑

Spec

定义环境

明确状态空间、行动接口、外部工具、任务目标、约束、观测窗口和失败模式，让任务从静态问答变成可复现的交互系统。

Actors

放入智能体和用户

用户模拟器、角色扮演智能体、投资者、医生、病人或科学对象都可以成为环境中的行动者，暴露多轮行为和社会反馈。

Dynamics

建模世界动力学

从金融市场、经济制度到生物微世界，核心是状态如何因行动而变化，以及隐藏机制如何影响可观察结果。

Align

评测与真实对齐

环境要能记录轨迹、解释决策、比较真实数据、定位偏差，并支持后续的 agent tuning、policy testing 和 safety analysis。

论文脉络

World

MicroVerse: A Preliminary Exploration Toward a Micro-World Simulation

把世界模型推进到器官、细胞和亚细胞过程，强调隐藏机制、状态演化和科学约束。

Paper

Market

TwinMarket: A Scalable Behavioral and Social Simulation for Financial Markets

用 LLM 投资者构建金融市场环境，从个体信念、意图和信息流生成宏观市场行为。

Paper

Economy

From Economic Agents to Agentic Economies

提出经济世界模型的系统蓝图，把智能体、环境、共演化和真实世界对齐组织成可实现架构。

PDF

User

Large Language Model as a User Simulator

用 LLM 构造可控用户环境，为多轮对话训练和评测提供可重复的交互对象。

Paper

Optimize

ORLM and CALM Before the STORM

把自然语言工业问题转成优化模型、约束和可执行代码，形成可验证的工程建模环境。

ORLM · CALM/STORM

Execute

CoRT: Code-integrated Reasoning within Thinking

把代码执行接入推理过程，让模型在可运行环境中检查中间计算，而不是只输出自然语言链路。

Paper

研究模块

交互环境

用户模拟、Socratic dialogue、角色扮演和 AI 标准化病人，让模型在可控人物和多轮反馈里学习。

社会与市场环境

TwinMarket 和 Economic World Models 让金融市场、政策沙盒和制度变化成为可观测的多智能体环境。

科学微世界

MicroVerse 面向生物和科学机制，要求模型理解看不见的状态、约束和动态，而不只是生成视觉表象。

可执行工程环境

ORLM、CALM/STORM 和 CoRT 把推理连接到优化建模、代码执行和检查器，让答案可以运行、验证和修正。

组织逻辑

论文脉络

研究模块

相关项目