DP 模型训练与评测

定位：数据到策略的核心闭环模块
目标：形成可复现、可比较、可迭代的训练与评测流程

训练侧

统一输入数据格式
统一实验配置管理
统一日志与模型版本命名

评测侧

任务成功率
轨迹平滑性与稳定性
失败类型统计（感知失败 / 控制失败 / 交互失败）

下一步

增加跨任务迁移评测
增加 sim2real 一致性对比