Posted 2022-02-14Updated 2022-02-1913 minutes read (About 1988 words)

(IROS2021)SOIL

因为灵巧手的操作的domain相对复杂，所以需要引入专家示教的方式要诱导分布。但是通常情况下，在现实世界中，要得到state-action pair是比较困难的，比如从视频中学习。所以这篇文章就训练了一个inverse dynamics model（反向动态模型）来从状态转移中预测对应的动作。