(IROS2021)SOIL
因为灵巧手的操作的domain相对复杂,所以需要引入专家示教的方式要诱导分布。但是通常情况下,在现实世界中,要得到state-action pair是比较困难的,比如从视频中学习。所以这篇文章就训练了一个inverse dynamics model(反向动态模型)来从状态转移中预测对应的动作。
因为灵巧手的操作的domain相对复杂,所以需要引入专家示教的方式要诱导分布。但是通常情况下,在现实世界中,要得到state-action pair是比较困难的,比如从视频中学习。所以这篇文章就训练了一个inverse dynamics model(反向动态模型)来从状态转移中预测对应的动作。