发布网友 发布时间:2022-05-30 00:05
共1个回答
热心网友 时间:2023-12-22 04:48
off-policy和on-policy的根本区别在于off-policy学习的policy和agent实际执行的policy并不相同。虽然看起来很trivial,但这给了off-policy极大的发挥空间,使RL有能力做knowledge representation。假设有一个机器人在地面上行走,我们想知道在某个状态时如果机器人停止动力系统,需要多久才能完全停下来。我们可以构造一个policy,action永远都是停止动力系统,reward是每个time step为-1,那很显然在某个state下机器人停止所需的时间就是在我们构造的这个policy下的v(state)。我们可以有很多类似的问题,同样我们需要构造很多类似的policy来回答这些问题。这些policy的value function一般称作GVF(general value function),可以作为knowledge representation。但问题在于怎样学习这些policy,由于数量巨大,显然不可能对每个GVF进行on-policy的学习,此时便可以利用一个exploration很强的behaviour policy进行off-policy学习。