将AC改为off-policy后，每次训练500条左右的经验就会报错，显示action_dist = torch.distributions.Categorical(probs)这行代码的运行结果为tensor([[nan, nan]] #66

Chensyfighting · 2023-12-04T14:03:30Z

代码基本没变，我就加了经验回放池等几个操作

Chensyfighting · 2023-12-04T14:09:18Z

就在原代码的基础上加入了框选的这几行代码
为啥会跑不通呀？我找了好久没找到错
希望有大佬救救

senren001323 · 2023-12-13T22:10:53Z

就在原代码的基础上加入了框选的这几行代码为啥会跑不通呀？我找了好久没找到错希望有大佬救救

梯度的问题吧，可以检查一下梯度，旧数据对当前策略参数的更新应该是不太稳定的；我也是新手，意见仅作参考

Chensyfighting · 2023-12-14T12:40:54Z

就在原代码的基础上加入了框选的这几行代码为啥会跑不通呀？我找了好久没找到错希望有大佬救救

梯度的问题吧，可以检查一下梯度，旧数据对当前策略参数的更新应该是不太稳定的；我也是新手，意见仅作参考

感谢，我也找到原因了，确实是梯度问题，梯度更新的时候会出现nan值。

Provide feedback