Обычный подход к улучшению принятия решений агентами глубокого обучения с подкреплением (RL) заключается в постепенной амортизации полезной информации, которую они получают из своего опыта с помощью градиентного спуска по потерям при обучении. Однако этот метод требует создания все более крупных моделей для работы со все более сложными средами…