Ты в дебри сразу залезаешь, но впринципе понятно что делает автоор по абстракту >As a first step towards reinforcement learning, it is shown that RNN can well map and reconstruct (partially observable) Markov decision processes. In doing so, the resulting inner state of the network can be used as a basis for standard RL algorithms. This so-called hybrid RNN approach is rather simple but showed good results for a couple of applications.
и по этой иллюстрации http://i.imgur.com/ywFbOqP.png
RNN просто тренируют на предсказание будущего входа по нынешнему, значит она вынуждена в своём состоянии как-то кодировать важные для динамики внешнего мира переменные, уже это внутренное закодированное состояние используется как вход для обычного алгоритма обучения с подкреплением и дальше экспериментально показывается что тип работает.
Перед этим он там доказывал наворочанные какие-то теоремы об универсальной аппроксимации, ну тип phd значит надо теоремы.
После этого какая-то муть с привлечением теории оптимального управления, не заслуживает внимания по-моему.
Чтобы лучше понимать такие вещи тебе надо почитать про обычное Q learning и про feature extraction, может про автоэнкодеры.
@l29ah Лучшее что есть это deep q network, но оно без состояния и его тоже надо тренировать с кучей повторений. Пока что не было успешных применений RNN к RL которые бы побили какой-то бенчмарк (ну, если не считать эволюционных методов).
Вообще про виды RL и разницу между ontogenetic и phylogenetic learning вот тут есть http://people.idsia.ch/~juergen/ki2009.pdf 2 страницы всего
@engineer Наверное мне нужно таки осилить rl rnn целиком, а потом думать о том, как его можно расширить костылями для прокачки онлайновости наподобие человечьей (типа как человек может ниибацо онлайново делать только что-то охуенно простое, при этом планомерно заучивая это как часть сложного поведения).
@l29ah Удачи, на этом лучшие умы человечества работают. Я бы исходил из экспериментов. Рекомендую покачать сборники статей From Animals to Animats и отобрать самые интересные, прочитать, попытаться что-то воспроизвести.