BnW — l29ah: Нейросеть с состоянием и мотивацией:…

Нейросеть с состоянием и мотивацией: https://repositorium.uni-osnabrueck.de/bitstream/urn:nbn:de:gbv:700-2008112111/2/E-Diss839_thesis.pdf Бля потратил час и не понял как это работает ваще, не говоря уже об имплементации :(

Рекомендовали: @o01eg

#LE69D7 / @l29ah / 3844 дня назад

многабукаф

#LE69D7/TGE / @ruki / 3844 дня назад

>Всего час

#LE69D7/U00 / @engineer / 3839 дней назад

Ты в дебри сразу залезаешь, но впринципе понятно что делает автоор по абстракту >As a first step towards reinforcement learning, it is shown that RNN can well map and reconstruct (partially observable) Markov decision processes. In doing so, the resulting inner state of the network can be used as a basis for standard RL algorithms. This so-called hybrid RNN approach is rather simple but showed good results for a couple of applications. и по этой иллюстрации http://i.imgur.com/ywFbOqP.png RNN просто тренируют на предсказание будущего входа по нынешнему, значит она вынуждена в своём состоянии как-то кодировать важные для динамики внешнего мира переменные, уже это внутренное закодированное состояние используется как вход для обычного алгоритма обучения с подкреплением и дальше экспериментально показывается что тип работает. Перед этим он там доказывал наворочанные какие-то теоремы об универсальной аппроксимации, ну тип phd значит надо теоремы. После этого какая-то муть с привлечением теории оптимального управления, не заслуживает внимания по-моему. Чтобы лучше понимать такие вещи тебе надо почитать про обычное Q learning и про feature extraction, может про автоэнкодеры.

#LE69D7/G5J / @engineer / 3839 дней назад

@engineer Вообще RNN в RL основном применяют с переборными методами типа генетических алгоритмов для обучения, конечно к этого подхода имеются недостатки (не online, много повторений), но работает хорошо https://scholar.google.ru/scholar?hl=ru&q=neuroevolution+reinforcement+learning&btnG=

#LE69D7/FQF / @engineer --> #LE69D7/G5J / 3839 дней назад

@engineer А чо online норм с состоянием?

#LE69D7/GT9 / @l29ah --> #LE69D7/FQF / 3839 дней назад

@l29ah Лучшее что есть это deep q network, но оно без состояния и его тоже надо тренировать с кучей повторений. Пока что не было успешных применений RNN к RL которые бы побили какой-то бенчмарк (ну, если не считать эволюционных методов). Вообще про виды RL и разницу между ontogenetic и phylogenetic learning вот тут есть http://people.idsia.ch/~juergen/ki2009.pdf 2 страницы всего

#LE69D7/QY8 / @engineer --> #LE69D7/GT9 / 3839 дней назад

@engineer Наверное мне нужно таки осилить rl rnn целиком, а потом думать о том, как его можно расширить костылями для прокачки онлайновости наподобие человечьей (типа как человек может ниибацо онлайново делать только что-то охуенно простое, при этом планомерно заучивая это как часть сложного поведения).

#LE69D7/Z9R / @l29ah --> #LE69D7/QY8 / 3839 дней назад

@l29ah Удачи, на этом лучшие умы человечества работают. Я бы исходил из экспериментов. Рекомендую покачать сборники статей From Animals to Animats и отобрать самые интересные, прочитать, попытаться что-то воспроизвести.

#LE69D7/ZRQ / @engineer --> #LE69D7/Z9R / 3838 дней назад

BnW для ведрофона BnW на Реформале Викивач Котятки