BnW — engineer: Прорывной результат же, а почти не…

Прорывной результат же, а почти не обсуждается.
http://arxiv.org/pdf/1312.5602v1.pdf
Демонстрируется алгоритм для решения задачи обучения с подкреплением (на основе Q-обучения, нейросети для оценки функции награды и стохастического градиентного спуска для поиска её параметров) который способен учиться играть в 7 игр на Atari, в некоторые из них - лучше человека.
Интерфейс игрового бенчмарка таков: на каждом шаге алгоритм может выбрать действие из конечного набора (аналогично нажатию кнопки на геймпаде) и получает на вход массив RGB пикселей размером 210x160 и число - счёт в игре.
Алгоритм учится взаимодействовать с игрой как чтобы максимизировать счёт, т.е. учится успешным стратегиям игры (и заодно предсказанию будущей награды в каждый момент времени). Алгоритм неизменен, но после тренировки учится играть в любую из 7 игр.
Впечатляет что алгоритм принимает на вход векторы очень высокой (~800 - входные картинки сабсэмплятся и кропаются до 84х84) размерности и учится извлекать из них представление игры (среды в которой работает алгоритм) низкой размерности (содержащее только велечины которые влияют на награду), т.е. "понимает" игру.
Также впечатляет график 3 на странице 7: алгоритм "понимает" что новый враг это возможность получить больший счёт, выпускает снаряд и чем ближе снаряд к врагу тем выше ожидаемая награда.

Алгоритм разработан в DeepMind Technologies, конторе которую Google купило недавно за 400M$ http://www.digitaltrends.com/computing/google-deepmind-artificial-intelligence/

Рекомендовали: @o01eg @goren @kurkuma @l29ah

#WHTOY1 / @engineer / 4523 дня назад

@zerg Тот MC-AIXI более попсовый потоум что в адаптере игры к алгоритму уже вручную закодирован распознаватель структуры. А тут обучение от пикселей, это вообще что-то волшебное. Куча приложений у этого алгоритма, все задачи управления где качество работы можно оценить числом.

#WHTOY1/VIP / @engineer --> #WHTOY1/FES / 4523 дня назад

Шикарно.

#WHTOY1/5RE / @je / 4523 дня назад

@je Надо сделать свою реализация и бенчмаркнуть на других задачах, например обучение робота ходьбе.

#WHTOY1/BD1 / @engineer --> #WHTOY1/5RE / 4522 дня назад

Кстати, ошибся же, 84х84 это 7056, очень много. Такова размерность векторов состояния среды которые подаются алгоритму.

#WHTOY1/BBF / @engineer / 4522 дня назад

тлдр //как быстро происходит обучение новой игре, которая совершенно отличается графическим представлением и взаимодействием/расположением объектов на экране (как при смене точки обзора), но основывается на той же игровой механике? То есть сколько есть профита от уже обученной игры? //пускай зопилят

#WHTOY1/WWI / @238328 / 4522 дня назад

BnW для ведрофона BnW на Реформале Викивач Котятки