УМННБJ, ЯХВ. Войти !bnw Сегодня Клубы

Формальная теория красоты (Шмидтхубер, http://www.idsia.ch/~juergen/creativity.html )
Пусть O(t) означает субъективного наблюдателя О в момент времени t.
Пусть H(t) означает историю предыдущих действий, чувств и наград наблюдателя до момента времени t.
О обладает каким-то адаптивным методом сжатия H(t) или её частей.
Мы обозначим субъективную мгновенную простоту или сжимаемость или регулярность или красоту B(D,O(t)) для любых данных D (но не их интересность или эстетическую ценность - смотрите ниже) как отрицательное число битов необходимое для кодирования D (видимо имеется разность длин D и его сжатого представления, прим. перев.), при данном ограниченном априорном знании наблюдателя и при его ограниченном методе сжатия.
Мы определим зависимую от времени субъективную интересность или новизну или удивлённость или эстетическую награду или эстетическую ценность или внутреннюю радость или радость как функцию I(D,O(t)) от данных D и наблюдателя O в дискретный момент времени t>0 как I(D,O(t)) = B(D,O(t)) - B(D,O(t-1)).
Эта величина описывает изменение красоты во времени, т.е. является первой производной субъективной простоты или красоты.
Когда обучающийся агент улучшает свой алгоритм сжатия, данные которые ранее были для него случайными становятся субъективно более упорядоченными и красивыми, требуя всё меньше и меньше битов для того чтобы их закодировать.
Пока этот процесс не закончился данные остаются интересными, но со временем они станут скучными несмотря на то что они останутся красивыми.
В момент времени t пусть r_i(t) = I(H(t),O(t)) обозначает мгновенную функцию веселья, радости или внутренней награды за улучшение сжатия путём открытия новых закономерностей где-то в H(t), истории действий и ощущений до момента времени t.
Пусть r_e(t) означает внешнюю награду в текущий момент времени, а функция r(t) = g(r_i(t),r_e(t)) - полную награду в данный момент времени, где g это функция которая взвешивает (определяет вклад) внутренней и внешней награды, например простая сумма: g(a,b) = a+b.
Целью агента во время t_0 является максимизация E[∑(t=t0,T,r(t))] где E это оператор математического ожидания, а Т - время смерти. (т.е. максимизация ожидаемой суммарной награды на промежутке времени от t0 до T).

Рекомендовали: @goren
#1UAFTA / @engineer / 4126 дней назад

Geek text porn? Если я правильно понял, то со временем увидеть что-то очень красивое становится всё менее вероятно.
#1UAFTA/UPV / @dan / 4126 дней назад
@dan Да, ты правильно понял. И правда, чем больше априорное знание тем меньше новой информации о мире в нём нет. Если мир конечный то это так. Хотя чтобы быть окончательно уверенным нужно строгое доказательство.
#1UAFTA/2MV / @engineer --> #1UAFTA/UPV / 4126 дней назад
гикодрочка и очевидность
#1UAFTA/NLQ / @krkm / 4125 дней назад
ipv6 ready BnW для ведрофона BnW на Реформале Викивач Котятки

Цоперайт © 2010-2016 @stiletto.