Mustahkamlash bilan o’qitishga asoslangan ta’lim asoslari

Harakatni vaznli tanlash usuli

Download 342,68 Kb.

bet	5/9
Sana	17.07.2022
Hajmi	342,68 Kb.
	#815734

1 2 3 4 5 6 7 8 9

Bog'liq
u74s8PduXzD1Ru3xvfaqXn689GCgEmQdgiWYcHb1

Mukofotlar gipotezasining asosiy goyasi

Harakatni vaznli tanlash usuli
Yuqoridagi ochko'zlik va ε-ochko'zlik kabi harakatni tanlash usullari juda samarali va eng ommabop bo'lishiga qaramay, ular maksimal kutilgan mukofotga ega bo'lmagan harakatlar tasodifan va bir tekis tanlanganligi bilan bog'liq bo'lgan aniq kamchilikga ega. teng ravishda. Bu shuni anglatadiki, eng kam foyda keltiradigan harakat eng foydaliga yaqin bo'lgan harakat bilan bir xil tanlanish imkoniyatiga ega. Ba'zi muammolarda, yomon harakatlar juda past mukofot qiymatiga ega bo'lsa, bunday tanlash usullari samarali bo'lmasligi mumkin. Ushbu muammoni hal qilishning yo'li, muayyan harakatga samaradorligiga qarab ehtimollik (vazn) belgilash imkoniyatidir. Bunday holda, ochko'zlik harakati hali ham eng yuqori tanlov ehtimoliga ega, ammo qolganlarning barchasi kutilgan mukofot qiymatlari bo'yicha tartiblangan bo'ladi. Bunday usullar vaznli (softmax) deb ataladi. Eng keng tarqalgan vaznli tanlash usullaridan biri Gibbs-Boltzmann taqsimotiga asoslangan usul bo'lib, u T bosqichida keyingi a harakatini (harakat vazni) tanlash ehtimolini baholash uchun ishlatilishi mumkin:

Bunda
P_t(a) – t qadamda a harakatni tanlash ehtimolligi;

Q_t(a) – t qadamda a harakatni tanlashda kutilgan mukofot qiymati;
Q_t(b) – t qadamda boshqa bir b harakatni tanlashda kutilgan mukofot qiymati;
Mukofotlar gipotezasining asosiy g'oyasi
Nima uchun tizimning maqsadi kutilgan mukofotni maksimal darajada oshirishdan iborat? Mustahkamlash bilan o'qitish mukofotlar gipotezasi g'oyasiga asoslanadi. Barcha maqsadlar kutilgan mukofotni maksimal darajada oshirish orqali tavsiflanishi mumkin. Shuning uchun OPda eng yaxshi harakatni amalga oshirish uchun kutilgan mukofotni maksimal darajada oshirish kerak. Har bir vaqt (t) bosqichidagi mukofot quyidagicha yozilishi mumkin:

Yoki:

Biroq, bunday mukofotlarni shunchaki qo'sha olmaymiz. Erta kelgan mukofotlar ehtimoli ko'proq, chunki ular kelajakdagi mukofotlarga qaraganda ko'proq o'rganilgan. Mukofotni qayta hisoblash:
Biz chegirma stavkasi gammasini aniqlaymiz. U 0 dan 1 gacha bo'lishi kerak.
• Gamma qanchalik katta bo'lsa, chegirma shunchalik kichik bo'ladi. Bu uzoq muddatli mukofotlar ustuvor ekanligini anglatadi.
• Boshqa tomondan, gamma qanchalik kichik bo'lsa, chegirma shunchalik katta bo'ladi. Bu qisqa muddatli mukofotlar ustuvorligini anglatadi.
Kutilayotgan mukofotlarni quyidagi formula yordamida hisoblash mumkin:

Download 342,68 Kb.

Do'stlaringiz bilan baham:

1 2 3 4 5 6 7 8 9