Mustahkamlash bilan o’qitishga asoslangan ta’lim asoslari


Harakatni vaznli tanlash usuli



Download 342,68 Kb.
bet5/9
Sana17.07.2022
Hajmi342,68 Kb.
#815734
1   2   3   4   5   6   7   8   9
Bog'liq
u74s8PduXzD1Ru3xvfaqXn689GCgEmQdgiWYcHb1

Harakatni vaznli tanlash usuli
Yuqoridagi ochko'zlik va ε-ochko'zlik kabi harakatni tanlash usullari juda samarali va eng ommabop bo'lishiga qaramay, ular maksimal kutilgan mukofotga ega bo'lmagan harakatlar tasodifan va bir tekis tanlanganligi bilan bog'liq bo'lgan aniq kamchilikga ega. teng ravishda. Bu shuni anglatadiki, eng kam foyda keltiradigan harakat eng foydaliga yaqin bo'lgan harakat bilan bir xil tanlanish imkoniyatiga ega. Ba'zi muammolarda, yomon harakatlar juda past mukofot qiymatiga ega bo'lsa, bunday tanlash usullari samarali bo'lmasligi mumkin. Ushbu muammoni hal qilishning yo'li, muayyan harakatga samaradorligiga qarab ehtimollik (vazn) belgilash imkoniyatidir. Bunday holda, ochko'zlik harakati hali ham eng yuqori tanlov ehtimoliga ega, ammo qolganlarning barchasi kutilgan mukofot qiymatlari bo'yicha tartiblangan bo'ladi. Bunday usullar vaznli (softmax) deb ataladi. Eng keng tarqalgan vaznli tanlash usullaridan biri Gibbs-Boltzmann taqsimotiga asoslangan usul bo'lib, u T bosqichida keyingi a harakatini (harakat vazni) tanlash ehtimolini baholash uchun ishlatilishi mumkin:

Bunda
Pt(a) – t qadamda a harakatni tanlash ehtimolligi;


Qt(a) – t qadamda a harakatni tanlashda kutilgan mukofot qiymati;
Qt(b) – t qadamda boshqa bir b harakatni tanlashda kutilgan mukofot qiymati;
Mukofotlar gipotezasining asosiy g'oyasi
Nima uchun tizimning maqsadi kutilgan mukofotni maksimal darajada oshirishdan iborat? Mustahkamlash bilan o'qitish mukofotlar gipotezasi g'oyasiga asoslanadi. Barcha maqsadlar kutilgan mukofotni maksimal darajada oshirish orqali tavsiflanishi mumkin. Shuning uchun OPda eng yaxshi harakatni amalga oshirish uchun kutilgan mukofotni maksimal darajada oshirish kerak. Har bir vaqt (t) bosqichidagi mukofot quyidagicha yozilishi mumkin:

Yoki:

Biroq, bunday mukofotlarni shunchaki qo'sha olmaymiz. Erta kelgan mukofotlar ehtimoli ko'proq, chunki ular kelajakdagi mukofotlarga qaraganda ko'proq o'rganilgan. Mukofotni qayta hisoblash:
Biz chegirma stavkasi gammasini aniqlaymiz. U 0 dan 1 gacha bo'lishi kerak.
• Gamma qanchalik katta bo'lsa, chegirma shunchalik kichik bo'ladi. Bu uzoq muddatli mukofotlar ustuvor ekanligini anglatadi.
Boshqa tomondan, gamma qanchalik kichik bo'lsa, chegirma shunchalik katta bo'ladi. Bu qisqa muddatli mukofotlar ustuvorligini anglatadi.
Kutilayotgan mukofotlarni quyidagi formula yordamida hisoblash mumkin:



Download 342,68 Kb.

Do'stlaringiz bilan baham:
1   2   3   4   5   6   7   8   9




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©www.hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish