Mustahkamlash bilan o’qitishga asoslangan ta’lim asoslari


Qiymatlar funksiyasini hisoblash



Download 342,68 Kb.
bet4/9
Sana17.07.2022
Hajmi342,68 Kb.
#815734
1   2   3   4   5   6   7   8   9
Bog'liq
u74s8PduXzD1Ru3xvfaqXn689GCgEmQdgiWYcHb1

Qiymatlar funksiyasini hisoblash
Keling, "N-qo'l bandit" muammosi misolida qiymatlar funktsiyasini hisoblash misolini ko'rib chiqaylik, bunda o'yinchi (agent) N to'plamidan eng katta foyda keltiradigan bitta tutqichni tanlashi kerak. O'yinchining yakuniy maqsadi T iteratsiyalar bo'yicha umumiy mukofotni maksimal darajada oshirishdir. Berilgan sharoitlarda har bir harakat kutilgan (yoki o'rtacha) mukofot qiymatiga ega bo'lib, u harakat qiymati deb ataladi. Agar barcha harakatlarning qiymatlari o'yin boshlanishidan oldin ma'lum bo'lsa, unda bu muammoni hal qilish ahamiyatsiz bo'lib qoladi - o'yinchi har doim eng yuqori mukofotga ega bo'lgan tutqichni tanlashi kerak. Biroq, ma'lum harakatlar uchun mukofotlarning qiymatlari oldindan ma'lum emas, lekin ma'lum bir harakat uchun mukofotning qaysi qiymati ilgari olinganiga qarab taxmin qilinishi mumkin. Agar o'yinchi ilgari bajarilgan harakatlari uchun barcha mukofotlarni eslab qolsa, unda ular orasida mukofotning maksimal kutilgan qiymatiga ega bo'lgan harakat bo'lishi aniq - bu ochko'zlik (greedy) harakati deyiladi. Agar siz keyingi bosqichda bunday harakatni tanlasangiz, bu atrof-muhit haqidagi bilimlardan foydalanish sifatida talqin qilinishi mumkin. Biroq, agar ochiq ochko'zlik (greedy) o'rniga boshqa kutilgan mukofot qiymatiga ega bo'lgan harakat tanlangan bo'lsa, unda bunday qadam atrof-muhitni o'rganish sifatida talqin qilinishi mumkin, chunki bu tanlangan uchun kutilgan mukofotning qiymatini yaxshilashga imkon beradi. harakat va atrof-muhit haqida ko'proq ma'lumot olish. Shunday qilib, quyidagicha intuitiv xulosa chiqarish mumkin - mavjud bilimlardan foydalanish joriy bosqichda mukofotni maksimal darajada oshirish uchun optimal harakatdir, tadqiqot esa uzoq muddatda yuqori umumiy mukofot olish imkonini beradi.
Shunday qilib, mukofotning kutilayotgan qiymatini hisoblash metodologiyasi (ya'ni, qiymatlar funktsiyasi) keyingi bosqichni baholash va tanlashda kalit hisoblanadi. Qiymatlar funktsiyasini hisoblashning eng oddiy, ammo shunga qaramay samarali va eng ko'p qo'llaniladigan usullaridan biri bu o'rtacha namunaviy usul (sample average) bo'lib, uni quyidagi formulada ifodalash mumkin:

Bunda
Qt(a) – T qadamda A harakatlardan kutilgan natija;
rka – k-qadamda mukofot qiymati;
ka – A harakatning hozirgi iteratsiyalari qiymati.

T bosqichida mukofotning hozirgi qiymatini (kutilgan qiymat bilan adashtirmaslik kerak) belgilaymiz:



Bunda

Shubhasiz, keyingi harakatni tanlashning eng oddiy qoidasi - bu mukofotning maksimal joriy qiymatiga ega bo'lgan harakatni tanlash, ya'ni T bosqichida a* ochko'z harakatlaridan birini tanlash bo’ladi, buning uchun:

Yuqoridagi usulga oddiy muqobil alternativasi ko'p hollarda eng yuqori mukofot qiymatiga ega bo'lgan harakatlarni tanlaydigan, lekin ma'lum bir kichik ε ehtimollik bilan, tasodifiy ravishda biron bir qadamda boshqa harakatni tanlaydigan usul bo'ladi. Bunday usul e-ochko'zlik (ε-greedy) [18] deb ataladi va ushbu konvergensiya shartini ta'minlaydi:

Boshqacha qilib aytganda, k takrorlashning yetarlicha yuqori soni uchun har bir qadam oxir-oqibat o'rganilib, keyingi bosqichlarning optimalligini kafolatlaydi.
Harakatni vaznli tanlash usuli

Download 342,68 Kb.

Do'stlaringiz bilan baham:
1   2   3   4   5   6   7   8   9




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©www.hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish