Mustahkamlash bilan o’qitishga asoslangan ta’lim asoslari


Markovning qaror qabul qilish modeli



Download 342,68 Kb.
bet2/9
Sana17.07.2022
Hajmi342,68 Kb.
#815734
1   2   3   4   5   6   7   8   9
Bog'liq
u74s8PduXzD1Ru3xvfaqXn689GCgEmQdgiWYcHb1

2. Markovning qaror qabul qilish modeli.
Matematik nuqtai nazardan, mustahkamlash bilan o’qitish Markov Decision Process (MDP) modeli nuqtai nazaridan yaxshi tavsiflangan (5.2-rasm).



5.2 - rasm. Markov qaror qabul qilish modeli.
Modelda 4 ta asosiy to'plam mavjud {S, A, P, R}, bu erda:
S – berilgan vaqtda agent bo'lishi mumkin bo'lgan holatlar to'plami
A - agentning ma'lum bir vaqtda bajarishi mumkin bo'lgan harakatlar to'plami;
P - S holatda bo'lgan holda, agent A harakatini bajarib, t + 1 vaqt ichida S' holatga o'tishi ehtimoliklar to'plami;
R - S holatidan S' holatiga o'tganligi uchun olingan mukofotlar to'plami.
Mustahkamlash bilan o’qitishga asoslangan ta'lim nazariyasi doirasida S va P to'plamlari ko'pincha hisoblangan qiymatlarning yagona to'plami Q - sifatida talqin etiladi (baholash qadriyatlar), bu olingan mukofotning qiymatiga, shuningdek, berilgan harakat bajarilgan holatga (t bosqich) bog'liq bo’ladi. Shunday qilib, qo'yilgan muammodagi harakatlarni optimallashtirish mexanizmini quyidagi formula orqali ifodalash mumkin [18]:

5.2-rasmda {a0, a1} ikkita amaldan birini bajarishda uchta {s0,s1, s2} holatdan biriga oʻtish ehtimoli koʻrsatilgan. Shunday qilib, yuqorida tavsiflangan modeldan mustahkamlash bilan o’qitish ikkita asosiy vazifasini ajratib ko'rsatish mumkin:
1) mukofotlar olingandan keyin hisoblangan Q qiymatlari to'plamini qanday yangilnishi kerak?
Eng oddiy usul - A faoliyatidan olingan mukofotlar o'rtacha qiymatini yangilash va saqlash (Sample Average usul deb ataladi).
2) qanday qilib, P va S to'plamlariga ega bo'lib turib , A to'plamdan harakatni tanlash kerak?
Eng keng tarqalgan usullar - maksimal mukofot qiymatiga ega bo'lgan harakatni tanlash (greedy usuli), shuningdek, e-greedy usuli, softmax usuli va boshqalar [18].
Mavjud barcha mustahkamlash bilan o’qitish algoritmlari ushbu ikkita vazifaga asoslangan bo'lib, ular harakatning ehtimolliklarini yangilash algoritmlarini, shuningdek, qo'llaniladigan vazifaga qarab harakatni tanlash algoritmlarini o'z ichiga oladi.
Mustahkamlash bilan o’qitish o’qituvchi nazoratidagi o'qitishdan farq qiladi, chunki u kiruvchi ma'lumotlar to'plamiga mos keladigan statistik funktsiyani topish vazifasini qo'ymaydi. Aksincha, mustahkamlash bilan o’qitishda agentning mohiyati kiritiladi, u real vaqt rejimida berilgan muhit bilan o'zaro ta'sir qiladi va olingan fikr-mulohazalar (mukofot) asosida o'z xatti-harakatlarini tuzatadi. O’qituvchi nazorati ostidagi ta'limda esa oldindan "maqsadli ma'lumotlar to'plami" mavjud bo'lgan o'qituvchi mavjud. Shunday qilib, agent asta-sekin o'zi bilan munosabatda bo'lgan muhit haqidagi bilimini yaxshilaydi va optimal yoki optimalga yaqin bo'lgan universal xulq-atvor modelini topadi. Bundan tashqari, ko'pincha agent atrof-muhit bilan uning xususiyatlari, shuningdek, agentning muayyan harakatlari uning holatiga qanday ta'sir qilishi haqida dastlabki tasavvurga ega bo'lmagan holda o'zaro ta'sir qiladi deb taxmin qilinadi. O'quv jarayonida agent ikkita asosiy matematik amalni bajaradi: mukofotlar haqidagi joriy ma'lumotlar asosida keyingi harakatni tanlash va tanlangan harakat atrof-muhitga va mukofotning kelajakdagi qiymatiga qanday ta'sir qilishini tahlil qilish / bashorat qilish. Hozirgi vaqtda mustahkamlash bilan o’qitish nazariyasi matematik statistika va operatsiyalarni tadqiq qilish nazariyalaridan ancha uzoqda qo'llaniladi. Ta'limni mustahkamlashning ajralmas qismi bo'lgan eng katta tadqiqot yo'nalishlaridan biri bu amaliy muhandislik fanlari, xususan, telekommunikatsiyalar bilan bog'liq fan sohalaridir (№11 va №14 ma'ruzalar).



Download 342,68 Kb.

Do'stlaringiz bilan baham:
1   2   3   4   5   6   7   8   9




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©www.hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish