One of the sub-fields of



Download 355,44 Kb.
bet4/5
Sana18.04.2022
Hajmi355,44 Kb.
#560606
1   2   3   4   5
Bog'liq
Naive Bayes classifiers UZBEK

3-jadval.Stop so'z olib tashlash misol.

Stemming va Lemmatizatsiya
Stemmingso'zni ildiz shakliga aylantirish jarayonini tavsiflaydi. Original kelib chiqadigan algoritm mening Martin f ishlab chiqildi.Porter yilda 1979 va ShuningPorter stemmer sifatida tanilgan[8].
4-jadval.Porter kelib chiqadigan misol.

Stemming yuqoridagi misolda "thu" kabi haqiqiy bo'lmagan so'zlarni yaratishi mumkinthu. Lemmatizatsiyadan farqli o'laroq,lemmatizationlemmalar deb ataladigan so'zlarning kanonik (grammatik jihatdan to'g'ri) shakllarini olishga qaratilganlemmas. Lemmatizatsiya stemmalashdan ko'ra hisoblash qiyinroq va qimmatroq bo'lib, amalda stemmalash ham, lemmatizatsiya ham matn tasnifini bajarishga kam ta'sir ko'rsatadi [9].
Table4-jadval.Lemmatizatsiyaga misol of Lemmatization.

(Stemming va lemmatizatsiya misollari Python NLTK kutubxonasi yordamida yaratilgan,http://www.nltk.org.)
N-Gramm
In the N-grammodelida Tokennin ta element ketma-ketligi sifatida aniqlash mumkin. Eng oddiy holat-unigrambu har bir so'z aniq bitta so'z, harf yoki belgidan iborat bo'lgan unigram (1 gramm). Oldingi barcha misollar hozirgacha unigramlar edi. Optimal sonni tanlashn tilga va ma'lum dasturga bog'liq. Masalan, Andelka Zecevic topilgan uning o'rganish deb n-gramm bilan3≤n≤73≤n≤7edi, eng yaxshi tanlov aniqlash uchun yozuvchilik hamda serbiya matnli hujjatlar [10]. Bir xil ishda,nhajmin-gramm 44≤n≤811va Kanarisva boshqalarnhajmi n-gramm e-mail anti-spam filtrlash yaxshi chiqishlari hosil deb hisobot 3 va 4 hajmi n-gramm 4 va n-gramm ingliz matn kitoblar mualliflik aniqlash eng yuqori aniqligini berdi. xabarlar [12].

Spamni tasniflash uchun qaror qoidasi
Spam tasnifi kontekstida sodda Bayes tasniflagichining orqa ehtimolliklarga asoslangan qaror qoidasi quyidagicha ifodalanishi mumkin
agarP(ω=spam∣x)≥P(ω=son∣x) tasnifi kabi spam, boshqa tasnifi sifatida son. agar P(ω=spam∣x)≥P(ω=son∣x) tasnifi kabi spam, boshqa tasnifi sifatida son. 
As described in Section Orqa ehtimolliklar bo'limida tasvirlanganidek,orqa ehtimollik sinf-shartli ehtimollik va oldingi ehtimollik mahsulotidir; ikkala sinf uchun ham doimiy bo'lgani uchun denominatordagi dalil atamasi tushirilishi mumkin.
P(ω=spam∣x)=P(x∣ω=spam)⋅P(spam)P(ω=son∣x)=P(x∣ω=son)⋅P(son)P(ω=spam∣x)=P(x∣ω=spam)⋅P(spam)P(ω=son∣x)=P(x∣ω=son)⋅P(son)
Oldingi ehtimolliklarni o'quv ma'lumotlar to'plamidagi spam va jambon xabarlarining chastotalari asosida maksimal ehtimollik smetasi orqali olish mumkin:
P^(s'emka=spam)=# ning spam msg.# barcha msg ning.P^(Xem=Xem) Xem msg ning=#.# barcha msg ning.P^(s'emka=spam)=# ning spam msg.# barcha msg ning.P^(Xem=Xem) Xem msg ning=#.# barcha msg ning.
Har bir hujjatdagi so'zlar shartli ravishda mustaqil deb faraz qilsak (soddataxmin bo'yicha), sinf-shartli ehtimollarni hisoblash uchun ikki xil modeldan foydalanish mumkin:ko'p o'zgaruvchan Bernullimodeli vaMultinomialmodel.
Multi-variate Bernoulli sodda Bayes
The Ko'p o'zgaruvchan Bernullimodeli ikkilik ma'lumotlarga asoslangan: hujjatning xususiyat vektoridagi har bir belgi 1 yoki 0 qiymati bilan bog'liq. Xususiyati vektormm dimensions where mm m butun so'z so'zlar soni m m yo'nalishlarini ega(bo'limdaso'zlar modeli Bag; qiymati 1 so'z alohida hujjatda uchraydi, degan ma'noni anglatadi, va 0 so'z bu hujjatda sodir bo'lmaydi, degan ma'noni anglatadi. Bernulli sinovlari quyidagicha yozilishi mumkin
P(x∣ωj)=∏i=1mP(x, men∣ωj)b⋅(1−P(x, men∣ωj))(1−b)(b∈0,1).P(x∣ωj)=∏i=1mP(xi∣ωj)b⋅(1−P(xi∣ωj))(1−b)(b∈0,1).
Ma'lumP^(xi∣ωj)P^(xi∣ωbir so'z (yoki belgi) x i XI sinfda uchraydiganini p^(x i j)p^(xi j)maksimal-ehtimolligi tahmin bo'lsinxixi occurs in class ωjωj.
P^(xx∣ij)=dfXI,y+1DFy+2p^(xij) = dfxi, y + 1dfy+2
qani

  • DFxi,ydfxi, y is the number of documents in the training dataset that contain the feature -xixi xususiyatini o'z ichigaolgan va sinfga mansubbo'lgan o'quv datasetidagixujjatlarsonij.

  • DFydfy-o'quv datasetidagi sinfga tegishlibo'lgan xujjatlar sonijvaj.

  • +1 va + 2-Laplasni tekislash parametrlari(qism qo'shimchasini tekislash).

Multinomial Sodda Bayes
Muddat Chastotasi
Ikkilik qiymatlarni emas, balki matnli hujjatlarni tavsiflash uchun muqobil yondashuvbu atama chastota (tf(t, d)). Atama chastota odatda berilgan atamaning soni sifatida aniqlanadit(ya'ni so'z yoki belgi) hujjatda paydobo'ladi d(bu yondashuv ba'zanxom chastota deb ham ataladi). Amalda, chastota atamasi ko'pincha xom muddatli chastotani hujjat uzunligiga bo'lish orqali normallashtiriladi.
normalangan muddatli chastota=tf(t,d)nDnormalangan muddatli chastota=tf(t, d)nd
qani

  • tf(t,d)tf(t,d): xom muddatli chastota (thujjatD D muddatli t t sonidd).

  • nDnd: hujjatD D atamalar umumiy sonid.

Keyinchalik chastotalar atamasi multinomial modeldagi sinf-shartli ehtimolliklarni baholash uchun o'quv ma'lumotlari asosida maksimal ehtimollik bahosini hisoblash uchun ishlatilishi mumkin:
P begin =^(x, men∣ωj)=∑tf(xi,d∈ωj)+α∑Nd∈ωj+α⋅VP^(xi∣ωj)=∑tf(xi,d∈ωj)+α∑Chi∈ωj+α⋅V
qani

  • xixi: muayyan namunadagi xususiyati vektorxx bir so'z.

  • ∑tf(xi,d∈ωj)∑tf(xi,d∈ωj): so'm Bo'lgan xom muddatli chastotalar wordxixibarcha hujjatlar tayyorlash namunasi, deb tegishli sinfωjωj.

  • ∑Nd∈ωj∑Chi∈ωj: summasi barcha muddatli chastotalar o'quv majmui uchun sinfωjωj.

  • αα: Bir hissa tekislash parametr (α=1α=1uchun Laplace tekislash).

  • VV: so'z boyligining hajmi (o'quv to'plamidagi turli so'zlar soni).

Matnga duch kelishning sinf-shartli ehtimolixxalohida so'zlarning o'xshashligi mahsuloti sifatida hisoblanishi mumkin (shartli mustaqillikningsoddataxminiga ko'ra).
P(x∣ωj)=P(x1∣ωj)⋅P(x2∣ωj)⋅...⋅P(xn∣ωj)=∏i=1mP(x, men∣ωj)P(x∣ωj)=P(x1∣ωj)⋅P(x2∣ωj)⋅...⋅P(xn∣ωj)=∏i=1mP(xi∣ωj)
Muddatli chastota - teskari hujjat chastotasi (Tf-idf)
The Atama chastota-teskari hujjat chastotasi (Tf-idf)matnli hujjatlarni tavsiflash uchun yana bir alternativ. Buni vaznliatama chastotasi deb tushunish mumkin, bu ayniqsa foydalidir to'xtash so'zlari matn korpusidan olib tashlanmagan. Tf-idf yondashuvi so'zning ahamiyati uning barcha hujjatlarda qanchalik tez-tez sodir bo'lishiga teskari proportsional deb taxmin qiladi. Tf-idf ko'pincha hujjatlarni turli xil matn qazib olish vazifalarida dolzarbligi bo'yicha saralash uchun ishlatiladi, masalan, qidiruv tizimlari tomonidan sahifalarni reytingi, shuningdek, sodda Bayes orqali matn tasnifiga qo'llanilishi mumkin.
Tf-idf=tfn(t,d) ushbudanidf(tboshlab: T)Tf-idf=tfn(t, d)ushbudanidfboshlab: D) ushbudan boshlab: t)
Let Tfn(D,f)tfn(d,f)normallashtirilgan atama chastotasi bo'lsin vaidfidf, teskari hujjat chastotasi, uni quyidagicha hisoblash mumkin
idf(t)=log(ndnd(t)),idf(t)=log'(ndnd(t)),
qani

  • nDnd: hujjatlar umumiy soni.

  • nd(t)nd(t): t t atamasini o'z ichiga olgan hujjatlar sonitt.

Ko'p variantli Bernulli va Multinomial modelning chiqishlari
Empirik taqqoslashlar, agar so'z hajmi nisbatan katta bo'lsa, multinomial model ko'p o'zgaruvchili Bernulli modelidan ustun bo'lishga intilishini dalillaydi [13]. Biroq, mashinani o'rganish algoritmlarining ishlashi xususiyatlarning tegishli tanloviga juda bog'liq. Sodda Bayes tasniflagichlari va matnni tasniflashda ishlashning katta farqlari so'zlarni olib tashlash, to'xtatish va token uzunligini tanlash bilan bog'liq bo'lishi mumkin [14]. Amalda, matnni tasniflash uchun ko'p o'zgaruvchan Bernulli yoki multinomial model o'rtasida tanlov qiyosiy tadqiqotlar, shu jumladan xususiyatlarni chiqarish va tanlash bosqichlarining turli xil kombinatsiyalarini o'z ichiga olishi tavsiya etiladi.
Naif Bayes modelining variantlari
Hozircha biz kategorik ma'lumotlar uchun ikki xil modelni ko'rdik, ya'ni ko'p o'zgaruvchan Bernoulli (bo'limBernoulli Bayes) va multinomial (bo'limMultinomial Bayes) modellari-va sinf — shartli ehtimolliklarni baholash uchun ikki xil yondashuv. Bo'limda * uzluksiz o'zgaruvchilar, biz uchinchi modeli qisqacha qarash qiladi:Gaussian Naif Bayes.
Uzluksiz O'zgaruvchilar
Matnni tasniflash kategorik ma'lumotlarning odatiy holatidir, ammo doimiy ma'lumotlarda sodda Bayeslardan ham foydalanish mumkin.Iris gullari ma'lumotlari to'plami doimiy xususiyatlarga ega bo'lgan nazorat qilinadigan tasniflash vazifasi uchun oddiy misol bo'ladi: Iris ma'lumotlar to'plamida santimetr bilan o'lchangan barglar va sepallarning kengligi va uzunligi mavjud. Bayes tasnifidagi sodda ma'lumotlar bilan ishlashning strategiyalaridan biri bu xususiyatlarni diskretlashtirish va alohida toifalarni shakllantirish yoki sinf-shartli ehtimolliklarni hisoblash uchun Gauss yadrosidan foydalanish. Xususiyatlarning ehtimollik taqsimoti normal (Gauss) taqsimotiga amal qiladi degan taxmin ostida Gauss sodda Bayes modeli quyidagicha yozilishi mumkin
P(xik∣ω)=12πσ2ω−−−−√exp(−(xik−μω)22σ2ω),P(xik∣ω)=12πσω2exp⁡(−(xik−μω)22σω2),
buyerdao'quvma'lumotlaridanbaholanishi kerak bo'lgan parametrlarnio'qituvchi (namunaviy o'rtacha)vao'qituvchiσ (standart og'ish). Bayesning shartli mustaqillik haqidagi sodda taxminiga ko'ra, sinf-shartli ehtimollik thanalohida ehtimolliklar mahsuloti sifatida hisoblanishi mumkin:
P(xi∣ω)=∏k=1dP(xik∣ω)P(xi∣ω)=∏k=1dP(xik∣ω)
Tayyor va dangasa o'rganish algoritmlari
Being an G'ayratli o'quvchisifatida Naif Bayes tasniflagichlari yangi misollarni tasniflashda nisbatan tezkor ekanligi ma'lum. Ishtiyoqmand o'quvchilar-bu ma'lumotlar mavjud bo'lishi bilanoq o'quv ma'lumotlar to'plamidan modelni o'rganadigan algoritmlarni o'rganishdir. Model o'rganilgandan so'ng, yangi bashorat qilish uchun o'quv ma'lumotlarini qayta baholash shart emas. Ishtiyoqmand o'quvchilar bo'lsa, hisoblash uchun eng qimmat qadam bu modelni yaratish bosqichidir, yangi misollarni tasniflash esa nisbatan tezdir.

Download 355,44 Kb.

Do'stlaringiz bilan baham:
1   2   3   4   5




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©www.hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish