Matnlarni avtomatik ravishda tahrir va tahlil qilish dastur Zamonaviy texnika vositasida amalga oshiriladigan tahrir



Download 69 Kb.
Sana01.06.2022
Hajmi69 Kb.
#628983
Bog'liq
Matnlarni avtomatik ravishda tahrirlash

Matnlarni avtomatik ravishda tahrir va tahlil qilish dastur Zamonaviy texnika vositasida amalga oshiriladigan tahrir (bilvosita, ya’ni avtomatik tahrir). Keyingi paytlarda axborot almashinuvining jadallashuvi va ma’lumotlar ko‘lamining tobora kengayib ketayotgani sababli bilvosita tahrirga bo‘lgan talab oshib bormoqda.


Avtomatik tahrir kompyuter lingvistikasining asosiy yo‘nalishining biri bo‘lib, u kompyuterdagi matn muharrirlari ( Microsoft Word, Excel, Wordpad, Lexicon) rivojlanishi bilan bog‘liq holda yuzaga kelgan. Avtomatik tahrir deganda, kompyuterga kiritilayotgan matnning mexanik xatolari avtomatik tarzda to‘g‘rilanishi va xato ekanligi haqidagi signallarning foydalanuvchiga taklif etilishi nazarda tutiladi. Masalan, Microsoft Word dasturi asosida ingliz yoki rus tilida matn yozsak, unda so‘zlarning yozilishi bilan bog‘liq xatolar bo‘lsa, kompyuterning o‘zi ularning ostiga qizil yoki yashil rangli to‘lqinli chiziq chizadi; katta harf bilan yozilishi kerak bo‘lgan so‘zlarni kichik harf bilan yozsak, ularni avtomatik tarzda bosh harfga o‘tkazadi; bandlarni avtomatik tarzda raqamlab beradi; xatboshini o‘zi qo‘yadi va hokazo. Bu esa ishni osonlashtiradi.
Matnlarni avtomatik tahrir qilishning mukammal va yuqori sifatli tizimiga erishish uchun unga kiritilayotgan matnlarni nafaqat orfografik va morfologik jihatdan, balki sintaktik (so‘z birikmasi va gap tahriri), semantik (matnda qo‘llanilayotgan tushunchalar tahriri) va pragmatik (tushunchalarning to‘g‘ri qo‘llanilishi va ularni qo‘llash maqsadi tahriri) tahrir qilish imkoniyatlarini yaratish lozim.
Matnlarni to‘liq avtomatik tahrir va tahlil qilish uchun dastur quyidagi modullarga ega lingvistik modullardan tarkib topishi lozim: Grafematik tahrir bosqichida matndagi xatboshi, raqam, punktuatsion va boshqa ramziy belgilar aniqlanadi, ya’ni so‘z va so‘zshakllarga qadar tekshiruvni amalga oshiradi.
Grafematik tahrir bosqichining maqsadi – matndagi eng kichik birliklarni ham aniqlash va tasniflashdan iborat. Bunday birliklarga quyidagilar kiradi: so‘z, xatboshi, tinish belgilari, sanalar, pul birliklarining ramzlari, so‘z-raqamli birikmalar, sonlar, IP-manzillar va fayl nomlari, telefon raqamlari. Grafematik tahrir ko‘p bosqichli tahrir qilish dasturining ilk bosqichi hisoblanib, u keyingi bosqichlarning to‘laqonli va samarali bo‘lishi uchun asos yaratadi.
Morfologik tahrir bosqichi asos va shu asosdan yuzaga kelgan so‘zshakllarni tekshiradi. Morfologik tahrirning maqsadi – faqat orfografik xatolarni tekshirishdan iborat, deb hisoblash uning vazifa ko‘lamini toraytiradi. Ushbu bosqichda kiritlayotgan so‘zshaklning qanday asosiy shakldan qaysi lingvistk parametrlardan yuzaga kelganini aniqlaydi. Bu keyinchalik bir so‘zning barcha shakllari ustida ishlashga emas, balki asosiy shaklning qanday lingvistik parametrlarni olish imkoniyatiga egaligi ustida ish olib borishga turtki beradi. Masalan, ot turkumidagi kitob so‘zining qanday shakl hosil qiluvchi va sintaktik shakl yasovchi qo‘shimchalarni qabul qilishi hamda ularning kombinatsiyasini biriktirib, so‘zshakllarni hosil qilish imkoniyati, ya’ni parametrlari dasturning bazasiga kiritiladi. Natijada kitobso‘zining barcha shakllari kiritilib, dastur ta’minotidan katta hajm egallanmaydi, balki asosiy shakl va unga birikishi me’yoriy hisoblangan lingvistik parametrlar kiritilib, hajm iqtisod qilinadi. Sintaktik tahlilbosqichi – matn tahririning eng qiyin bosqichi. Uning asosiy vazifasi so‘zlarning o‘rnini va ularning o‘zaro birikishini aniqlash hisoblanadi. Shu bois ushbu bosqichni tahrir bosqichi deb emas, balki lingvistik tahlil bosqichi, deyish mumkin.
Bir so‘zshakl bir qancha so‘zning grammatik shakliga to‘g‘ri kelishi mumkin. Bunday hollarda so‘zlarni farqlash 37 uchun matn kiritiluvchiga shunday so‘zlar varianti ko‘rsatiladi va matn teruvchi so‘zlardan muvofig‘ini tanlab qo‘yadi. Ushbu jarayon morfologik tahrirda ham kuzatiladi. Ya’ni so‘zning xato yozilgani aniqlangach, matn teruvchiga tanlab qo‘yish imkonini beruvchi so‘zlar variantini taklif etadi. Sintaktik tahlilda asosiy maqsad so‘zlarning asosiy maqsad so‘zlarning o‘zaro bog‘lanish me’yorlarini e’tiborga olishdir. Matnlarni grammatik tahrir qilishda (Grammar checking) kompyuterga kiritilayotgan matndagi gap strukturasining grammatik jihatdan to‘g‘ri tuzilganligini tekshiradi. Buning uchun dasturga gaplarning kombinatsiyalarini kiritish talab etiladi. Shunda gapni dastur kiritilgan ko‘plab me’yoriy kombinatsiyalar doirasida tekshiradi.
Agar gap tuzilish kombinatsiyalariga muvofiq kelmasa, dastur uni xato deb hisoblaydi va foydalanuvchiga bu haqda xabar beradi. Grammar checking dasturida faqat grammatik me’yorlar emas, balki semantika, so‘zlarning ma’nosi hamda mantiqiyligiga ham e’tibor beriladi. Masalan, Qush uchmoqda. Odam uchmoqda. Devor uchmoqda gaplari Grammatik jihatdan to‘g‘ri yozilgan, ya’ni ega+kesim munosabati mavjud (III shaxs, birlik). Ammo semantikasiga e’tibor bersak, gaplar xato tuzilgan. Chunki odamning qanoti yo‘q, faqat badiiy matndagina insonning uchishi uchishi haqida yozish mumkin.
Matnlarni kompyuter vositasida qayta ishlashda ilmiy, rasmiy-idoraviy, axborot doirasidagi matnlar ham e’tiborga olinadi17.Keltirilgan devor uchmoqda gapining semantikasi esa noto‘g‘ri va gap hech bir uslubga mos kelmaydi. Chunki devor muqim bir joyda turuvchi, binoning, uyning tomini ko‘tarib turuvchi yoki xonalarga ajratuvchi tik ko‘tarilgan qismi18 . Matnlarni semantik tahlil qilish bosqichida tushunchaga ega so‘zning o‘rinli qo‘llanilayotgani tekshirib boriladi. Buning uchun dastur ta’minotiga tezaurus lug‘atlarni kiritish talab qilinadi. Tezaurus ( yunoncha thesaurus – xazina, boylik) lug‘atning o‘ziga xos maxsus ko‘rinishi bo‘lib, unda lug‘aviy birliklar o‘rtasida semantik munosabat (sinonimlar, antonimlar, paronimlar, giponimlar, giperonimlar va boshqalar) ko‘rsatilgan bo‘ladi. Zamonaviy texnologiyalarning kundalik turmushimizda muhim o‘rin egallashi va ilm-fanning rivojlanishi avtomatik tahrir va tahlilning ahamiyatini oshirmoqda. Avtomatik tahlil faqat matnlardagi mexanik xatolarni bartaraf etibgina qolmay, matnning savodli yozilishini ham ta’minlaydi, matn kirituvchiga jumlada xato so‘z borligi haqida xabar berib, uni xatoni bartaraf etishga undaydi, natijada to‘liq lingvistik me’yorlar darajasidagi matnni yuzaga keltirishda vaqt tejaladi. Bunday imkoniyatga erishish uchun, albatta, o‘zbek tili asosida ko‘p bosqichli avtomatik tahrir dasturining lingvistik ta’minotini mukammal darajada ishlab chiqish talab etiladi.
Matnlarni kompyuter yordamida sun'iy yoki tabiiy tiliga aylantirish . Amaliy tizimlar va A. O. nazariyasi. t. 50-yillarning oxirlarida yaratila boshlandi. 20-asr (AQSh, SSSR, Fransiya, Germaniya va boshqalar) va turli xil ilovalarda ishlab chiqilgan: tizim dasturlash, nashriyot va hisoblash lingvistikasida. Tizimli dasturlashda, uning predmeti kompyuterning ishlashi va foydalanuvchilarning ishlashi uchun dasturiy ta'minotni yaratish, dasturlarni ishlab chiqish vositalari, ya'ni algoritmik tillardagi matnlar (qarang  sun’iy tilllar). A. o'zining nashriyot biznesida. t.— tahririyat va nashriyot jarayonlarini avtomatlashtirish yoʻnalishlaridan biri. Ushbu sohalarda "A. haqida. t." qoida tariqasida nisbatan tor ma'noda shakl o'zgarishi sifatida ishlatiladi.
Avtomatik lingvistik tahlil va matn sintezi, shuningdek, tabiiy tilda kompyuter bilan aloqa qilishning lingvistik jihatlari bo'lgan hisoblash tilshunosligida "A. haqida. t." mazmunini tahlil qilishni ham, matn sintezini ham (insonga tushunarli bo‘lgan berilgan mazmunga ko‘ra) qamrab oluvchi kengroq ma’noda tushuniladi.
Maqsadlariga koʻra A. o.ning bir necha turlari mavjud. v. Avtomatlashtirilgan tahrirlash jarayonida matnni o'zgartirish kompyuter xotirasidagi matnga tuzatishlar va qo'shimchalar kiritishdan iborat; matnni formatlash sarlavhalarni ajratib ko'rsatish, kerakli formatdagi satrlar va sahifalarni shakllantirish, matnning bo'limlari va bo'limlarini ajratib ko'rsatish va uni kompyuterda chop etish qurilmalarida ko'paytirish uchun loyihalashdan iborat
Avtomatik terish va joylashtirish jarayonida kompyuterga kiritilgan matn matbaa uskunalari (masalan, fotomatbaa mashinasi) tomonidan qayta ishlab chiqarilgan tasvirga (kodga) ​​aylantiriladi. Leksikografik ishlov berish jarayonida matn leksikografikga aylantiriladihar bir so'zdan foydalanish ushbu matn uchun tuzilgan lug'atdagi ma'lum ma'lumotlarga mos keladigan vakillik .  Avtomatik lingvistik tahlilda matn ketma-ket ravishda uning leksik - morfologik , sintaktik va semantik ko'rinishlariga aylanadi . Avtomatik sintez jarayonida teskari o'zgarishlar amalga oshiriladi: semantik vakillikdan sintaktik va leksik-morfologik orqali haqiqiy matnga.
Avtomatlashtirilgan tahrirlash ( matn muharrirlari ) va avtomatik formatlash ( formatuvchilar ) uchun tizimlar, birgalikda AA tizimlari deb ataladi. ya'ni tor ma'noda ( eng. matnni qayta ishlash yoki matnni qayta ishlash tizimlari), 1970-yillarning oxiridan boshlab. deyarli barcha turdagi kompyuterlarning tizim dasturining bir qismidir. Matn muharrirlari va formatlagichlarini boshqarish displey (alfavit-raqamli klaviatura yordamida kiritish va qayta ishlangan matnni katod nurlari trubkasi ekranida aks ettirish uchun qurilma) orqali amalga oshiriladi. Qayta ishlangan matnga o'zgartirish va qo'shimchalar to'g'ridan-to'g'ri matndagi joylashuv ko'rsatkichi (kursor) yordamida, displeyning alfavit-raqamli klaviaturasi yordamida, shuningdek tahrirlash tizimi tomonidan qabul qilingan maxsus buyruqlar yordamida amalga oshirilishi mumkin. Ikkinchi holda, xuddi shu o'zgartirish matnning barcha joylarida bir vaqtning o'zida amalga oshirilishi mumkin, agar kerak bo'lsa (masalan, o'z ismining imlosini o'zgartirish, qisqartmani dekodlash).yoki aksincha, ma'lum bir iboraning qisqartmasi).
Matn muharrirlari va formatlashtiruvchilar dasturlarni, dastur hujjatlarini, ilmiy hisobotlarni va boshqa maʼlumotlarni kompyuterlarga tayyorlash va kiritish vositasi sifatida keng qoʻllaniladi.
Nashriyot amaliyotida avtomatlashtirilgan tahrirlash tizimlari, qoida tariqasida, avtomatik terish va joylashtirish tizimlari bilan birgalikda qo'llaniladi. Komponentlar sifatida bunday tizimlar ba'zi lingvistik dasturlarni ham o'z ichiga oladi, masalan, berilgan tilning imlosiga muvofiq so'zlarni o'rash dasturlari, imloni tekshirish va tuzatishlar, transliteratsiya va transkripsiya, nominal va mavzu indekslarini avtomatik ravishda tuzish uchun tegishli nomlar va kalit so'zlarni tanlash. (oxirgi holatda lemmatizatsiya dasturlari ham qo'llaniladi, ya'ni so'zlarning matn shakllarini lug'atga aylantirish).
Avtomatlashtirilgan leksikografik tizimlar, ya'ni lug'atlarni tayyorlash va ulardan foydalanishni avtomatlashtirish tizimlari matnlarga leksikografik ishlov berish uchun zarur bo'lgan dasturlar va ma'lumotnomalarni o'z ichiga oladi. Ular tizimga dasturlar, ma'lumotlar va so'rovlarni kiritish va tuzatish uchun matn muharrirlaridan, kiritilgan matnning imlo va belgilanishini tekshirish dasturlari, matnni so'zlarga , iboralarga , jumlalarga bo'lish uchun dasturlardan foydalanadilar.va lug'at yozuvlarining parchalari, so'zlardan foydalanish statistikasini lemmatizatsiya qilish va hisoblash dasturlari, ma'lumotlarni yuklash, qidirish va tuzatish dasturlari va boshqalar.
Tizimga kiritilgan matnlar va/yoki lug'atlar ma'lumotlar bazalariga joylashtiriladi va ular so'z indekslari va boshqa indekslar bilan ta'minlanadi. so'z yoki uning xususiyatlari yoki u tasvirlangan lug'at yozuvlari bo'yicha kontekstni topishga imkon beradi. Natijasi A. o. ya'ni avtomatlashtirilgan leksikografik tizimlarda chastotali lug'atlar, konkordanslar (kontekstli so'zlar indekslari), ma'lumotlar bazalarida joylashtirilgan avtomatik bir va ko'p tilli lug'atlar mavjud va leksikografik tizimlar dasturlari tomonidan yangi ma'lumotlarni qayta ishlashda ma'lumotnoma sifatida foydalaniladi. Shuning uchun bunday tizimlar rivojlanayotgan tizimlardir. Avtomatik lug'atlaravtomatik tarjima tizimlarida , shuningdek, lug'atlarni tayyorlash va kengaytirishda va ushbu tizimlarning grammatikasini takomillashtirishda ma'lumotnoma sifatida tabiiy tilda kompyuterlar bilan aloqa qilish uchun axborot tizimlari va tizimlarida qo'llaniladi.
Avtomatlashtirilgan axborot tizimlarini lingvistik ta'minlashning bir qismi sifatida AO funktsiyalarining uchta guruhi mavjud. ya'ni: kirish hujjatlarini avtomatik indeksatsiya qilish, so'rovlar matni uchun qidiruv retseptlarini avtomatik ravishda tuzish va tizim lug'atlarini avtomatlashtirilgan saqlash. Avtomatlashtirilgan axborot tizimlarining lingvistik ta'minotining o'zagi axborot-qidiruv tezaurisidir, bu borada tizimga kiritilgan matnlar indekslanadi. Matnni indekslash matnda tasvirlangan tushunchalarni va ular o'rtasidagi munosabatlarni ko'rsatadigan "tasvir" qidiruvini tuzishdan iborat. Tizimga so'rovlar xuddi shunday ko'rib chiqiladi. Qidiruv retseptlarini hujjatlarning qidiruv tasvirlari bilan solishtirish orqali so'ralgan mavzu matnlarini tanlash amalga oshiriladi. Matnlarda topilgan so'zlarning har qanday birikmasini qidira oladigan tezaurus bo'lmagan tizimlar ham mavjud. Bunday tizimlarda kiritilgan matnlarning indekslari avtomatik ravishda tuziladi.
A. oʻzining eng toʻliq funksiyasi. T. avtomatik tarjima tizimlarida va asosiysi sintaktik boʻlgan odam-mashina aloqasi tizimlarida, kompyuter bilan aloqa qilish tizimlarida esa semantik tahlilda ishlab chiqilgan. Bu eng murakkab shakllar A. o. T. butunlay matematik tilshunoslik va hisoblash lingvistikasi doirasida ishlab chiqilgan rasmiy apparatga asoslanadi . Bu yerda A. o. ya'ni til yoki lingvistik protsessorlar ( NLP - Natural Language Processor ) deb ataladigan murakkab dasturlar tomonidan amalga oshiriladi . Til protsessorlarining markaziy vazifasi grammatik tahlildir ( tahlil ). Tahlil qilish dasturlari ( parser ) mos yozuvlar ma'lumotlari sifatida rasmiy grammatikalardan foydalanadimatnlari tahlil yoki sintez ob'ekti bo'lib xizmat qiladigan tilning lug'atlari. Formal grammatika sifatida toʻgʻridan- toʻgʻri tarkibiy qismlarning kengaytirilgan grammatikasi (kontekstsiz grammatika), transformatsion grammatika , toʻgʻridan-toʻgʻri tarkibiy qismlar grammatikasi tizimi boʻlgan kengaytirilgan oʻtish tarmoqlari grammatikasi va boshqalar qoʻllaniladi.Izohlovchi-kombinator lugʻatlarning amaliy (muhandislik) variantlari. rasmiy lug'atlar sifatida ishlatiladi, ya'ni so'zlarning variant shakllari, ularning semantikasi va mosligi haqida batafsil ma'lumotga ega bo'lgan semantik-sintaktik lug'atlarning maxsus shakllari. morfologik cheklovlarni hisobga olgan holda leksik, semantik va sintaktik darajadagi imkoniyatlar. Avtomatik tarjima tizimlari va kompyuter aloqa tizimlarining ba'zi til protsessorlarida bunday lug'atlardan matnlarni tahlil qilish va sintez qilish uchun ham foydalanish mumkin. Odatda, til protsessorlari morfologik, sintaktik, semantik (yoki sintaktik-semantik) va lug'at komponentlarini (dastur va ma'lumotlar quyi tizimlari) o'z ichiga oladi, ularning har biri dinamik modelni amalga oshiradi.tilni tegishli darajada. Kompyuterlar bilan aloqa tizimlarining til protsessorlari odatda ma'lum bilimlarni ifodalash tizimiga asoslanadi va u bilan o'zaro ta'sir qiladi, mantiqiy (deduktiv) xulosa qilish funktsiyalarini bajaradi. Bilimlar ko'pincha ramkalar deb ataladigan shaklda taqdim etiladi - voqelikning ma'lum qismlari yoki semantik tarmoqlarning til modellari va kompyuterda saqlanadigan bilim bazalari deb ataladigan narsalarni tashkil qiladi. Ushbu funktsiyalar, shuningdek, lingvistik tahlilning boshqa murakkab holatlarida ma'noni ajratish ( omonimiyani hal qilish ), ellipslarni tiklash, matnda anaforik aloqalarni o'rnatish vositasi sifatida ishlatiladi.
70-yillardan beri AA tizimlarini loyihalashda barcha yondashuvlarni birlashtirish tendentsiyasi mavjud. ya'ni sun'iy intellekt doirasida - informatika yo'nalishlari ( informatika), turli sohalarda va mavzularda inson faoliyatini simulyatsiya qiluvchi murakkab inson-mashina va robot tizimlarini yaratish bilan bog'liq. Bunday tizimlarda tabiiy yoki sun'iy tildagi matn tizim haqidagi bilimlarni to'plash manbai va uning xatti-harakatini tanlash uchun ma'lumotlar manbai, shuningdek tizim va shaxs o'rtasidagi o'zaro ta'sir vositasidir. Bu erda tahrirlash funktsiyalari tobora ko'proq tarkibni qayta ishlash funktsiyalari bilan birlashib, matnni tushunish uchun yagona apparatni tashkil qilmoqda. Bu tahririyat va nashriyot jarayonlari, matnlardan ma’lumot olish, tibbiy-texnik diagnostika, ekspert faoliyati kabi birinchi navbatda intellektual mehnatni talab qiluvchi inson faoliyatining eng murakkab sohalarini avtomatlashtirish imkoniyatlarini ochib beradi. mashinalar va inshootlarni loyihalash; loyiha hujjatlarini ishlab chiqarish, ijtimoiy-iqtisodiy tizimlarni boshqarish. Bu barcha holatlarda Va. t. muhim rol oʻynaydi. Biroq, bunday ommaviy, "sanoat" ilovalari A. o. t. avtomatlashtirilgan lug'at fayllari, avtomatik lug'atlar, grammatikalar va lingvistik ma'lumotlarni kompyuterda aks ettirishning boshqa shakllari ko'rinishidagi kuchli axborot ta'minotiga asoslangan bo'lishi kerak.
Download 69 Kb.

Do'stlaringiz bilan baham:




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©www.hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish