Kompiuterinė lingvistika: metodai, ištekliai, taikymai

Įvadas

Terminas kompiuterinė lingvistika(CL) pastaraisiais metais vis labiau paplitęs dėl įvairių taikomosios programinės įrangos sistemų, įskaitant komercinius programinės įrangos produktus, kūrimo. Tai lemia spartus tekstinės informacijos augimas visuomenėje, taip pat ir internete, ir būtinybė automatiškai apdoroti tekstus natūralia kalba (NL). Ši aplinkybė skatina kompiuterinės lingvistikos, kaip mokslo srities, raidą ir naujų informacinių bei kalbinių technologijų vystymąsi.

Kompiuterinės lingvistikos, kuri gyvuoja daugiau nei 50 metų (ir dar vadinama mašinų lingvistika, automatinis teksto apdorojimas NL) buvo pasiūlyta daug perspektyvių metodų ir idėjų, tačiau ne visos jos dar rado savo išraišką praktikoje naudojamuose programinės įrangos produktuose. Mūsų tikslas – apibūdinti šios mokslinių tyrimų srities specifiką, suformuluoti pagrindinius jos uždavinius, nurodyti sąsajas su kitais mokslais, trumpai apžvelgti pagrindinius metodus ir naudojamus išteklius, taip pat trumpai apibūdinti esamas CL taikymo sritis. Norėdami išsamiau susipažinti su šiais klausimais, galime rekomenduoti knygas.

1. Kompiuterinės lingvistikos problemos

Kompiuterinė lingvistika atsirado tokių mokslų, kaip lingvistika, matematika, informatika (Computer Science) ir dirbtinis intelektas, sankirtoje. CL ištakos siekia žymaus amerikiečių mokslininko N. Chomsky tyrinėjimus natūralios kalbos struktūros formalizavimo srityje; jos raida remiasi rezultatais bendrosios kalbotyros (lingvistikos) srityje. Kalbotyra tiria bendruosius natūralios kalbos dėsnius – jos struktūrą ir funkcionavimą ir apima šias sritis:

Ø Fonologija– tiria kalbos garsus ir jų jungimo taisykles kalbos formavimosi metu;

Ø Morfologija– nagrinėja kalbos žodžių vidinę sandarą ir išorinę formą, įskaitant kalbos dalis ir jų kategorijas;

Ø Sintaksė– tiria sakinių struktūrą, žodžių suderinamumo ir tvarkos sakinyje taisykles, taip pat jo, kaip kalbos vieneto, bendrąsias savybes.

Ø Semantikair pragmatika– glaudžiai susijusios sritys: semantika nagrinėja žodžių, sakinių ir kitų kalbos vienetų reikšmę, o pragmatika – šios reikšmės išreiškimo ypatumus, susijusius su konkrečiais komunikacijos tikslais;

Ø Leksikografija aprašoma konkrečios NL leksika – atskiri jos žodžiai ir jų gramatinės savybės, taip pat žodynų kūrimo būdai.

N. Chomsky rezultatai, gauti lingvistikos ir matematikos sankirtoje, padėjo pagrindą formaliųjų kalbų ir gramatikos teorijai (dažnai vadinamai generatyvinis, arba generuojantys gramatikai). Ši teorija dabar taikoma matematinė lingvistika ir naudojamas apdoroti ne tiek NL, kiek dirbtines kalbas, pirmiausia programavimo kalbas. Pagal savo pobūdį tai yra visiškai matematinė disciplina.

Matematinė lingvistika taip pat apima kiekybinė kalbotyra, kuri tiria kalbos dažnines charakteristikas – žodžius, jų junginius, sintaksines struktūras ir kt., ir taiko matematinius statistikos metodus, todėl šią mokslo šaką galima pavadinti statistine kalbotyra.

CL taip pat glaudžiai susijusi su tokia tarpdisciplinine mokslo sritimi kaip dirbtinis intelektas (DI), kurios ribose kuriami atskirų intelektinių funkcijų kompiuteriniai modeliai. Viena pirmųjų darbo programų AI ir CL srityje yra garsioji T. Winograd programa, kuri suprato paprasčiausius žmogaus įsakymus pakeisti kubų pasaulį, suformuluotus ribotame NL pogrupyje. Atkreipkite dėmesį, kad nepaisant akivaizdaus CL ir AI tyrimų sankirtos (kadangi kalbos mokėjimas yra susijęs su intelektinėmis funkcijomis), AI nesugeria visos CL, nes turi savo teorinį pagrindą ir metodiką. Šie mokslai turi bendrą tai, kad kompiuterinis modeliavimas yra pagrindinis tyrimo metodas ir galutinis tikslas.

Taigi CL uždavinys gali būti suformuluotas kaip kompiuterinių programų, skirtų automatiniam tekstų apdorojimui NL kalba, kūrimas. Ir nors apdorojimas suprantamas gana plačiai, ne visas apdorojimo rūšis galima vadinti kalbiniu, o atitinkamus perdirbėjus – kalbiniais. Kalbinis procesorius turi naudoti vieną ar kitą formalųjį kalbos modelį (net ir labai paprastą), vadinasi, jis vienaip ar kitaip turi būti priklausomas nuo kalbos (t.y. priklausyti nuo konkrečios NL). Taigi, pavyzdžiui, „Mycrosoft Word“ teksto rengyklė gali būti vadinama kalbine (jei tik todėl, kad ji naudoja žodynus), tačiau „Notepad“ redaktorius negali.

CL užduočių sudėtingumą lemia tai, kad NL yra sudėtinga kelių lygių ženklų sistema, atsiradusi informacijos mainams tarp žmonių, sukurta žmogaus praktinės veiklos procese ir nuolat besikeičianti, susijusi su šia veikla. Kitas sunkumas kuriant CL metodus (ir sunkumas studijuojant NL kalbotyros rėmuose) yra susijęs su natūralių kalbų įvairove, reikšmingais jų žodyno, morfologijos, sintaksės skirtumais suteikia skirtingus būdus išreikšti tą pačią reikšmę .

2. NL sistemos ypatybės: lygiai ir jungtys

Kalbinių procesorių objektas yra NL tekstai. Tekstai suprantami kaip bet kokie kalbos pavyzdžiai – žodinė ir rašytinė, bet kokio žanro, tačiau daugiausia CL laiko rašytiniais tekstais. Tekstas turi vienmatę, linijinę struktūrą, taip pat turi tam tikrą prasmę, o kalba veikia kaip priemonė perduodamą prasmę paversti tekstais (kalbos sintezė) ir atvirkščiai (kalbos analizė). Tekstas susideda iš mažesnių vienetų, todėl yra keletas galimų teksto skaidymo (suskirstymo) į vienetus, priklausančius skirtingiems lygiams, būdai.

Šių lygių buvimas yra visuotinai priimtas:

· pasiūlymų (pareiškimų) lygis – sintaksinis lygis;

· Leksikomorfologinis homonimija (labiausiai paplitęs tipas) atsiranda, kai sutampa dviejų skirtingų leksemų žodžių formos, pvz. eilėraštis– veiksmažodis vienaskaitoje, vyriškoje giminėje ir daiktavardis vienaskaitoje, vardininko giminėje),

· Sintaksinė homonimija reiškia sintaksinės struktūros dviprasmiškumą, dėl kurio atsiranda keletas interpretacijų: Studentai iš Lvovo išvyko į Kijevą,Skraidymas lėktuvai gali būti pavojingas(garsus Chomsky pavyzdys) ir kt.

3. Modeliavimas kompiuterinėje lingvistikoje

Lingvistinio procesoriaus (LP) kūrimas apima apdoroto NL teksto kalbinių savybių aprašymą, o šis aprašas organizuojamas kaip modelis kalba. Kaip ir modeliuojant matematikoje ir programavime, modelis suprantamas kaip tam tikra sistema, kuri parodo daugybę esminių modeliuojamo reiškinio savybių (t. y. SE) ir todėl turi struktūrinį ar funkcinį panašumą.

CL naudojami kalbos modeliai dažniausiai kuriami remiantis kalbininkų, tyrinėjant įvairius tekstus, sukurtomis teorijomis bei jų kalbine intuicija (savižiūra). Kokia yra CL modelių specifika? Galima išskirti šias savybes:

· Formalumas ir, galiausiai, algoritmizavimas;

· Funkcionalumas (modeliavimo tikslas – atkurti kalbos kaip „juodosios dėžės“ funkcijas, nesukuriant tikslaus žmogaus kalbos sintezės ir analizės modelio);

· Modelio bendrumas, t.y., atsižvelgiama į gana didelį tekstų rinkinį;

· Eksperimentinis pagrįstumas, kuris apima modelio testavimą įvairiuose tekstuose;

· Pasikliauti žodynais kaip privalomu modelio komponentu.

NL sudėtingumas, jo aprašymas ir apdorojimas lemia šio proceso padalijimą į atskirus etapus, atitinkančius kalbos lygius. Dauguma šiuolaikinių LP yra modulinio tipo, kuriuose kiekvienas kalbinės analizės ar sintezės lygis atitinka atskirą. procesoriaus modulis. Visų pirma, teksto analizės atveju atskiri LP moduliai atlieka:

Ø grafinė analizė, t.y. žodžių formų išryškinimas tekste (perėjimas nuo simbolių prie žodžių);

Ø Morfologinė analizė – perėjimas nuo žodžių formų prie jų lemos(leksemų žodyninės formos) arba pagrindai(branduolinės žodžio dalys, atėmus linksniavimo morfemas);

Ø Sintaksinė analizė, t.y. teksto sakinių gramatinės struktūros nustatymas;

Ø Semantinė ir pragmatinė analizė, kuri nustato frazių reikšmę ir atitinkamą sistemos, kurioje veikia LP, reakciją.

Galimos skirtingos šių modulių sąveikos schemos (nuoseklus veikimas arba lygiagreti pertraukiama analizė), tačiau atskiri lygmenys – morfologija, sintaksė ir semantika vis dar apdorojami skirtingais mechanizmais.

Taigi LP galima laikyti daugiapakopiu konverteriu, kuris teksto analizės atveju kiekvieną jo sakinį paverčia vidiniu jo reikšmės reprezentavimu ir atvirkščiai – sintezės atveju. Galima iškviesti atitinkamą kalbos modelį struktūrinės.

Nors pilni CL modeliai reikalauja atsižvelgti į visus pagrindinius kalbos lygius ir atitinkamų modulių buvimą, sprendžiant kai kurias taikomąsias problemas galima apsieiti ir be atskirų lygių vaizdavimo LP. Pavyzdžiui, ankstyvosiose eksperimentinėse CL programose apdoroti tekstai priklausė labai siauroms probleminėms sritims (su ribotu žodžių rinkiniu ir griežta jų tvarka), todėl jų pradines raides buvo galima naudoti žodžiams atpažinti, praleidžiant morfologinius ir sintaksinius etapus. analizė.

Kitas dabar gana dažnai naudojamas sumažinto modelio pavyzdys yra simbolių ir jų kombinacijų (bigramų, trigramų ir kt.) dažnumo kalbos modelis konkrečios NL tekstuose. Tokie statistinis modelis atvaizduoja kalbinę informaciją teksto simbolių (raidžių) lygyje, ir jos pakanka, pavyzdžiui, nustatyti teksto rašybos klaidas arba atpažinti jo kalbinį tapatumą. Panašus modelis, pagrįstas atskirų žodžių ir jų atsiradimo tekstuose statistika (žodžių bigramos, trigramos), naudojamas, pavyzdžiui, norint išspręsti leksinę dviprasmybę arba nustatyti žodžio kalbos dalį (tokiomis kalbomis kaip anglų ).

Atkreipkite dėmesį, kad tai įmanoma struktūriniai-statistiniai modeliai, kuriame, reprezentuojant atskirus NL lygius, atsižvelgiama į vienokius ar kitokius statistinius duomenis - žodžius, sintaksines struktūras ir kt.

Modulinio tipo LP kiekviename teksto analizės ar sintezės etape naudojamas atitinkamas modelis (morfologija, sintaksė ir kt.).

CL egzistuojantys žodžių formų analizės morfologiniai modeliai daugiausia skiriasi šiais parametrais:

· darbo rezultatas - lema ar kamienas su tam tikros žodžio formos morfologinių požymių rinkiniu (lytis, skaičius, atvejis, aspektas, asmuo ir kt.);

· analizės metodas – pagrįstas kalbos žodžių formų žodynu arba pagrindų žodynu, arba bežodyno metodas;

· gebėjimas apdoroti į žodyną neįtrauktos leksemos žodinę formą.

Morfologinėje sintezėje pradiniai duomenys yra šios leksemos prašomos žodžio formos leksema ir specifinės morfologinės charakteristikos, taip pat galimas prašymas sintezuoti visas tam tikros leksemos formas. Tiek morfologinės analizės, tiek sintezės rezultatas paprastai yra dviprasmiškas.

Sintaksės modeliavimui CL rėmuose buvo pasiūlyta daug įvairių idėjų ir metodų, kurie skiriasi kalbos sintaksės aprašymu, šios informacijos panaudojimo būdu analizuojant ar sintezuojant NL sakinį, kaip taip pat sakinio sintaksinės struktūros vaizdavimo būdas. Gana tradiciškai galima išskirti tris pagrindinius modelių kūrimo būdus: generatyvųjį, grįžtantį prie Chomsky idėjų, požiūrį, grįžtantį prie I. Melchuko idėjų ir atstovaujamą modelio „Prasmė-tekstas“, taip pat požiūris, kurio metu tam tikri bandymai įveikti pirmųjų dviejų požiūrių, ypač sintaksinių grupių teorijos, apribojimus.

Taikant generatyvųjį metodą, sintaksinė analizė dažniausiai atliekama remiantis formalia be konteksto gramatika, apibūdinančia sakinio frazinę struktūrą, arba remiantis tam tikru bekontekstinės gramatikos išplėtimu. Šios gramatikos yra pagrįstos nuosekliu linijiniu sakinio padalijimu į frazes (sintaksines konstrukcijas, pavyzdžiui, daiktavardžių frazes), todėl vienu metu atspindi ir jo sintaksinę, ir linijinę struktūrą. Aprašoma analizės metu gauto NL sakinio hierarchinė sintaksinė struktūra komponentų medis, kurio lapuose yra sakinio žodžiai, pomedžiai atitinka sakinyje esančias sintaksines konstrukcijas (frazes), o lankai išreiškia konstrukcijų lizdinius ryšius.

Nagrinėjamas metodas gali apimti tinklo gramatikas, kurios yra ir kalbos sistemai apibūdinti skirtas aparatas, ir sakinių analizės procedūrai nurodyti, remiantis baigtinių būsenų mašinos, pavyzdžiui, išplėstinio pereinamojo tinklo ATN, koncepcija.

Taikant antrąjį metodą, naudojamas labiau vaizdinis ir įprastas metodas sakinio sintaksinei struktūrai pavaizduoti - priklausomybės medžiai. Medžio mazguose yra sakinio žodžiai (šaknis dažniausiai yra veiksmažodžio predikatas), o kiekvienas medžio lankas, jungiantis mazgų porą, yra interpretuojamas kaip sintaksinis pavaldūs ryšį tarp jų, o jungties kryptis atitinka nurodyto lanko kryptį. Kadangi šiuo atveju žodžių sintaksės ryšiai ir žodžių tvarka sakinyje yra atskirti, tai, remiantis subordinacijos medžiais, laužomi ir neprojektinis konstrukcijos, kurios gana dažnai pasitaiko kalbose su laisva žodžių tvarka.

Komponentiniai medžiai labiau tinka kalboms apibūdinti griežta žodžių tvarka, vaizduojantys laužytas ir neprojektines konstrukcijas, todėl reikia išplėsti naudojamą gramatinį formalizmą. Tačiau šio požiūrio rėmuose natūraliau aprašomos konstrukcijos su nepavaldiniais santykiais. Tuo pačiu metu bendras abiejų požiūrių sunkumas yra vienarūšių sakinio narių atvaizdavimas.

Sintaksiniai modeliai visais požiūriais stengiasi atsižvelgti į kalbos vienetų jungimosi kalboje apribojimus, tuo tarpu vienaip ar kitaip vartojama valentingumo sąvoka. Valencija- tai žodžio ar kito kalbos vieneto gebėjimas tam tikru sintaksiniu būdu sujungti kitus vienetus; aktantas yra žodis arba sintaksinė konstrukcija, užpildanti šią valenciją. Pavyzdžiui, rusų kalbos veiksmažodis atiduoti turi tris pagrindinius valentumus, kuriuos galima išreikšti tokiais klausiamaisiais žodžiais: PSO? kam? Ką? Taikant generatyvųjį metodą, žodžių (pirmiausia veiksmažodžių) valencijos dažniausiai aprašomos specialių rėmelių pavidalu ( subkategorizavimas rėmeliai) , o taikant priklausomybės medžiais pagrįstą metodą – kaip valdymo modelius.

CL rėmuose kalbos semantikos modeliai yra mažiausiai išplėtoti. Sakinių semantinei analizei, vadinamosioms bylų gramatikoms ir semantiniai atvejai(valencija), kurios pagrindu sakinio semantika nusakoma tiek per pagrindinio žodžio (veiksmažodžio) ryšius su jo semantiniais aktantais, t.y per semantinius atvejus. Pavyzdžiui, veiksmažodis atiduoti apibūdinami semantiniais atvejais duodamas(agentas), adresatas Ir perdavimo objektas.

Norėdami pavaizduoti viso teksto semantiką, paprastai naudojami du logiškai lygiaverčiai formalizmai (abu jie yra išsamiai aprašyti AI sistemoje):

· Predikatų, išreiškiančių savybes, būsenas, procesus, veiksmus ir ryšius, skaičiavimo formulės;

· Semantiniai tinklai – tai pažymėti grafikai, kuriuose viršūnės atitinka sąvokas, o viršūnės – ryšius tarp jų.

Kalbant apie pragmatikos ir diskurso modelius, leidžiančius apdoroti ne tik atskirus sakinius, bet ir visą tekstą, juos konstruojant daugiausia pasitelkiamos Van Dycko idėjos. Vienas iš retų ir sėkmingų modelių yra nuoseklių tekstų diskursyvinės sintezės modelis. Tokie modeliai turi atsižvelgti į anaforines nuorodas ir kitus diskurso lygio reiškinius.

Baigdami kalbos modelių apibūdinimą CL rėmuose, pasilikime šiek tiek išsamiau prie kalbinių modelių teorijos „Pramė-tekstas“, kurios rėmuose atsirado daug vaisingų idėjų, kurios pralenkė savo laiką ir yra vis dar aktualus ir šiandien.

Remiantis šia teorija, NL yra laikomas specialia transformatoriaus rūšimi, kuri duotas reikšmes perdirba į atitinkamus tekstus ir duotus tekstus į atitinkamas reikšmes. Reikšmė suprantama kaip visų sinoniminių teksto transformacijų invariantas. Nuoseklios kalbos fragmento turinys, neskirstant į frazes ir žodžių formas, rodomas kaip specialus semantinis vaizdas, susidedantis iš dviejų komponentų: semantinis grafikas ir informacija apie komunikacinis prasmės organizavimas.

Reikėtų nurodyti išskirtinius teorijos bruožus:

o orientacija į tekstų sintezę (pagrindiniu kalbinės kompetencijos kriterijumi laikomas gebėjimas generuoti teisingus tekstus);

o daugiapakopis, modulinis modelio pobūdis, kai pagrindiniai kalbos lygiai skirstomi į paviršinius ir giluminius: jie skiriasi, pvz. giliai(semantizuota) ir paviršius(„grynoji“) sintaksė, taip pat paviršiaus morfologinis ir giluminis morfologinis lygiai;

o integralus kalbos modelio pobūdis; kiekviename lygyje pateiktos informacijos saugojimas atitinkamo modulio, atliekant perėjimą iš šio lygio į kitą;

o specialios sintaktikos aprašymo priemonės (vienetų sujungimo taisyklės) kiekviename lygyje; leksiniam suderinamumui aprašyti buvo pasiūlytas rinkinys leksinės funkcijos, kurio pagalba formuluojamos sintaksės parafrazės taisyklės;

o akcentuojamas žodynas, o ne gramatika; žodyne saugoma informacija, susijusi su skirtingais kalbos lygiais; visų pirma sintaksinei analizei naudojami žodžių valdymo modeliai, apibūdinantys jų sintaksines ir semantines valentybes.

Ši teorija ir kalbos modelis yra įkūnyti ETAP mašininio vertimo sistemoje.

4. Kalbiniai ištekliai

Kuriant kalbinius procesorius reikia tinkamai pateikti lingvistinę informaciją apie apdorotą kalbą. Ši informacija rodoma įvairiuose kompiuteriniuose žodynuose ir gramatikose.

Žodynai yra tradiciškiausia leksinės informacijos vaizdavimo forma; jie skiriasi savo vienetais (dažniausiai žodžiais ar frazėmis), struktūra ir žodyno aprėptimi (konkrečios probleminės srities terminų žodynai, bendrojo žodyno žodynai ir kt.). Žodyno vienetas vadinamas žodyno įrašas, jame pateikiama informacija apie prieigos raktą. Leksiniai homonimai dažniausiai pateikiami skirtinguose žodyno įrašuose.

Labiausiai paplitę CL yra morfologiniai žodynai, naudojami morfologinei analizei. Jų žodyno įraše pateikiama morfologinė informacija apie atitinkamą žodį – kalbos dalis, linksniavimo klasė (linksniavimo kalboms), žodžių reikšmių sąrašas ir kt. Priklausomai nuo žodyno organizavimo; lingvistinis procesorius į žodyną taip pat gali būti įtraukta gramatinė informacija, pavyzdžiui, žodžių valdymo modeliai.

Yra žodynų, kuriuose pateikiama platesnė informacija apie žodžius. Pavyzdžiui, kalbinis modelis „prasmė-tekstas“ labai remiasi aiškinamasis kombinacinis žodynas, kurio žodyno įraše, be morfologinės, sintaksinės ir semantinės informacijos (sintaksinės ir semantinės valencijos), pateikiama informacija apie šio žodžio leksinį suderinamumą.

Naudojami keli kalbiniai procesoriai sinonimų žodynai. Palyginti naujo tipo žodynas - paronimų žodynai, t.y. išoriškai panašūs žodžiai, kurių reikšmė skiriasi, pavyzdžiui, svetimas Ir ateivis, redagavimas Ir nuoroda .

Kitas leksinių išteklių tipas yra frazių duomenų bazės, kuriame parenkamos tipiškiausios konkrečios kalbos frazės. Ši rusų kalbos frazių duomenų bazė (apie milijoną vienetų) sudaro CrossLexica sistemos branduolį.

Sudėtingesni leksinių išteklių tipai tezaurai ir ontologijos. Tezauras – tai semantinis žodynas, t.y. žodynas, kuriame pateikiami žodžių semantiniai ryšiai – sinoniminiai, genties tipo ryšiai (kartais vadinami aukščiau – žemiau santykiu), dalis visuma, asociacijos. Tezaurų sklaida siejama su informacijos paieškos problemų sprendimu.

Su tezauro sąvoka glaudžiai susijusi ontologijos sąvoka. Ontologija yra tam tikros žinių srities sąvokų ir subjektų rinkinys, orientuotas į pakartotinį panaudojimą įvairioms užduotims atlikti. Ontologijos gali būti sukurtos remiantis esamu kalbos žodynu – šiuo atveju jos vadinamos lingvistinės Ir.

Panašia lingvistine ontologija laikoma WordNet sistema – didelis leksinis šaltinis, kuriame yra anglų kalbos žodžių: daiktavardžių, būdvardžių, veiksmažodžių ir prieveiksmių bei pateikiami kelių tipų semantiniai jų ryšiai. Kiekvienai nurodytai kalbos daliai žodžiai sugrupuojami į sinonimų grupes ( sinsetai), tarp kurių užsimezga antonimijos, hiponimijos (genties ir rūšies santykis), meronimijos (visos dalies santykis) santykiai. Ištekliuje yra apytiksliai 25 tūkstančiai žodžių, hierarchijos lygių skaičius genties ir rūšies santykiams yra vidutiniškai 6-7, kartais siekia 15. Aukščiausias hierarchijos lygis sudaro bendrą ontologiją – pagrindinių pasaulio sampratų sistemą.

Remiantis anglų kalbos WordNet schema, buvo sukurti panašūs leksiniai ištekliai kitoms Europos kalboms, sujungti bendru pavadinimu EuroWordNet.

Visiškai kitokio tipo kalbiniai ištekliai yra NL gramatika, kurio tipas priklauso nuo procesoriuje naudojamo sintaksės modelio. Pirma, gramatika yra taisyklių rinkinys, išreiškiantis bendrąsias žodžių ir žodžių grupių sintaksines savybes. Bendras gramatikos taisyklių skaičius taip pat priklauso nuo sintaksės modelio – nuo kelių dešimčių iki kelių šimtų. Iš esmės čia iškyla gramatikos ir žodyno santykio kalbos modelyje problema: kuo daugiau informacijos pateikiama žodyne, tuo gramatika gali būti trumpesnė ir atvirkščiai.

Atkreipkite dėmesį, kad kompiuterinių žodynų, tezaurų ir gramatikų kūrimas yra didelis ir daug darbo reikalaujantis darbas, kartais net daug darbo reikalaujantis nei kalbinio modelio ir atitinkamo procesoriaus kūrimas. Todėl vienas iš pavaldžių CL uždavinių yra kalbinių išteklių konstravimo automatizavimas.

Kompiuteriniai žodynai dažnai formuojami konvertuojant įprastus tekstinius žodynus, tačiau jų kūrimas dažnai reikalauja daug sudėtingesnio ir kruopštesnio darbo. Dažniausiai taip nutinka kuriant žodynus ir tezaurus sparčiai besivystančioms mokslo sritims – molekulinei biologijai, informatikai ir kt. Išgavimo reikalinga lingvistinė medžiaga gali būti kolekcijos ir teksto korpusai.

Tekstų korpusas – tai pagal tam tikrą reprezentatyvumo principą (pagal žanrą, autorystę ir pan.) surinktų tekstų rinkinys, kuriame visi tekstai yra pažymėti, tai yra, aprūpinti tam tikrais kalbiniais ženklais (anotacijomis) – morfologiniais, akcentiniais, sintaksė ir kt. n. Šiuo metu yra mažiausiai šimtas skirtingų korpusų, skirtų skirtingoms kalboms ir su skirtingais ženklais, garsiausias yra rusų kalbos korpusas.

Paženklinti korpusai yra sukurti kalbininkų ir naudojami tiek lingvistiniams tyrimams, tiek CL naudojamų modelių ir procesorių derinimui (mokymui), naudojant gerai žinomus matematinius mašininio mokymosi metodus. Taigi mašininis mokymasis naudojamas leksinio dviprasmiškumo sprendimo, kalbos dalių atpažinimo ir anaforinių nuorodų sprendimo metodams konfigūruoti.

Kadangi korpusai ir tekstų rinkiniai visada yra riboti juose reprezentuojamų kalbinių reiškinių atžvilgiu (be to, korpusai sukuriami gana ilgai), pastaruoju metu internetiniai tekstai vis dažniau laikomi pilnesniu kalbiniu šaltiniu. Žinoma, internetas yra reprezentatyviausias šiuolaikinių kalbos pavyzdžių šaltinis, tačiau jo kaip korpuso naudojimas reikalauja specialių technologijų kūrimo.

5. Kompiuterinės lingvistikos taikymai

Kompiuterinės lingvistikos taikymo sritis nuolat plečiasi, todėl čia charakterizuosime žinomiausias taikomąsias problemas, sprendžiamas jos priemonėmis.

Mašininis vertimas– ankstyviausias CL pritaikymas, su kuriuo kilo ir vystėsi pati ši sritis. Pirmosios vertimo programos buvo sukurtos daugiau nei prieš 50 metų ir buvo pagrįstos paprasta vertimo po žodžio strategija. Tačiau greitai buvo suprasta, kad mašininiam vertimui reikalingas išsamus kalbinis modelis, kuriame būtų atsižvelgiama į visus kalbos lygius, iki pat semantikos ir pragmatikos, o tai ne kartą stabdė šios srities plėtrą. Gana išsamus modelis naudojamas vidaus ETAP sistemoje, kuri verčia mokslinius tekstus iš prancūzų į rusų kalbą.

Tačiau atkreipkite dėmesį, kad verčiant į giminingą kalbą, pavyzdžiui, verčiant iš ispanų į portugalų arba iš rusų į ukrainiečių (kurie sintaksė ir morfologija turi daug bendro), procesorius gali būti įdiegtas remiantis supaprastinta modelį, pavyzdžiui, naudojant tą pačią vertimo po žodžio strategiją.

Šiuo metu yra daugybė kompiuterinių vertimo sistemų (įvairios kokybės), nuo didelių tarptautinių mokslinių tyrimų projektų iki komercinių automatinių vertėjų. Didelį susidomėjimą kelia daugiakalbiai vertimo projektai, kuriuose naudojama tarpinė kalba, kuria užkoduota išverstų frazių reikšmė. Kita moderni kryptis – statistinis vertimas, paremtas žodžių ir frazių vertimo statistika (šios idėjos, pavyzdžiui, įgyvendinamos Google paieškos sistemos vertėjuje).

Tačiau nepaisant daugelio dešimtmečių plėtros visoje šioje srityje, apskritai mašininio vertimo problema dar labai toli iki galo išspręsta.

Kitas gana senas kompiuterinės lingvistikos pritaikymas yra informacijos paieška ir susijusias dokumentų indeksavimo, abstrahavimo, klasifikavimo ir rubrikavimo užduotis.

Visatekstė dokumentų paieška didelėse dokumentų (pirmiausia mokslinių, techninių, verslo) duomenų bazėse dažniausiai atliekama remiantis jų ieškoti vaizdų, turėdami omenyje rinkinį raktinius žodžius– žodžiai, atspindintys pagrindinę dokumento temą. Iš pradžių raktiniais žodžiais buvo laikomi tik atskiri NL žodžiai, o paieška buvo atlikta neatsižvelgiant į jų linksnį, o tai nekritiška silpnai linksniuotoms kalboms, tokioms kaip anglų. Linksnioms kalboms, pavyzdžiui, rusų, reikėjo naudoti morfologinį modelį, kuriame atsižvelgiama į linksniavimą.

Paieškos užklausa taip pat buvo pateikta kaip žodžių rinkinys, pagal užklausos panašumą ir dokumento paieškos vaizdą. Dokumento paieškos vaizdo kūrimas apima indeksavimas jo tekstas, t.y. jame išryškinami pagrindiniai žodžiai. Kadangi labai dažnai dokumento temą ir turinį kur kas tiksliau atspindi ne atskiri žodžiai, o frazės, frazes imta laikyti raktiniais žodžiais. Tai labai apsunkino dokumentų indeksavimo procedūrą, nes norint pasirinkti reikšmingas teksto frazes, reikėjo naudoti įvairius statistinių ir kalbinių kriterijų derinius.

Tiesą sakant, informacijos paieška daugiausia naudojama vektorinio teksto modelis(kartais vadinamas krepšys iš žodžius– žodžių maišelis), kuriame dokumentas vaizduojamas kaip jo raktinių žodžių vektorius (aibė). Šiuolaikinės interneto paieškos sistemos taip pat naudoja šį modelį, indeksuodamos tekstus pagal juose vartojamus žodžius (tuo pačiu metu jos naudoja labai sudėtingas reitingavimo procedūras atitinkamiems dokumentams grąžinti).

Nurodytas teksto modelis (su tam tikromis komplikacijomis) taip pat naudojamas toliau aptariamoms susijusioms informacijos paieškos problemoms spręsti.

Apibendrinantis tekstas– sumažinti jo apimtį ir gauti jos santrauką – abstrakčią (sutrumpintą turinį), kas pagreitina paiešką dokumentų rinkiniuose. Taip pat galima sudaryti kelių su tema susijusių dokumentų bendrą santrauką.

Pagrindinis automatinio abstrahavimo būdas vis dar yra reikšmingiausių abstrahuojamo teksto sakinių parinkimas, kuriam dažniausiai pirmiausia apskaičiuojami teksto raktiniai žodžiai ir apskaičiuojamas teksto sakinių reikšmingumo koeficientas. Reikšmingų sakinių parinkimą apsunkina anaforiniai sakinių ryšiai, kurių laužymas yra nepageidautinas - šiai problemai spręsti kuriamos tam tikros sakinių parinkimo strategijos.

Abstrahavimui artima užduotis yra anotacija dokumento tekstas, t.y. jo anotacijos surašymas. Paprasčiausia santrauka yra pagrindinių teksto temų, kurias galima nustatyti naudojant indeksavimo procedūras, sąrašas.

Kuriant didelius dokumentų rinkinius, aktualios šios užduotys: klasifikacijos Ir grupavimas tekstus, siekiant sukurti su tema susijusių dokumentų klases. Klasifikavimas reiškia kiekvieno dokumento priskyrimą konkrečiai klasei su iš anksto žinomais parametrais, o grupavimas – dokumentų rinkinio padalijimą į grupes, t.y. tematiškai panašių dokumentų pogrupius. Šioms problemoms spręsti naudojami mašininio mokymosi metodai, todėl šios taikomosios problemos vadinamos teksto gavyba ir priklauso mokslo krypčiai, žinomai kaip duomenų gavyba arba duomenų gavyba.

Problema labai artima klasifikacijai rubrikavimas tekstas – jo priskyrimas vienai iš anksčiau žinomų teminių antraščių (dažniausiai antraštės sudaro hierarchinį temų medį).

Klasifikavimo problema vis labiau plinta, ji sprendžiama, pavyzdžiui, atpažįstant el. pašto šiukšles, o palyginti nauja taikymas yra SMS žinučių klasifikavimas mobiliuosiuose įrenginiuose. Nauja ir aktuali bendros informacijos paieškos problemos tyrimo kryptis – daugiakalbė dokumentų paieška.

Kita palyginti nauja užduotis, susijusi su informacijos paieška, yra generuoti atsakymus į klausimus(Atsakymas į klausimą). Ši problema išspręsta nustačius klausimo tipą, ieškant tekstų, kuriuose gali būti atsakymas į šį klausimą, ir iš šių tekstų išgaunant atsakymą.

Visai kita taikoma kryptis, kuri, nors ir lėtai, bet nuosekliai, vystosi paruošimo ir redagavimo automatizavimas tekstai EA. Viena iš pirmųjų programų šia kryptimi buvo programos, skirtos automatiškai nustatyti žodžių brūkšnelius ir teksto rašybos programos (rašybos arba automatiniai taisikliai). Nepaisant akivaizdaus perdavimo problemos paprastumo, teisingam daugelio kalbų (pavyzdžiui, anglų) sprendimui reikia žinoti atitinkamos kalbos žodžių morfeminę struktūrą, taigi ir atitinkamą žodyną.

Rašybos tikrinimas jau seniai įdiegtas komercinėse sistemose ir remiasi atitinkamu žodynu bei morfologijos modeliu. Taip pat naudojamas nepilnas sintaksės modelis, kurio pagrindu nustatomos visos gana dažnai pasitaikančios sintaksės klaidos (pvz., žodžių susitarimo klaidos). Tuo pačiu metu automatiniai korektoriai dar neįdiegė sudėtingesnių klaidų, pavyzdžiui, netinkamo prielinksnių vartojimo, aptikimo. Taip pat neaptinkama daug leksinių klaidų, ypač klaidų, atsirandančių dėl rašybos klaidų arba neteisingo panašių žodžių vartojimo (pvz., svorio vietoj svarios). Šiuolaikiniai CL tyrimai siūlo automatizuoto tokių klaidų, taip pat kai kurių kitų stilistinių klaidų aptikimo ir taisymo metodus. Šie metodai naudoja statistinius duomenis apie žodžių ir frazių atsiradimą.

Taikomoji užduotis, artima tekstų rengimui natūralios kalbos mokymas, pagal šią kryptį dažnai kuriamos kompiuterinės kalbų mokymo sistemos - anglų, rusų ir kt. (panašių sistemų galima rasti internete). Paprastai šios sistemos palaiko atskirų kalbos aspektų (morfologijos, žodyno, sintaksės) tyrimą ir yra pagrįstos atitinkamais modeliais, pavyzdžiui, morfologijos modeliu.

Kalbant apie žodyno mokymąsi, tam naudojami ir elektroniniai tekstinių žodynų analogai (kurie iš esmės neturi kalbos modelių). Tačiau kuriami ir daugiafunkciniai kompiuteriniai žodynai, kurie neturi teksto analogų ir yra skirti plačiam vartotojų ratui – pavyzdžiui, rusiškų frazių žodynas Crosslexics. Ši sistema apima platų žodyno spektrą – žodžius ir jų priimtinus žodžių junginius, taip pat teikia pagalbą dėl žodžių valdymo modelių, sinonimų, antonimų ir kitų semantinių žodžių koreliacijų, o tai akivaizdžiai naudinga ne tik besimokantiems rusų kalbos, bet ir taip pat gimtakalbiams.

Kita taikymo sritis, kurią verta paminėti automatinė generacija tekstai EA. Iš esmės šią užduotį galima laikyti jau aptartos mašininio vertimo užduoties dalimi, tačiau krypties rėmuose yra keletas specifinių užduočių. Tokia užduotis yra kelių kalbų generavimas, ty automatinis specialių dokumentų kūrimas keliomis kalbomis - patentų formulės, techninių produktų ar programinės įrangos sistemų naudojimo instrukcijos, remiantis jų specifikacijomis oficialia kalba. Norėdami išspręsti šią problemą, naudojami gana išsamūs kalbų modeliai.

Vis aktualesnė taikomoji problema, dažnai vadinama teksto gavyba, yra informacijos išgavimas iš tekstų, arba Informacijos ištraukimas, reikalingas sprendžiant ekonominės ir gamybos analitikos problemas. Tam NL teste identifikuojami tam tikri objektai – įvardijami subjektai (vardai, asmenybės, geografiniai pavadinimai), jų santykiai ir su jais susiję įvykiai. Paprastai tai įgyvendinama remiantis daliniu teksto analizavimu, kuris leidžia apdoroti naujienų srautus iš naujienų agentūrų. Kadangi užduotis yra gana sudėtinga ne tik teoriškai, bet ir technologiškai, komercinėse įmonėse įmanoma sukurti reikšmingas informacijos iš tekstų išgavimo sistemas.

Teksto gavybos sritis taip pat apima dar dvi susijusias užduotis – nuomonių rinkimą (Opinion Mining) ir nuotaikų analizę (sentimentų analizė), kurios sulaukia vis didesnio tyrėjų skaičiaus. Pirmoji užduotis apima vartotojų nuomonių apie produktus ir kitus objektus paiešką (tinklaraščiuose, forumuose, internetinėse parduotuvėse ir kt.), taip pat šių nuomonių analizę. Antroji užduotis artima klasikinei masinės komunikacijos tekstų turinio analizės užduočiai, įvertina bendrą teiginių toną.

Dar viena programa, kurią verta paminėti dialogo palaikymas su EA vartotoju bet kokios informacinės programinės įrangos sistemoje. Dažniausiai ši problema buvo sprendžiama specializuotoms duomenų bazėms – šiuo atveju užklausos kalba yra gana ribota (leksiškai ir gramatiškai), o tai leidžia naudoti supaprastintus kalbos modelius. NL kalba suformuluotos užklausos į duomenų bazę verčiamos į formalią kalbą, po to ieškoma reikiamos informacijos ir sukonstruojama atitinkama atsakymo frazė.

Mes nurodome kaip paskutinę mūsų CL programų sąraše (bet ne mažiau svarbios). kalbos atpažinimas ir sintezė. Atpažinimo klaidos, kurios neišvengiamai atsiranda atliekant šias užduotis, taisomos automatiniais metodais, paremtais žodynais ir kalbinėmis morfologijos žiniomis. Šioje srityje taip pat bus naudojamas mašininis mokymasis.

Išvada

Kompiuterinė lingvistika demonstruoja gana apčiuopiamus rezultatus įvairiose automatinio teksto apdorojimo NL programose. Jo tolesnė plėtra priklauso tiek nuo naujų programų atsiradimo, tiek nuo savarankiško įvairių kalbos modelių kūrimo, kuriuose daugelis problemų dar neišspręstos. Labiausiai išplėtoti modeliai yra morfologinė analizė ir sintezė. Sintaksės modeliai dar nebuvo pasiekti stabilių ir efektyvių darbo modulių lygyje, nepaisant daugybės siūlomų formalizmų ir metodų. Dar mažiau tyrinėti ir formalizuoti yra semantikos ir pragmatikos lygmens modeliai, nors automatinis diskurso apdorojimas jau reikalingas daugelyje taikomųjų programų. Atkreipkite dėmesį, kad jau esamos kompiuterinės lingvistikos priemonės, mašininio mokymosi ir teksto korpusų naudojimas gali žymiai paspartinti šių problemų sprendimą.

Literatūra

1. Baeza-Yates, R. ir Ribeiro-Neto, B. Modern Information Retrieval, Adison Wesley, 1999 m.

2. Bateman, J., Zock M. Natural Language Generation. In: The Oxford Handbook of Computational Linguistics. Mitkovas R. (red.). Oxford University Press, 2003, p.304.

3. Biber, D., Conrad S. ir Reppen D. Corpus Linguistics. Kalbos struktūros ir vartojimo tyrimas. Cambridge University Press, Kembridžas, 1998 m.

4. Bolšakovas, I. A., Gelbukh putational Linguistics. Modeliai, ištekliai, programos. Meksika, IPN, 2004 m.

5. Brown P., Pietra S., Mercer R., Pietra V. Statistinio mašininio vertimo matematika. // Kompiuterinė kalbotyra, t. 19(2): 263-3

6. Carrollas J. R. Parsingas. In: The Oxford Handbook of Computational Linguistics. Mitkovas R. (red.). Oxford University Press, 2003, p. 233-248.

7. Chomsky, N. Sintaksinės struktūros. Haga: Mouton, 1957 m.

8. Grishman R. Informacijos išgavimas. In: The Oxford Handbook of Computational Linguistics. Mitkovas R. (red.). Oxford University Press, 2003, p. 545-559.

9. Harabagiu, S., Moldovan D. Atsakymas į klausimus. In: The Oxford Handbook of Computational Linguistics. Mitkovas R. (red.). Oxford University Press, 2003, p. 560-582.

10. Hearst, M. A. Automatizuotas WordNet ryšių atradimas. In: Fellbaum, C. (red.) WordNet: An Electronic Lexical Database. MIT Press, Cambridge, 1998, p.131-151.

11. Hirst, G. Ontologija ir leksika. In.: Ontologijų informacinėse sistemose vadovas. Berlynas, Springeris, 2003 m.

12. Jacquemin C., Bourigault D. Terminų ištraukimas ir automatinis indeksavimas // Mitkov R. (red.): Handbook of Computational Linguistics. Oxford University Press, 2003. p. 599-615.

13. Kilgarriff, A., G. Grefenstette. Specialiosios interneto problemos kaip tariamosios kalbotyros įvadas, V. 29, Nr. 3, 2003, p. 333-347.

14. Manningas, Ch. D., H. Schütze. Statistinio natūralios kalbos apdorojimo pagrindai. MIT Press, 1999 m.

15. Matsumoto Y. Leksikos žinių įgijimas. In: The Oxford Handbook of Computational Linguistics. Mitkovas R. (red.). Oxford University Press, 2003, p. 395-413.

16. „Oxford Handbook on Computational Linguistics“. R. Mitkovas (Red.). Oksfordo universiteto leidykla, 2005 m.

17. Oakes, M., Paice C. D. Terminas ekstrahavimas automatiniam abstrahavimui. Naujausi skaičiavimo terminų pasiekimai. D. Bourigault, C. Jacquemin ir M. L'Homme (red.), John Benjamins Publishing Company, Amsterdamas, 2001, p.353-370.

18. Pedersen, T. Bigramų sprendimų medis yra tikslus žodžio pojūčių numatytojas. Proc. 2-asis metinis NAC ACL susirinkimas, Pitsburgas, PA, 2001, p. 79-86.

19. Samuelsson C. Statistiniai metodai. In: The Oxford Handbook of Computational Linguistics. Mitkovas R. (red.). Oxford University Press, 2003, p. 358-375.

20. Salton, G. Automatinis teksto apdorojimas: informacijos transformavimas, analizė ir paieška kompiuteriu. Reading, MA: Addison-Wesley, 1988 m.

21. Somers, H. Mašininis vertimas: naujausi pokyčiai. In: The Oxford Handbook of Computational Linguistics. Mitkovas R. (red.). Oxford University Press, 2003, p. 512-528.

22. Strzalkowski, T. (red.) Natural Language Information Retrieval. Kluwer, 19p.

23. Woods W. A. Transition Network Grammers for Natural Language Analysis / Communications of the ACM, V. 13, 1970, N 10, p. 591-606.

24. Word Net: elektroninė leksikos duomenų bazė. / Christiane Fellbaum. Kembridžas, MIT Press, 1998 m.

25. Wu J., Yu-Chia Chang Y., Teruko Mitamura T., Chang J. Automatic Collocation Suggestion in Academic Writing // Proceedings of the ACL 2010 Conference Short Papers, 2010 m.

26. ir kt. ETAP-2 sistemos kalbinis palaikymas. M.: Nauka, 1989 m.

27. ir tt Duomenų analizės technologijos: duomenų gavyba, vizualinis gavyba, teksto gavyba, OLAP – 2 leidimas. – Sankt Peterburgas: BHV-Peterburgas, 2008 m.

28. Bolšakovas, Lexika - didelis elektroninis rusiškų žodžių junginių ir semantinių ryšių žodynas. //Komp. lingvistika ir intelektas. technologija: Proceedings int. Konf. „Dialogas 2009“. Numeris: Rusijos valstybinis humanitarinis universitetas, 2009, p. 45-50.

29. Bolšakova E.I., Bolšakovo aptikimas ir automatizuota rusų malapropizmų korekcija // NTI. Ser. 2, 2007 Nr.5, 27-40 p.

30. Wang, Kinch V. Susieto teksto supratimo strategija // Naujiena užsienio kalbotyroje. t. XXIII– M., Pažanga, 1988, p. 153-211.

31. Vasiliev V. G., Krivenko M. P. Automatizuoto teksto apdorojimo metodai. – M.: IPI RAS, 2008.

32. Vinograd T. Natūralią kalbą suprantanti programa - M., Mir, 1976 m.

33. Sklandžios natūralios kalbos struktūros automatizuotose komunikacijos sistemose. – M., Nauka, 1985 m.

34. Gusev, V. D., Salomatina paronimų žodynas: versija 2. // NTI, Ser. 2, Nr. 7, 2001, p. 26-33.

35. Zacharovas - erdvė kaip kalbos korpusas // Kompiuterinė lingvistika ir intelektualinės technologijos: Tarptautinės darbai. Konferencijos dialogas ‘2005 / Red. , – M.: Nauka, 2005, p. 166-171.

36. Kasevičius bendrosios kalbotyros. - M., Nauka, 1977 m.

37. Leontjevo tekstų supratimas: Sistemos, modeliai, ištekliai: Vadovėlis - M.: Akademija, 2006 m.

38. Kalbinis enciklopedinis žodynas / Red. V. N. Jartseva, M.: Tarybinė enciklopedija, 1990, 685 p.

39. , Salium automatiniam indeksavimui ir skirstymui į kategorijas: kūrimas, struktūra, priežiūra. // NTI, ser. 2, Nr.1, 1996 m.

40. Luger J. Dirbtinis intelektas: sudėtingų problemų sprendimo strategijos ir metodai. M., 2005 m.

41. McQueenas K. Diskursinės teksto sintezės natūralioje kalboje strategijos // Naujiena užsienio kalbotyroje. t. XXIV. M.: Pažanga, 1989, 311-356 p.

42. Melčuko lingvistinių modelių teorija „PRASMĖ „TEKSTAS“. - M., Nauka, 1974 m.

43. Nacionalinis rusų kalbos korpusas. http://*****

44. Khoroshevsky V. F. OntosMiner: sistemų šeima informacijai iš daugiakalbių dokumentų rinkinių išgauti // Devintoji nacionalinė dirbtinio intelekto konferencija su tarptautiniu dalyvavimu KII-2004. T. 2. – M.: Fizmatlit, 2004, p.573-581.

KOMPIUTERINĖ LINGvistika (kalkė iš anglų kompiuterinės lingvistikos), viena iš taikomosios kalbotyros sričių, kurioje kuriamos kompiuterinės programos, duomenų organizavimo ir apdorojimo kompiuterinės technologijos, kurios naudojamos kalbai tirti ir modeliuoti kalbos funkcionavimą tam tikromis sąlygomis, situacijose ir problemomis. srityse. Kita vertus, tai yra kompiuterinių kalbų modelių taikymo sritis kalbotyroje ir susijusiose disciplinose. Kompiuterinė lingvistika, kaip ypatinga mokslo kryptis, susiformavo Europos tyrimuose septintajame dešimtmetyje. Kadangi anglų kalbos būdvardis computational taip pat gali būti verčiamas kaip „kompiuterinis“, literatūroje taip pat aptinkamas terminas „kompiuterinė lingvistika“, tačiau rusų moksle jis įgauna siauresnę reikšmę, priartėdamas prie „kiekybinės kalbotyros“ sąvokos.

Sąvoka „kiekybinė kalbotyra“ dažnai vadinama kompiuterine lingvistika, kuri apibūdina tarpdalykinę taikomųjų tyrimų kryptį, kai kaip pagrindinė kalbos ir kalbos tyrimo priemonė yra naudojami kiekybiniai arba statistiniai analizės metodai. Kartais kiekybinė (arba kiekybinė) kalbotyra supriešinama su kombinatorine kalbotyra. Pastarojoje dominuojantį vaidmenį užima „nekiekybinis“ matematinis aparatas – aibių teorija, matematinė logika, algoritmų teorija ir kt. Teoriniu požiūriu statistinių metodų naudojimas kalbotyroje leidžia papildyti. struktūrinis kalbos modelis su tikimybiniu komponentu, t.y. sukurti teorinį struktūrinį-tikimybinį modelį, turintį didelį aiškinamąjį potencialą. Taikomoje srityje kiekybinė kalbotyra reprezentuojama visų pirma naudojant šio modelio fragmentus, naudojamus kalbos funkcionavimo lingvistinei stebėsenai, koduoto teksto iššifravimui, teksto autorizacijai/atribucijai ir kt.

Terminas „kompiuterinė lingvistika“ ir šios srities problemos dažnai siejami su komunikacijos modeliavimu, o visų pirma su žmogaus sąveikos su kompiuteriu užtikrinimu natūralia arba ribota natūralia kalba (tam yra sukurtos specialios natūralios kalbos apdorojimo sistemos). ), taip pat su informacinių technologijų teorija ir praktika (IRS). Ryšio tarp asmens ir kompiuterio teikimas natūralia kalba kartais vadinamas „natūralios kalbos apdorojimu“ (termino Natural Language Processing vertimas iš anglų kalbos). Ši kompiuterinės lingvistikos sritis atsirado septintojo dešimtmečio pabaigoje užsienyje ir vystėsi mokslinės ir technologinės disciplinos, vadinamos dirbtiniu intelektu, rėmuose (R. Schenk, M. Lebowitz, T. Winograd ir kt. darbai). Frazė „natūralios kalbos apdorojimas“ turėtų apimti visas sritis, kuriose kompiuteriai naudojami kalbos duomenims apdoroti. Tačiau praktikoje įsigalėjo siauresnis termino supratimas – metodų, technologijų ir specifinių sistemų, užtikrinančių žmogaus bendravimą su kompiuteriu natūralia arba ribota natūralia kalba, kūrimas.

Tam tikru mastu kompiuterinė lingvistika gali apimti darbą hiperteksto sistemų kūrimo srityje, laikomu ypatingu teksto organizavimo būdu ir netgi iš esmės nauju teksto tipu, daugeliu savo savybių kontrastuojančiu su įprastais Gutenbergo tradicijoje suformuotu tekstu. spausdinimo (žr. Gutenbergą).

Kompiuterinės lingvistikos kompetencija apima ir automatinį vertimą.

Kompiuterinės lingvistikos rėmuose atsirado palyginti nauja kryptis, kuri aktyviai vystėsi nuo 1980–1990 m. . Tekstų korpusai – tai specialiai atrinktų knygų, žurnalų, laikraščių ir kt. tekstų rinkiniai, perkelti į kompiuterines laikmenas ir skirti automatiniam apdorojimui. Vienas pirmųjų tekstų korpusų Amerikos anglų kalbai buvo sukurtas Browno universitete (vadinamasis Brown Corpus) 1962-63 m., vadovaujant W. Francisui. Rusijoje nuo 2000-ųjų pradžios Rusijos mokslų akademijos Vinogradovo rusų kalbos institutas kuria Nacionalinį rusų kalbos korpusą, kurį sudaro tipiškas rusų kalbos tekstų pavyzdys, kurio apimtis yra apie 100 mln. Be faktinio duomenų korpusų konstravimo, korpuso lingvistika užsiima kompiuterinių įrankių (kompiuterinių programų), skirtų įvairiai informacijai iš teksto korpusų išgauti, kūrimu. Vartotojo požiūriu, teksto korpusams taikomi reprezentatyvumo, išsamumo ir ekonomiškumo reikalavimai.

Kompiuterinė lingvistika aktyviai vystosi tiek Rusijoje, tiek užsienyje. Šios srities publikacijų srautas labai didelis. Be teminių rinkinių, nuo 1984 metų JAV kas ketvirtį leidžiamas žurnalas Computational Linguistics. Daug organizacinio ir mokslinio darbo atlieka Kompiuterinės lingvistikos asociacija, turinti regionines struktūras visame pasaulyje (ypač Europos padalinį). Tarptautinės COLINT konferencijos vyksta kas dveji metai (2008 m. konferencija vyko Mančesteryje). Pagrindinės kompiuterinės lingvistikos kryptys taip pat aptariamos kasmetinėje tarptautinėje konferencijoje „Dialogas“, kurią organizuoja Rusijos dirbtinio intelekto tyrimų institutas, Maskvos valstybinio universiteto Filologijos fakultetas, „Yandex“ ir daugybė kitų organizacijų. Aktualios problemos taip pat plačiai atstovaujamos įvairių lygių tarptautinėse dirbtinio intelekto konferencijose.

Lit.: Zvegincevas V. A. Teorinė ir taikomoji kalbotyra. M., 1968; Piotrovsky R. G., Bektaev K. B., Piotrovskaya A. A. Matematinė kalbotyra. M., 1977; Gorodetsky B. Yu. Dabartinės taikomosios kalbotyros problemos // Naujiena užsienio kalbotyroje. M., 1983. Laida. 12; Kibrik A. E. Taikomoji kalbotyra // Kibrik A. E. Esė bendraisiais ir taikomaisiais kalbotyros klausimais. M., 1992; Kennedy G. Įvadas į korpuso lingvistiką. L., 1998; Bolšakovas I.A., Gelbukhas A. Kompiuterinė lingvistika: modeliai, ištekliai, programos. Mekh., 2004; Nacionalinis rusų kalbos korpusas: 2003-2005. M., 2005; Baranovas A. N. Įvadas į taikomąją kalbotyrą. 3-asis leidimas M., 2007; Kompiuterinė lingvistika ir intelektualinės technologijos. M., 2008. Laida. 7.

Straipsnio turinys

KOMPIUTERINĖ LINGVISTIKA, kryptis taikomojoje kalbotyroje, orientuota į kompiuterinių priemonių – programų, kompiuterinių technologijų panaudojimą duomenims tvarkyti ir apdoroti – modeliuoti kalbos funkcionavimą tam tikromis sąlygomis, situacijose, probleminėse srityse ir pan., taip pat visą taikymo sritį. kompiuteriniai kalbų modeliai kalbotyroje ir susijusiose disciplinose. Tiesą sakant, tik pastaruoju atveju kalbame apie taikomąją kalbotyrą siaurąja prasme, nes kompiuterinis kalbos modeliavimas gali būti laikomas ir informatikos bei programavimo teorijos taikymo sritimi sprendžiant kalbos mokslo problemas. Tačiau praktiškai kompiuterinė lingvistika apima beveik viską, kas susiję su kompiuterių naudojimu kalbotyroje.

Kompiuterinė lingvistika kaip ypatinga mokslo sritis susiformavo septintajame dešimtmetyje. Rusų kalbos terminas „kompiuterinė lingvistika“ yra vertimas iš anglų kalbos kompiuterinės lingvistikos. Kadangi būdvardis kompiuterinis rusų kalboje taip pat gali būti verčiamas kaip „kompiuterinis“, literatūroje taip pat aptinkamas terminas „kompiuterinė lingvistika“, tačiau rusų moksle jis įgauna siauresnę reikšmę, priartėdamas prie „kiekybinės kalbotyros“ sąvokos. Šios srities publikacijų srautas labai didelis. Be teminių rinkinių, JAV kas ketvirtį leidžiamas žurnalas Computer Linguistics. Daug organizacinio ir mokslinio darbo atlieka Kompiuterinės lingvistikos asociacija, turinti regionines struktūras (ypač Europos skyrių). Kas dvejus metus vyksta tarptautinės kompiuterinės lingvistikos konferencijos – COLING. Atitinkamos problemos paprastai yra plačiai atstovaujamos įvairiose dirbtinio intelekto konferencijose.

Kompiuterinės lingvistikos priemonių rinkinys.

Kompiuterinė lingvistika kaip speciali taikomoji disciplina išsiskiria pirmiausia savo instrumentu – t.y. dėl kompiuterinių įrankių naudojimo kalbos duomenims apdoroti. Kadangi kompiuterinės programos, modeliuojančios tam tikrus kalbos funkcionavimo aspektus, gali naudoti įvairius programavimo įrankius, apie bendrą kompiuterinės lingvistikos konceptualųjį aparatą kalbėti lyg ir nereikia. Tačiau tai netiesa. Yra bendrieji mąstymo kompiuterinio modeliavimo principai, kurie kažkaip įgyvendinami bet kuriame kompiuteriniame modelyje. Jie remiasi žinių teorija, kuri iš pradžių buvo sukurta dirbtinio intelekto srityje, o vėliau tapo viena iš kognityvinio mokslo šakų. Svarbiausios konceptualios kompiuterinės lingvistikos kategorijos yra tokios žinių struktūros kaip „rėmai“ (konceptualios, arba, kaip sakoma, konceptualios struktūros, skirtos deklaratyviam žinioms apie tipizuotą temiškai vieningą situaciją pavaizduoti), „scenarijai“ (konceptualios procedūrinės struktūros). žinių apie stereotipinę situaciją ar stereotipinį elgesį reprezentavimas), „planai“ (žinių struktūros, fiksuojančios idėjas apie galimus veiksmus, vedančius į tam tikrą tikslą). Su kadro kategorija glaudžiai susijusi sąvoka „scena“. Scenos kategorija daugiausia naudojama kompiuterinės lingvistikos literatūroje kaip konceptualios struktūros žymėjimas, skirtas deklaratyviam kalbėjimo akte aktualizuojamų situacijų ir jų dalių atvaizdavimui, išryškintam kalbinėmis priemonėmis (leksemos, sintaksės konstrukcijos, gramatinės kategorijos ir kt.). .

Sutvarkytas žinių struktūrų rinkinys tam tikru būdu formuoja kognityvinės sistemos „pasaulio modelį“ ir jos kompiuterinį modelį. Dirbtinio intelekto sistemose pasaulio modelis sudaro specialų bloką, kuris, priklausomai nuo pasirinktos architektūros, gali apimti bendras žinias apie pasaulį (paprastų teiginių, pvz., „žiemą šalta“ arba gamybos taisyklių forma). „jei lauke lyja, reikia dėvėti lietpaltį arba pasiimti skėtį“), kai kurie konkretūs faktai („Aukščiausia pasaulio viršūnė yra Everestas“), taip pat vertybės ir jų hierarchijos, kartais suskirstytos į specialus „aksiologinis blokas“.

Dauguma kompiuterinės lingvistikos priemonių sąvokų elementų yra homonimiški: jie vienu metu žymi kai kurias realias žmogaus pažinimo sistemos esybes ir jų vaizdavimo būdus, naudojamus jų teoriniame aprašyme ir modeliavime. Kitaip tariant, kompiuterinės lingvistikos konceptualaus aparato elementai turi ontologinius ir instrumentinius aspektus. Pavyzdžiui, ontologiniu aspektu deklaratyviųjų ir procedūrinių žinių skirstymas atitinka skirtingus žmogui prieinamų žinių tipus – vadinamasis žinojimas KAS (deklaratyvus; toks, pavyzdžiui, bet kurio NN pašto adreso žinojimas), t. iš vienos pusės, o žinios KAIP (procedūrinės; tokios , pavyzdžiui, žinios, leidžiančios rasti šio NN butą, net nežinant jo oficialaus adreso) – kita vertus. Instrumentiniu aspektu žinios gali būti įkūnytos aprašymų (aprašymų) rinkinyje, duomenų rinkinyje, viena vertus, ir algoritme, kompiuterio ar kitokio kognityvinės sistemos modelio vykdomoje instrukcijoje. iš kitos pusės.

Kompiuterinės lingvistikos kryptys.

CL sritis yra labai įvairi ir apima tokias sritis kaip komunikacijos kompiuterinis modeliavimas, siužeto struktūros modeliavimas, hiperteksto technologijos teksto pateikimui, mašininis vertimas, kompiuterinė leksikografija. Siaurąja prasme CL problemos dažnai siejamos su tarpdisciplinine taikomąja sritimi, kurios pavadinimas kiek nevykęs „natūralios kalbos apdorojimas“ (angliško termino Natural Language Processing vertimas). Jis atsirado septintojo dešimtmečio pabaigoje ir vystėsi „dirbtinio intelekto“ mokslinėje ir technologinėje disciplinoje. Vidinėje formoje frazė „natūralus kalbos apdorojimas“ apima visas sritis, kuriose kompiuteriai naudojami kalbos duomenims apdoroti. Tuo tarpu praktikoje įsigalėjo siauresnis šio termino supratimas – metodų, technologijų ir specifinių sistemų, užtikrinančių žmogaus bendravimą su kompiuteriu natūralia arba ribota natūralia kalba, kūrimas.

Aštuntajame dešimtmetyje įvyko spartus „natūralaus kalbos apdorojimo“ srities vystymasis, kuris buvo susijęs su netikėtu eksponentiniu kompiuterių galutinių vartotojų skaičiaus augimu. Kadangi kalbų ir programavimo technologijų mokymas visiems vartotojams yra neįmanomas, iškilo sąveikos su kompiuterinėmis programomis organizavimo problema. Šios komunikacijos problemos sprendimas buvo dviem pagrindiniais keliais. Pirmuoju atveju programavimo kalbas ir operacines sistemas buvo bandoma pritaikyti galutiniam vartotojui. Dėl to atsirado aukšto lygio kalbos, tokios kaip „Visual Basic“, taip pat patogios operacinės sistemos, sukurtos žmonėms pažįstamų metaforų konceptualioje erdvėje - DESK, BIBLIOTEKA. Antras būdas – sukurti sistemas, kurios leistų sąveikauti su kompiuteriu konkrečioje probleminėje srityje natūralia kalba arba kokia nors ribota jos versija.

Natūralios kalbos apdorojimo sistemų architektūra bendruoju atveju apima vartotojo kalbos pranešimo analizės bloką, pranešimo interpretavimo bloką, atsako reikšmės generavimo bloką ir teiginio paviršiaus struktūros sintezės bloką. Ypatinga sistemos dalis yra dialogo komponentas, fiksuojantis dialogo vedimo strategijas, šių strategijų naudojimo sąlygas ir būdus, kaip įveikti galimas komunikacijos nesėkmes (nesėkmės komunikacijos procese).

Iš kompiuterinių natūralios kalbos apdorojimo sistemų dažniausiai išskiriamos klausimų-atsakymų sistemos, interaktyvios problemų sprendimo sistemos, sujungtos teksto apdorojimo sistemos. Iš pradžių klausimų-atsakymų sistemos buvo pradėtos kurti kaip reakcija į prastą užklausų kodavimo kokybę ieškant informacijos informacijos paieškos sistemose. Kadangi tokių sistemų probleminė sritis buvo labai ribota, tai šiek tiek supaprastino užklausų vertimo į reprezentaciją formaliąja kalba algoritmus ir atvirkštinę procedūrą formaliam vaizdavimui paversti teiginiais natūralia kalba. Tarp vietinių įvykių šio tipo programos apima POET sistemą, kurią sukūrė tyrėjų komanda, vadovaujama E. V. Sistema apdoroja užklausas rusų kalba (su nedideliais apribojimais) ir sintezuoja atsakymą. Programos struktūrinė schema apima visų analizės (morfologinių, sintaksinių ir semantinių) ir atitinkamų sintezės etapų perėjimą.

Pokalbio problemų sprendimo sistemos, skirtingai nei ankstesnio tipo sistemos, atlieka aktyvų vaidmenį komunikacijoje, nes jų užduotis yra rasti problemos sprendimą, remiantis joje pateiktomis žiniomis ir informacija, kurią galima gauti iš vartotojo. Sistemoje yra žinių struktūrų, kurios fiksuoja tipines veiksmų sekas sprendžiant tam tikros probleminės srities problemas, taip pat informaciją apie reikalingus išteklius. Kai vartotojas užduoda klausimą arba nustato konkrečią užduotį, suaktyvinamas atitinkamas scenarijus. Jei trūksta kai kurių scenarijaus komponentų arba kai kurių išteklių, sistema pradeda ryšį. Taip veikia, pavyzdžiui, SNUKA sistema, sprendžianti karinių operacijų planavimo problemas.

Susietų tekstų apdorojimo sistemos yra gana įvairios struktūros. Bendru jų bruožu galima laikyti platų žinių vaizdavimo technologijų naudojimą. Tokio tipo sistemų funkcijos yra suprasti tekstą ir atsakyti į klausimus apie jo turinį. Supratimas laikomas ne universalia kategorija, o kaip informacijos ištraukimo iš teksto procesas, nulemtas konkrečios komunikacinės intencijos. Kitaip tariant, tekstas „skaitomas“ tik darant prielaidą, kad potencialus vartotojas nori apie jį sužinoti būtent tai. Taigi susietų tekstų apdorojimo sistemos pasirodo anaiptol ne universalios, o orientuotos į problemą. Tipiški aptariamo tipo sistemų pavyzdžiai yra REEARCHER ir TAILOR sistemos, kurios sudaro vieną programinės įrangos paketą, leidžiantį vartotojui gauti informaciją iš patentų santraukų, apibūdinančių sudėtingus fizinius objektus.

Svarbiausia kompiuterinės lingvistikos sritis yra informacijos paieškos sistemų (IRS) kūrimas. Pastaroji atsirado šeštojo dešimtmečio pabaigoje ir septintojo dešimtmečio pradžioje kaip atsakas į smarkiai išaugusį mokslinės ir techninės informacijos kiekį. Pagal saugomos ir apdorojamos informacijos tipą bei paieškos ypatybes informacijos paieškos sistemos skirstomos į dvi dideles grupes – dokumentinę ir faktinę. Dokumentinės informacijos paieškos sistemose saugomi dokumentų tekstai ar jų aprašymai (santraukos, bibliografinės kortelės ir kt.). Faktinė IRS susijusi su konkrečių faktų aprašymu ir nebūtinai teksto forma. Tai gali būti lentelės, formulės ir kiti duomenų pateikimo tipai. Taip pat yra mišrių informacinių sistemų, apimančių ir dokumentus, ir faktinę informaciją. Šiuo metu faktinės informacijos sistemos kuriamos duomenų bazių technologijų (DB) pagrindu. Siekiant užtikrinti informacijos gavimą informacijos paieškos sistemoje, sukuriamos specialios informacijos paieškos kalbos, kurios yra pagrįstos informacijos paieškos tezaurais. Informacijos paieškos kalba yra formali kalba, skirta apibūdinti tam tikrus informacijos paieškos sistemoje saugomų dokumentų turinio plano ir užklausos aspektus. Dokumento aprašymo informacijos paieškos kalba procedūra vadinama indeksavimu. Dėl indeksavimo kiekvienam dokumentui priskiriamas jo formalus aprašymas informacijos paieškos kalba – dokumento paieškos vaizdas. Panašiai indeksuojama ir užklausa, kuriai priskiriamas paieškos užklausos vaizdas ir paieškos nurodymas. Informacijos paieškos algoritmai yra pagrįsti paieškos nurodymo palyginimu su užklausos paieškos vaizdu. Dokumento išdavimo pagal užklausą kriterijus gali būti visiškas arba dalinis dokumento paieškos vaizdo ir paieškos instrukcijos atitikimas. Kai kuriais atvejais vartotojas turi galimybę pats suformuluoti išdavimo kriterijus. Tai lemia jo informacijos poreikis. Automatizuotos informacijos paieškos sistemos dažnai naudoja deskriptorių informacijos paieškos kalbas. Dokumento tema apibūdinama deskriptorių rinkiniu. Deskriptoriai yra žodžiai ir terminai, žymintys paprastas, gana elementarias probleminės srities kategorijas ir sąvokas. Į dokumento paieškos paveikslėlį įvedama tiek deskriptorių, kiek dokumente yra įvairių temų. Deskriptorių skaičius neribojamas, o tai leidžia apibūdinti dokumentą daugiamatėje ypatybių matricoje. Dažnai deskriptorių informacijos paieškos kalboje taikomi deskriptorių suderinamumo apribojimai. Šiuo atveju galime sakyti, kad informacijos paieškos kalba turi sintaksę.

Viena pirmųjų sistemų, dirbusių su deskriptorių kalba, buvo amerikietiška UNITERM sistema, kurią sukūrė M. Taube. Dokumento raktiniai žodžiai – uniterminai – šioje sistemoje veikė kaip aprašai. Šios IRS ypatumas yra tas, kad iš pradžių informacinės kalbos žodynas nebuvo nurodytas, bet atsirado indeksuojant dokumentą ir užklausą. Šiuolaikinių informacijos paieškos sistemų kūrimas siejamas su ne tezauro tipo informacijos paieškos sistemų kūrimu. Tokios informacinės sistemos su vartotoju dirba ribota natūralia kalba, o paieška atliekama per dokumentų santraukų tekstus, pagal jų bibliografinius aprašymus, o neretai ir per pačius dokumentus. Indeksavimui ne tezauro tipo IRS naudojami natūralios kalbos žodžiai ir frazės.

Tam tikru mastu kompiuterinės lingvistikos sritis gali apimti darbą hiperteksto sistemų kūrimo srityje, laikomu ypatingu teksto organizavimo būdu ir netgi iš esmės nauju teksto tipu, daugeliu savo savybių kontrastuojančiu su įprastam tekstui, suformuotam Gutenbergo spausdinimo tradicija. Hiperteksto idėja siejama su Vannevaro Busho, prezidento F. Roosevelto patarėjo mokslo klausimais, vardu. V. Bushas teoriškai pagrindė Memex techninės sistemos projektą, leidžiantį vartotojui susieti tekstus ir jų fragmentus naudojant įvairaus tipo ryšius, daugiausia asociatyviniais ryšiais. Kompiuterinių technologijų trūkumas apsunkino projekto įgyvendinimą, nes mechaninė sistema pasirodė per sudėtinga praktiškai įgyvendinti.

Busho idėja atgimė septintajame dešimtmetyje T. Nelsono Xanadu sistemoje, kurioje jau buvo naudojamos kompiuterinės technologijos. „Xanadu“ leido vartotojui skaityti į sistemą įvestų tekstų rinkinį įvairiais būdais, skirtingomis sekomis, programinė įranga leido atsiminti žiūrimų tekstų seką ir bet kuriuo metu pasirinkti beveik bet kurį iš jų. Tekstų rinkinį su juos jungiančiais santykiais (perėjimų sistema) T. Nelsonas pavadino hipertekstu. Daugelis tyrinėtojų hiperteksto kūrimą vertina kaip naujos informacijos eros pradžią, priešingą spausdinimo erai. Rašymo linijiškumas, kuris išoriškai atspindi kalbos tiesiškumą, pasirodo esąs pagrindinė kategorija, ribojanti žmogaus mąstymą ir teksto supratimą. Prasmės pasaulis yra nelinijinis, todėl semantinės informacijos suspaudimui linijiniame kalbos segmente reikia naudoti specialius „komunikacinius paketus“ – skirstymą į temą ir remą, pasisakymo turinio planą skaidyti į eksplicitinius (teiginys, pasiūlymas, dėmesys). ) ir implicitiniai (prielaidos, pasekmės, diskurso implikatūros) sluoksniai . Teksto tiesiškumo atsisakymas tiek jo pateikimo skaitytojui procese (t. y. skaitymo ir supratimo metu), tiek sintezės procese, pasak teoretikų, prisidėtų prie mąstymo „išsilaisvinimo“ ir net jo atsiradimo. naujos formos.

Kompiuterinėje sistemoje hipertekstas pateikiamas grafiko pavidalu, kurio mazguose yra tradiciniai tekstai ar jų fragmentai, vaizdai, lentelės, vaizdo įrašai ir kt. Mazgus jungia įvairūs ryšiai, kurių tipus nurodo hiperteksto programinės įrangos kūrėjai arba pats skaitytojas. Santykiai apibrėžia galimas judėjimo arba navigacijos per hipertekstą galimybes. Santykiai gali būti vienakrypčiai arba dvikrypčiai. Atitinkamai, dvikryptės rodyklės leidžia vartotojui judėti abiem kryptimis, o vienkryptės rodyklės leidžia vartotojui judėti tik viena kryptimi. Mazgų grandinė, per kurią skaitytojas praeina žiūrėdamas teksto komponentus, sudaro kelią arba maršrutą.

Kompiuterinis hiperteksto įgyvendinimas gali būti hierarchinis arba tinklinis. Hierarchinė – medžio pavidalo – hiperteksto struktūra gerokai apriboja perėjimo tarp jo komponentų galimybes. Tokiame hipertekste ryšiai tarp komponentų primena tezauro struktūrą, pagrįstą genties ir rūšių santykiais. Tinklo hipertekstas leidžia naudoti įvairių tipų ryšius tarp komponentų, neapsiribojant genų ir rūšių ryšiais. Pagal hiperteksto egzistavimo metodą išskiriami statiniai ir dinaminiai hipertekstai. Statinis hipertekstas veikimo metu nesikeičia; joje vartotojas gali įrašyti savo komentarus, tačiau jie nekeičia reikalo esmės. Dinaminiam hipertekstui pokyčiai yra normali egzistavimo forma. Paprastai dinaminiai hipertekstai funkcionuoja ten, kur reikia nuolat analizuoti informacijos srautą, t.y. įvairių rūšių informacinėse paslaugose. Hipertekstas yra, pavyzdžiui, Arizonos informacinė sistema (AAIS), kuri kas mėnesį atnaujinama 300–500 santraukų per mėnesį.

Ryšius tarp hiperteksto elementų iš pradžių gali nustatyti kūrėjai arba jie gali būti sugeneruoti kiekvieną kartą, kai vartotojas pasiekia hipertekstą. Pirmuoju atveju kalbame apie kietos struktūros hipertekstus, o antruoju – apie minkštos struktūros hipertekstus. Technologiškai gana suprantama standi konstrukcija. Minkštos struktūros organizavimo technologija turėtų būti pagrįsta semantine dokumentų (ar kitų informacijos šaltinių) artumo vienas kitam analize. Tai nebanali kompiuterinės lingvistikos užduotis. Šiais laikais minkštosios struktūros technologijų naudojimas raktiniams žodžiams yra plačiai paplitęs. Perėjimas iš vieno mazgo į kitą hiperteksto tinkle atliekamas ieškant raktinių žodžių. Kadangi raktinių žodžių rinkinys kiekvieną kartą gali skirtis, hiperteksto struktūra kaskart keičiasi.

Hiperteksto sistemų kūrimo technologija neskiria tekstinės ir netekstinės informacijos. Tuo tarpu vaizdinės ir garsinės informacijos (vaizdo, paveikslėlių, nuotraukų, garso įrašų ir kt.) įtraukimas reikalauja esminio vartotojo sąsajos pakeitimo ir galingesnės programinės įrangos bei kompiuterių palaikymo. Tokios sistemos vadinamos hipermedija arba multimedija. Daugialypės terpės sistemų matomumas lėmė platų jų naudojimą mokyme ir kuriant kompiuterines enciklopedijų versijas. Pavyzdžiui, yra gražiai pagamintų kompaktinių diskų su daugialypės terpės sistemomis pagal Dorlin Kindersley išleistas vaikų enciklopedijas.

Kompiuterinės leksikografijos rėmuose kuriamos kompiuterinės žodynų sudarymo ir valdymo technologijos. Specialios programos – duomenų bazės, kompiuterinės bylų spintos, teksto apdorojimo programos – leidžia automatiškai generuoti žodyno įrašus, saugoti žodyno informaciją ir ją apdoroti. Daug įvairių kompiuterinių leksikografinių programų skirstomos į dvi dideles grupes: leksikografinių darbų palaikymo programas ir įvairių tipų automatinius žodynus, įskaitant leksikografines duomenų bazes. Automatinis žodynas – specialaus mašinos formato žodynas, skirtas vartotojui arba kompiuterinei tekstų apdorojimo programai naudoti kompiuteryje. Kitaip tariant, yra skirtumas tarp automatinių galutiniam vartotojui skirtų žodynų ir automatinių teksto apdorojimo programų žodynų. Galutiniam vartotojui skirti automatiniai žodynai sąsaja ir žodyno įrašo struktūra labai skiriasi nuo automatinių žodynų, įtrauktų į mašininio vertimo sistemas, automatines abstrahavimo sistemas, informacijos paieškos sistemas ir kt. Dažniausiai tai yra žinomų įprastų žodynų kompiuterinės versijos. Programinės įrangos rinkoje yra kompiuterinių anglų kalbos aiškinamųjų žodynų analogų (automatinis Webster, automatinis aiškinamasis anglų kalbos žodynas, išleistas Collins, automatinė Naujojo didelio anglų-rusų žodyno versija, redaguota Yu.D. Apresyan ir E.M. Mednikova ), yra ir kompiuterinė Ožegovo žodyno versija. Automatiniai žodynai teksto apdorojimo programoms gali būti vadinami automatiniais žodynais siaurąja prasme. Paprastai jie nėra skirti paprastam vartotojui. Jų sandaros ypatumus ir žodyno medžiagos apimtį lemia su jais sąveikaujančios programos.

Kompiuterinis siužetinės struktūros modeliavimas yra dar viena perspektyvi kompiuterinės lingvistikos sritis. Siužetinės struktūros tyrimas susijęs su struktūrinės literatūros kritikos (plačiąja prasme), semiotikos ir kultūros studijų problemomis. Galimos kompiuterinės siužeto modeliavimo programos yra pagrįstos trimis pagrindiniais siužeto vaizdavimo formalizmais – morfologine ir sintaksine siužeto vaizdavimo kryptimis, taip pat kognityviniu požiūriu. Idėjos apie siužeto struktūros morfologinę struktūrą siekia garsiuosius V. Ya Propp (. cm.) apie rusišką pasaką. Proppas pastebėjo, kad pasakoje esant personažų ir įvykių gausai, veikėjų funkcijų skaičius yra ribotas, todėl pasiūlė aparatą šioms funkcijoms aprašyti. Proppo idėjos sudarė pagrindą kompiuterinei programai TALE, kuri imituoja pasakos siužeto generavimą. TALE programos algoritmas paremtas pasakos veikėjų funkcijų seka. Tiesą sakant, Propp funkcijos apibrėžė tipiškų situacijų rinkinį, išdėstytą remiantis empirinės medžiagos analize. Įvairių situacijų susiejimo galimybes generavimo taisyklėse lėmė tipiška funkcijų seka – tokia forma, kokia tai galima nustatyti iš pasakų tekstų. Programoje tipinės funkcijų sekos buvo aprašytos kaip tipiniai simbolių susidūrimo scenarijai.

Sintaksinio požiūrio į teksto siužetą teorinis pagrindas buvo „pasakojimų gramatikos“ arba „pasakojimų gramatikos“. Jie atsirado aštuntojo dešimtmečio viduryje dėl N. Chomsky generatyvinės gramatikos idėjų perkėlimo į teksto makrostruktūros aprašymą. Jei generatyvinėje gramatikoje svarbiausi sintaksinės struktūros komponentai buvo veiksmažodžiai ir daiktavardžiai, tai daugumoje siužetinių gramatikų kaip pagrindiniai buvo išskiriama ekspozicija (nustatymas), įvykis ir epizodas. Siužetinių gramatikų teorijoje buvo plačiai aptariamos minimalumo sąlygos, tai yra apribojimai, lemiantys siužeto elementų sekos, kaip normalaus siužeto, statusą. Tačiau paaiškėjo, kad to negalima padaryti naudojant grynai kalbinius metodus. Daugelis apribojimų yra socialinio kultūrinio pobūdžio. Siužetinės gramatikos, nors ir labai skiriasi generavimo medžio kategorijų rinkiniu, leido labai ribotą naratyvo struktūros modifikavimo taisyklių rinkinį.

Devintojo dešimtmečio pradžioje viena iš R. Schenko mokinių V. Lehnert, kurdama kompiuterinį siužeto generatorių, pasiūlė originalų emocinių siužetų vienetų formalizmą (Affective Plot Units), kuris pasirodė esąs galinga priemonė. sklypo struktūros reprezentavimas. Nepaisant to, kad iš pradžių jis buvo sukurtas dirbtinio intelekto sistemai, šis formalizmas buvo naudojamas grynai teoriniuose tyrimuose. Lehnerto požiūrio esmė buvo ta, kad siužetas buvo apibūdinamas kaip nuoseklus veikėjų pažintinių-emocinių būsenų pasikeitimas. Taigi Lehnerto formalizmo dėmesys sutelkiamas ne į išorinius siužeto komponentus – ekspoziciją, įvykį, epizodą, moralę, bet į jo turinio charakteristikas. Šiuo atžvilgiu Lehnerto formalizmas iš dalies yra grįžimas prie Proppo idėjų.

Kompiuterinės lingvistikos kompetencijai priklauso ir mašininis vertimas, kuris šiuo metu išgyvena atgimimą.

Literatūra:

Popovas E.V. Bendravimas kompiuteriu natūralia kalba. M., 1982 m
Saduras V.G. Kalbinis bendravimas su elektroniniais kompiuteriais ir jų raidos problemos. – Knygoje: Kalbos komunikacija: problemos ir perspektyvos. M., 1983 m
Baranovas A.N. Dirbtinio intelekto kategorijos lingvistinėje semantikoje. Rėmeliai ir scenarijai. M., 1987 m
Kobozeva I.M., Laufer N.I., Saburova I.G. Komunikacijos modeliavimas žmogaus ir mašinos sistemose. – Informacinių sistemų kalbinis palaikymas. M., 1987 m
Olker H.R. Pasakos, tragedijos ir pasaulio istorijos pateikimo būdai. – Knygoje: Kalba ir socialinės sąveikos modeliavimas. M., 1987 m
Gorodetsky B.Yu. Kompiuterinė lingvistika: kalbinio bendravimo modeliavimas
McQueenas K. Natūralios kalbos teksto sintezės diskurso strategijos. – Naujiena užsienio kalbotyroje. t. XXIV, Kompiuterinė kalbotyra. M., 1989 m
Popovas E.V., Preobraženskis A.B. . NL sistemų diegimo ypatumai
Preobraženskis A.B. Šiuolaikinių NL sistemų raidos būklė. – Dirbtinis intelektas. Knyga 1, Ryšių sistemos ir ekspertų sistemos. M., 1990 m
Subbotinas M.M. Hipertekstas. Nauja rašytinės komunikacijos forma. – VINITI, ser. Informatika, 1994, 18 t
Baranovas A.N. Taikomosios kalbotyros įvadas. M., 2000 m

Įvadas

Kas yra kompiuterinė lingvistika?

KOMPIUTERINĖ LINGVISTIKA , taikomosios kalbotyros kryptis, orientuota į kompiuterinių priemonių – programų, kompiuterinių technologijų, skirtų duomenims tvarkyti ir apdoroti – panaudojimą, modeliuojant kalbos funkcionavimą tam tikromis sąlygomis, situacijose, probleminėse srityse ir pan., taip pat visa apimtimi. kompiuterinių kalbos modelių taikymas kalbotyroje ir susijusiose disciplinose. Tiesą sakant, tik pastaruoju atveju kalbame apie taikomąją kalbotyrą siaurąja prasme, nes kompiuterinis kalbos modeliavimas gali būti laikomas ir informatikos bei programavimo teorijos taikymo sritimi sprendžiant kalbos mokslo problemas. Tačiau praktiškai kompiuterinė lingvistika apima beveik viską, kas susiję su kompiuterių naudojimu kalbotyroje.

Užduotys

Kompiuterinė lingvistika imasi aktualių kalbinių kompiuterinio kalbos veiklos modeliavimo problemų. Jos uždaviniai – sukurti tikslesnius ir išsamesnius kalbinius modelius bei pažangesnius analizės ir sintezės algoritmus.

Galima išskirti pagrindines kryptis:

1) Žmogaus ir kompiuterio sąveika: valdymas – programavimo kalbos, informacijos perdavimas – sąsaja.

2) Darbas su tekstais: indeksavimas, analizė ir klasifikavimas, automatinis redagavimas (klaidų taisymas), žinių identifikavimas, mašininis vertimas.

Istorija

Paprastą anglų kalbos poaibį, skirtą prieigai prie duomenų bazių, sugeneravo viena iš ankstyvųjų Amerikos sistemų LIFER (Language Interface Facility, kuri Elipsis ir Recursion), sukurta aštuntajame dešimtmetyje. Po jos kompiuterių rinkoje atsirado kitos, lankstesnės sistemos, suteikiančios ribotą natūralios kalbos sąsają su kompiuteriu.

Devintajame dešimtmetyje JAV susikūrė nemažai įmonių, užsiimančių natūralių kalbų sąsajų su duomenų bazėmis ir ekspertų sistemomis kūrimu ir pardavimu. 1985 metais „Semantek Corporation“ pristatė tokį Q&A programinės įrangos paketą, o „Carnegie Group“ įmonė pasiūlė panašų „LanguageCraft“ paketą.

Vyksta aktyvus darbas kuriant automatinio vertimo sistemas. D. Tomui vadovaujant JAV oro pajėgoms sukurta automatinio vertimo sistema SYSTRAN išplito. Per 1974-1975 m Sistemą naudojo NASA aviacijos ir kosmoso asociacija, versdama projekto „Apollo-Soyuz“ dokumentus. Šiais laikais ji kasmet išverčia apie 100 000 puslapių iš kelių kalbų.

Europoje kompiuterinių vertimo sistemų kūrimo darbus paskatino Europos informacinio tinklo (EURONET DIANA) sukūrimas. 1982 m. Europos ekonominė bendrija paskelbė apie europinės programos EUROTRA sukūrimą, kurios tikslas – sukurti kompiuterinę vertimo sistemą visoms Europos kalboms. 1987 m. projektas iš pradžių buvo įvertintas 12 mln.

Japonijoje kompiuterinės lingvistikos tyrimai sutelkti į nacionalinę penktosios kartos kompiuterių programą, paskelbtą 1981 m.

Egzistuoja nemažai karinių projektų, kuriais siekiama sukurti žmogaus ir mašinos sąsajas natūralia kalba. Jungtinėse Amerikos Valstijose jie daugiausia vykdomi pagal Strateginę kompiuterių iniciatyvą – dešimties metų programą, kurią Gynybos departamentas priėmė 1983 m. Jos tikslas – sukurti naujos kartos „protingus“ ginklus ir karines sistemas. siekiant užtikrinti ilgalaikį JAV technologinį pranašumą.

Natūralu, kad dirbtinio intelekto specialistai, puikiai išmanantys kompiuterius ir programavimo kalbas, savo metodais energingai ėmėsi spręsti kalbos supratimo problemą. Buvo ieškoma natūralios kalbos algoritmų. Sukurtos sudėtingos kalbos supratimo programos labai siauroms specializuotoms sritims, įdiegtos dalinės mašininio vertimo programos ir nemažai kitų. Tačiau esminės pažangos sprendžiant kalbos supratimo problemą nebuvo. Kalba ir žmonės yra taip susiję, kad mokslininkams teko spręsti žmogaus supratimo apie pasaulį problemą. Ir tai jau yra filosofijos sritis.

Pagrindinės kalbotyros sąvokos

Kompiuterlingvistai užsiima teksto ir kalbos atpažinimo algoritmų kūrimu, dirbtinės kalbos sinteze, semantinių vertimo sistemų kūrimu ir paties dirbtinio intelekto vystymu (klasikine šio žodžio prasme – kaip žmogaus intelekto pakaitalu) vargu ar kada nors atsiras, bet įvairios ekspertinės sistemos, pagrįstos duomenų analize).

Kalbos atpažinimo algoritmai bus vis dažniau naudojami kasdieniame gyvenime – išmaniuose namuose ir elektroniniuose įrenginiuose nebus pultelių ir mygtukų, o vietoje jų bus naudojama balso sąsaja. Ši technologija tobulinama, tačiau iššūkių vis dar yra daug: kompiuteriui sunku atpažinti žmogaus kalbą, nes skirtingi žmonės kalba labai skirtingai. Todėl, kaip taisyklė, atpažinimo sistemos veikia gerai arba tada, kai jos yra apmokytos vienam kalbėtojui ir jau yra pritaikytos jo tarimo ypatybėms, arba kai sistema atpažįstamas frazių skaičius yra ribotas (kaip, pavyzdžiui, balso komandose televizorius).

Semantinių vertimo programų kūrimo specialistų laukia dar daug darbo: šiuo metu sukurti geri algoritmai tik vertimui į anglų kalbą ir iš jos. Čia yra daug problemų - skirtingos kalbos yra skirtingai semantiškai struktūrizuotos, tai skiriasi net frazių konstravimo lygiu, o ne visos vienos kalbos reikšmės gali būti perteiktos naudojant kitos kalbos semantinį aparatą. Be to, programa turi skirti homonimus, teisingai atpažinti kalbos dalis ir parinkti teisingą daugiaprasminio žodžio reikšmę, atitinkančią kontekstą.

Dirbtinės kalbos sintezė (pavyzdžiui, namų robotams) taip pat yra kruopštus darbas. Dirbtinai sukurtą kalbą žmogaus ausiai priversti skambėti natūraliai sunku, nes yra milijonai niuansų, į kuriuos nekreipiame dėmesio, bet be kurių viskas nebėra „taip pat“ – netikri paleidimai, pauzės, dvejonės ir pan. Kalbos srautas yra nenutrūkstamas ir tuo pačiu diskretiškas: kalbame be pauzės tarp žodžių, tačiau mums nesunku suprasti, kur baigiasi vienas žodis, o prasideda kitas, tačiau mašinai tai būtų didelė problema.

Didžiausia kompiuterinės lingvistikos kryptis yra susijusi su dideliais duomenimis. Juk yra didžiuliai tokių tekstų korpusai kaip naujienų srautai, nuo kurių būtina atskirti tam tikrą informaciją – pavyzdžiui, išryškinti naujienų srautus ar pritaikyti RSS pagal konkretaus vartotojo skonį. Tokios technologijos jau egzistuoja ir toliau vystysis, nes skaičiavimo galia sparčiai auga. Lingvistinė teksto analizė taip pat naudojama interneto saugumui užtikrinti ir žvalgybos tarnyboms reikalingos informacijos paieškai.

Kur studijuoti norint tapti kompiuterių lingvistu? Mūsų šalyje, deja, su klasikine kalbotyra ir programavimu, statistika, duomenų analize susijusios specialybės yra gana atskirtos. O norint tapti skaitmeniniu kalbininku, reikia suprasti abu. Užsienio universitetai turi kompiuterinės lingvistikos aukštojo mokslo programas, tačiau kol kas mums tinkamiausias variantas yra įgyti kalbinį pagrindinį išsilavinimą ir tuomet įsisavinti IT pagrindus. Gerai, kad dabar yra daug įvairių internetinių kursų, mano studijų metais taip nebuvo. Mokiausi Maskvos valstybinio kalbotyros universiteto Taikomosios kalbotyros fakultete, kur turėjome dirbtinio intelekto ir kalbos atpažinimo kursus, bet vis tiek nepakankamai. Dabar IT įmonės aktyviai bando bendrauti su institucijomis. Mes su kolegomis iš Kaspersky Lab taip pat stengiamės dalyvauti ugdymo procese: skaitome paskaitas, rengiame studentų konferencijas, teikiame stipendijas magistrantams. Tačiau kol kas iniciatyva daugiau kyla iš darbdavių nei iš universitetų.

Kompiuterinė lingvistika naudojama moksle. Šiuolaikinės komercinės sistemos Atgaivinantys tekstai

Kompiuterinės lingvistikos priemonių rinkinys.

Kompiuterinės lingvistikos kryptys.

Kas yra kompiuterinė lingvistika?

Istorija