Gjuhësia kompjuterike përdoret në shkencë. Sisteme komerciale moderne Rigjallërimi i teksteve

Gjuhësia kompjuterike: metoda, burime, aplikime

Prezantimi

Afati gjuhësisë llogaritëse(CL) është bërë gjithnjë e më e zakonshme vitet e fundit në lidhje me zhvillimin e sistemeve të ndryshme softuerike të aplikacioneve, duke përfshirë produkte softuerike komerciale. Kjo është për shkak të rritjes së shpejtë të informacionit tekstual në shoqëri, përfshirë në internet, dhe nevojës për përpunim automatik të teksteve në gjuhën natyrore (NL). Kjo rrethanë stimulon zhvillimin e gjuhësisë kompjuterike si fushë e shkencës dhe zhvillimin e teknologjive të reja informative dhe gjuhësore.

Brenda kuadrit të gjuhësisë llogaritëse, e cila ekziston për më shumë se 50 vjet (dhe njihet edhe si linguistika makinerike, përpunimi automatik i tekstit në NL) janë propozuar shumë metoda dhe ide premtuese, por jo të gjitha kanë gjetur ende shprehjen e tyre në produktet softuerike të përdorura në praktikë. Qëllimi ynë është të karakterizojmë specifikat e kësaj fushe kërkimi, të formulojmë detyrat e saj kryesore, të tregojmë lidhjet e saj me shkencat e tjera, të japim një përmbledhje të shkurtër të qasjeve dhe burimeve kryesore të përdorura, si dhe të karakterizojmë shkurtimisht aplikimet ekzistuese të CL. Për një hyrje më të detajuar të këtyre çështjeve, ne mund të rekomandojmë libra.

1. Probleme të gjuhësisë llogaritëse

Gjuhësia kompjuterike u ngrit në kryqëzimin e shkencave të tilla si gjuhësia, matematika, shkenca kompjuterike (Shkenca Kompjuterike) dhe inteligjenca artificiale. Origjina e CL kthehet në kërkimin e shkencëtarit të famshëm amerikan N. Chomsky në fushën e formalizimit të strukturës së gjuhës natyrore; zhvillimi i saj bazohet në rezultate në fushën e gjuhësisë së përgjithshme (gjuhësisë). Gjuhësia studion ligjet e përgjithshme të gjuhës natyrore - strukturën dhe funksionimin e saj dhe përfshin fushat e mëposhtme:

Ø Fonologjia– studion tingujt e të folurit dhe rregullat për lidhjen e tyre gjatë formimit të të folurit;

Ø Morfologjia– merret me strukturën e brendshme dhe formën e jashtme të fjalëve të të folurit, duke përfshirë pjesët e të folurit dhe kategoritë e tyre;

Ø Sintaksë– studion strukturën e fjalive, rregullat e përputhshmërisë dhe renditjen e fjalëve në një fjali, si dhe vetitë e përgjithshme të saj si njësi gjuhësore.

Ø Semantikadhe pragmatike– fusha të lidhura ngushtë: semantika merret me kuptimin e fjalëve, fjalive dhe njësive të tjera të të folurit, dhe pragmatika merret me veçoritë e shprehjes së këtij kuptimi në lidhje me qëllimet specifike të komunikimit;

Ø Leksikografia përshkruan leksikun e një NL të veçantë - fjalët e tij individuale dhe vetitë e tyre gramatikore, si dhe metodat për krijimin e fjalorëve.

Rezultatet e N. Chomsky, të marra në kryqëzimin e gjuhësisë dhe matematikës, hodhën themelet për teorinë e gjuhëve dhe gramatikave formale (shpesh të quajtura gjeneruese, ose duke gjeneruar gramatikanët). Kjo teori tani zbatohet për gjuhësia matematikore dhe përdoret për të përpunuar jo aq shumë NL, por gjuhë artificiale, kryesisht gjuhë programimi. Për nga natyra e saj, kjo është një disiplinë plotësisht matematikore.

Gjuhësia matematikore përfshin gjithashtu gjuhësia sasiore, e cila studion karakteristikat e frekuencës së gjuhës - fjalët, kombinimet e tyre, strukturat sintaksore etj., dhe përdor metoda matematikore të statistikës, prandaj kjo degë e shkencës mund të quhet gjuhësi statistikore.

CL është gjithashtu i lidhur ngushtë me një fushë të tillë shkencore ndërdisiplinore si inteligjenca artificiale (AI), brenda së cilës zhvillohen modele kompjuterike të funksioneve individuale intelektuale. Një nga programet e para të punës në fushën e AI dhe CL është programi i famshëm i T. Winograd, i cili kuptoi urdhrat më të thjeshta njerëzore për të ndryshuar botën e kubeve, të formuluar në një nëngrup të kufizuar të NL. Vini re se pavarësisht nga kryqëzimi i dukshëm i kërkimeve në fushën e CL dhe AI ​​(pasi aftësia gjuhësore lidhet me funksionet intelektuale), AI nuk thith të gjithë CL, pasi ka bazën dhe metodologjinë e vet teorike. E përbashkëta e këtyre shkencave është modelimi kompjuterik si metoda kryesore dhe qëllimi përfundimtar i kërkimit.

Kështu, detyra CL mund të formulohet si zhvillimi i programeve kompjuterike për përpunimin automatik të teksteve në NL. Dhe megjithëse përpunimi kuptohet mjaft gjerësisht, jo të gjitha llojet e përpunimit mund të quhen gjuhësorë, dhe përpunuesit përkatës - gjuhësorë. Përpunues gjuhësor duhet të përdorë një ose një model tjetër formal të gjuhës (madje edhe një shumë të thjeshtë), që do të thotë se duhet të jetë i varur nga gjuha në një mënyrë ose në një tjetër (d.m.th., varet nga një NL specifike). Kështu, për shembull, redaktori i tekstit Mycrosoft Word mund të quhet gjuhësor (nëse vetëm sepse përdor fjalorë), por redaktori NotePad nuk mundet.

Kompleksiteti i detyrave të CL është për faktin se NL është një sistem kompleks me shumë nivele i shenjave që u ngritën për shkëmbimin e informacionit midis njerëzve, i zhvilluar në procesin e veprimtarisë praktike njerëzore dhe vazhdimisht ndryshon në lidhje me këtë aktivitet. Një tjetër vështirësi në zhvillimin e metodave të CL (dhe vështirësia e studimit të NL brenda kornizës së gjuhësisë) lidhet me shumëllojshmërinë e gjuhëve natyrore, ndryshime të rëndësishme në fjalorin e tyre, morfologjinë, sintaksën e gjuhëve të ndryshme ofrojnë mënyra të ndryshme për të shprehur të njëjtin kuptim .

2. Veçoritë e sistemit NL: nivelet dhe lidhjet

Objekti i përpunuesve gjuhësorë janë tekstet NL. Tekstet kuptohen si çdo mostër e të folurit - me gojë dhe me shkrim, të çdo zhanri, por kryesisht CL i konsideron tekstet e shkruara. Teksti ka një strukturë njëdimensionale, lineare dhe gjithashtu mbart një kuptim të caktuar, ndërsa gjuha vepron si mjet për shndërrimin e kuptimit të transmetuar në tekste (sinteza e të folurit) dhe anasjelltas (analiza e të folurit). Teksti përbëhet nga njësi më të vogla dhe ka disa mënyra të mundshme për të ndarë (ndarë) tekstin në njësi që i përkasin niveleve të ndryshme.

Ekzistenca e niveleve të mëposhtme pranohet përgjithësisht:

· Niveli i propozimeve (deklaratave) – nivel sintaksor;

· Leksiko-morfologjike homonimia (lloji më i zakonshëm) ndodh kur fjalët e dy leksemave të ndryshme përkojnë, për shembull, poemë– një folje në njëjës, në gjininë mashkullore dhe një emër në rasën njëjës, emërore),

· Homonimi sintaksore nënkupton paqartësinë e strukturës sintaksore, e cila çon në disa interpretime: Studentët nga Lvov shkuan në Kiev,Fluturues aeroplanët mund të jetë e rrezikshme(shembulli i famshëm i Chomsky), etj.

3. Modelimi në gjuhësinë llogaritëse

Zhvillimi i një përpunuesi gjuhësor (LP) përfshin një përshkrim të vetive gjuhësore të tekstit të përpunuar NL, dhe ky përshkrim organizohet si model gjuhe. Ashtu si me modelimin në matematikë dhe programim, një model kuptohet si një sistem i caktuar që shfaq një numër karakteristikash thelbësore të fenomenit që modelohet (d.m.th., SE) dhe për këtë arsye ka ngjashmëri strukturore ose funksionale.

Modelet gjuhësore të përdorura në CL zakonisht ndërtohen mbi bazën e teorive të krijuara nga gjuhëtarët duke studiuar tekste të ndryshme dhe në bazë të intuitës së tyre gjuhësore (introspeksioni). Cila është specifika e modeleve CL? Karakteristikat e mëposhtme mund të dallohen:

· Formaliteti dhe, në fund, algoritmizueshmëria;

· Funksionaliteti (qëllimi i modelimit është të riprodhojë funksionet e gjuhës si një "kuti e zezë", pa ndërtuar një model të saktë të sintezës dhe analizës së të folurit njerëzor);

· Përgjithësia e modelit, d.m.th., merr parasysh një grup mjaft të madh tekstesh;

· Vlefshmëria eksperimentale, e cila përfshin testimin e modelit në tekste të ndryshme;

· Mbështetja te fjalorët si një komponent i detyrueshëm i modelit.

Kompleksiteti i NL-së, përshkrimi dhe përpunimi i tij çon në ndarjen e këtij procesi në faza të veçanta që korrespondojnë me nivelet e gjuhës. moduli i procesorit. Në veçanti, në rastin e analizës së tekstit, modulet individuale LP kryejnë:

Ø Analiza grafike, d.m.th., evidentimi i formave të fjalëve në tekst (kalimi nga simbolet në fjalë);

Ø Analiza morfologjike – kalimi nga trajtat e fjalëve në ato lemat(forma fjalori të leksemave) ose bazat(pjesët bërthamore të fjalës, minus morfemat lakore);

Ø Analiza sintaksore, pra identifikimi i strukturës gramatikore të fjalive në një tekst;

Ø Analiza semantike dhe pragmatike, e cila përcakton kuptimin e frazave dhe reagimin përkatës të sistemit brenda të cilit operon LP.

Skema të ndryshme për ndërveprimin e këtyre moduleve janë të mundshme (operim sekuencial ose analizë paralele e ndërthurur), megjithatë, nivelet individuale - morfologjia, sintaksa dhe semantika ende përpunohen nga mekanizma të ndryshëm.

Kështu, LP mund të konsiderohet si një konvertues shumëfazor, i cili, në rastin e analizës së tekstit, e përkthen secilën fjali të tij në një paraqitje të brendshme të kuptimit të tij dhe anasjelltas në rastin e sintezës. Modeli përkatës i gjuhës mund të quhet strukturore.

Megjithëse modelet e plota CL kërkojnë të merren parasysh të gjitha nivelet kryesore të gjuhës dhe prania e moduleve përkatëse, gjatë zgjidhjes së disa problemeve të aplikuara është e mundur të bëhet pa përfaqësimin e niveleve individuale në LP. Për shembull, në programet e hershme eksperimentale CL, tekstet e përpunuara i përkisnin zonave problematike shumë të ngushta (me një grup të kufizuar fjalësh dhe renditjen e tyre të rreptë), në mënyrë që shkronjat e tyre fillestare të mund të përdoren për të njohur fjalët, duke lënë jashtë fazat morfologjike dhe sintaksore. analiza.

Një shembull tjetër i një modeli të reduktuar, që tani përdoret mjaft shpesh, është modeli gjuhësor i frekuencës së simboleve dhe kombinimeve të tyre (digrame, trigrame, etj.) në tekstet e një NL të veçantë. Të tillë model statistikor shfaq informacionin gjuhësor në nivelin e karaktereve (shkronjave) të tekstit dhe mjafton, p.sh., të identifikohen gabimet e shtypit në tekst ose të njihet identiteti i tij gjuhësor. Një model i ngjashëm i bazuar në statistikat e fjalëve individuale dhe bashkëngjitjen e tyre në tekste (bigrame, trigrame fjalësh) përdoret, për shembull, për të zgjidhur paqartësitë leksikore ose për të përcaktuar pjesën e të folurit të një fjale (në gjuhë si anglishtja ).

Vini re se është e mundur modelet strukturore-statistikore, në të cilën, kur përfaqësohen nivelet individuale të NL, merren parasysh një ose një tjetër statistikë - fjalë, struktura sintaksore, etj.

Në një LP të tipit modular, në çdo fazë të analizës ose sintezës së tekstit, përdoret një model përkatës (morfologji, sintaksë, etj.).

Modelet morfologjike për analizimin e formave të fjalëve që ekzistojnë në CL ndryshojnë kryesisht në parametrat e mëposhtëm:

· rezultati i punës - një lemë ose rrënjë me një sërë karakteristikash morfologjike (gjini, numër, rast, aspekt, person etj.) të një forme të caktuar fjalësh;

· metoda e analizës - bazuar në një fjalor të formave të fjalëve të një gjuhe ose një fjalor të bazave, ose në një metodë pa fjalor;

· aftësia për të përpunuar fjalën e një lekseme që nuk përfshihet në fjalor.

Në sintezën morfologjike, të dhënat fillestare janë leksema dhe karakteristikat morfologjike specifike të fjalës së kërkuar të kësaj lekseme është e mundur edhe një kërkesë për sintezën e të gjitha formave të një lekseme të caktuar. Rezultati i analizës morfologjike dhe i sintezës është përgjithësisht i paqartë.

Për të modeluar sintaksën brenda kuadrit të CL, janë propozuar një numër i madh idesh dhe metodash të ndryshme, të ndryshme në mënyrën e përshkrimit të sintaksës së gjuhës, mënyrën e përdorimit të këtij informacioni në analizën ose sintezën e një fjalie NL, si. si dhe mënyra e paraqitjes së strukturës sintaksore të fjalisë. Në mënyrë krejt konvencionale, mund të dallojmë tre qasje kryesore për krijimin e modeleve: një qasje gjeneruese, duke u kthyer në idetë e Chomsky, një qasje që kthehet në idetë e I. Melchuk dhe e përfaqësuar nga modeli "Teksti-Kuptimi", si dhe një qasje brenda së cilës bëhen përpjekje të caktuara për të kapërcyer kufizimet e dy qasjeve të para, në veçanti, teoria e grupeve sintaksore.

Brenda qasjes gjeneruese, analiza sintaksore zakonisht kryhet në bazë të një gramatike formale pa kontekst që përshkruan strukturën frazore të një fjalie, ose mbi bazën e disa zgjerimeve të gramatikës pa kontekst. Këto gramatika bazohen në ndarjen e qëndrueshme lineare të një fjalie në fraza (ndërtime sintaksore, për shembull, fraza emërore) dhe për këtë arsye pasqyrojnë njëkohësisht strukturat e saj sintaksore dhe lineare. Përshkruhet struktura sintaksore hierarkike e fjalisë NL e përftuar si rezultat i analizës pema e përbërësve, gjethet e së cilës përmbajnë fjalët e fjalisë, nënpemët i përgjigjen ndërtimeve (frazave) sintaksore të përfshira në fjali dhe harqet shprehin marrëdhëniet folezuese të ndërtimeve.

Qasja në shqyrtim mund të përfshijë gramatikat e rrjetit, të cilat janë njëkohësisht një aparat për përshkrimin e një sistemi gjuhësor dhe për të specifikuar një procedurë për analizimin e fjalive bazuar në konceptin e një makine të gjendjes së fundme, për shembull, rrjeti i zgjeruar i tranzicionit ATN.

Brenda qasjes së dytë, përdoret një metodë më vizuale dhe e zakonshme për të përfaqësuar strukturën sintaksore të një fjalie - pemët e varësisë. Nyjet e pemës përmbajnë fjalët e fjalisë (rrënja është zakonisht një folje-kallëzues), dhe çdo hark i pemës që lidh një palë nyje interpretohet si sintaksor. nënrenditëse lidhje ndërmjet tyre, dhe drejtimi i lidhjes korrespondon me drejtimin e harkut të dhënë. Meqenëse në këtë rast ndahen lidhjet sintaksore të fjalëve dhe renditja e fjalëve në një fjali, atëherë, në bazë të pemëve të nënrenditjes, prishen dhe joprojektive ndërtime që shfaqen mjaft shpesh në gjuhët me renditje të lirë fjalësh.

Pemët përbërëse janë më të përshtatshme për të përshkruar gjuhët në një renditje të ngurtë fjalësh që përfaqësojnë ndërtime të thyera dhe joprojektive me ndihmën e tyre kërkon zgjerimin e formalizmit gramatikor të përdorur. Por në kuadrin e kësaj qasjeje përshkruhen më natyrshëm ndërtimet me marrëdhënie jo nënrenditëse. Në të njëjtën kohë, një vështirësi e përbashkët për të dyja qasjet është përfaqësimi i anëtarëve homogjenë të një fjalie.

Modelet sintaksore në të gjitha qasjet përpiqen të marrin parasysh kufizimet e vendosura në lidhjen e njësive gjuhësore në të folur, ndërsa koncepti i valencës përdoret në një mënyrë ose në një tjetër. Valence- kjo është aftësia e një fjale ose një njësie tjetër gjuhësore për të lidhur njësi të tjera në një mënyrë të caktuar sintaksore; aktantiështë një fjalë ose ndërtim sintaksor që e plotëson këtë valencë. Për shembull, folja ruse dorëzojë ka tre valenca kryesore, të cilat mund të shprehen me fjalët e mëposhtme pyetëse: OBSH? kujt? Çfarë? Në kuadrin e qasjes gjenerative, valencat e fjalëve (kryesisht foljet) përshkruhen kryesisht në formën e kornizave të veçanta ( nënkategorizimi korniza), dhe në kuadër të qasjes së bazuar në pemët e varësisë - si modelet e menaxhimit.

Modelet e semantikës gjuhësore janë më pak të zhvilluara në kuadrin e CL. Për analizën semantike të fjalive, të ashtuquajturat gramatika rastore dhe rastet semantike(valencë), mbi bazën e së cilës përshkruhet semantika e një fjalie si përmes lidhjeve të fjalës kryesore (foljes) me akterët semantikë të saj, pra përmes rasteve semantike. Për shembull, folje dorëzojë të përshkruara me raste semantike duke dhënë(agjent), adresues Dhe objekt transferimi.

Për të përfaqësuar semantikën e një teksti të tërë, zakonisht përdoren dy formalizma logjikisht ekuivalente (të dyja përshkruhen në detaje brenda kornizës së AI):

· Formulat për llogaritjen e kallëzuesve që shprehin vetitë, gjendjet, proceset, veprimet dhe marrëdhëniet;

· Rrjetet semantike janë grafikë të etiketuar në të cilët kulmet korrespondojnë me konceptet, dhe kulmet korrespondojnë me marrëdhëniet midis tyre.

Për sa i përket modeleve të pragmatikës dhe ligjërimit, të cilat lejojnë përpunimin jo vetëm të fjalive individuale, por edhe të tekstit në tërësi, idetë e Van Dyck-ut përdoren kryesisht për t'i ndërtuar ato. Një nga modelet e rralla dhe të suksesshme është modeli i sintezës diskursive të teksteve koherente. Modele të tilla duhet të marrin parasysh referenca anaforike dhe fenomene të tjera të nivelit të ligjërimit.

Duke përfunduar karakterizimin e modeleve gjuhësore në kuadrin e KL, le të ndalemi pak më hollësisht në teorinë e modeleve gjuhësore “Kuptimi-Tekst”, në kuadrin e së cilës u shfaqën shumë ide të frytshme që ishin përpara kohës së tyre dhe janë. ende aktuale sot.

Në përputhje me këtë teori, NL konsiderohet si një lloj i veçantë transformatori që përpunon kuptimet e dhëna në tekste përkatëse dhe tekstet e dhëna në kuptimet përkatëse. Kuptimi kuptohet si invariant i të gjitha shndërrimeve sinonimike të tekstit. Përmbajtja e një fragmenti koherent të të folurit pa ndarje në fraza dhe forma fjalësh shfaqet në formën e një përfaqësimi të veçantë semantik, i përbërë nga dy përbërës: grafiku semantik dhe informacion rreth organizimi komunikues i kuptimit.

Duhet të tregohen tiparet dalluese të teorisë:

o orientimi drejt sintezës së teksteve (aftësia për të gjeneruar tekste të sakta konsiderohet si kriteri kryesor i kompetencës gjuhësore);

o natyra shumënivelëshe, modulare e modelit, me nivelet kryesore të gjuhës të ndara në nivele sipërfaqësore dhe të thella: ato ndryshojnë, p.sh. thellë(semantizuar) dhe sipërfaqe sintaksë (“e pastër”), si dhe nivele sipërfaqësore-morfologjike dhe morfologjike të thella;

o natyra integrale e modelit gjuhësor; ruajtja e informacionit të paraqitur në çdo nivel nga moduli përkatës, duke kryer kalimin nga ky nivel në tjetrin;

o mjete të veçanta për përshkrimin e sintaksave (rregullat për lidhjen e njësive) në çdo nivel; u propozua një grup për të përshkruar përputhshmërinë leksikore funksionet leksikore, me ndihmën e së cilës formulohen rregullat e parafrazës sintaksore;

o theksimi në fjalor dhe jo në gramatikë; fjalori ruan informacione që lidhen me nivele të ndryshme të gjuhës; Në veçanti, për analizën sintaksore përdoren modelet e kontrollit të fjalëve që përshkruajnë valencat e tyre sintaksore dhe semantike.

Kjo teori dhe model gjuhësor janë mishëruar në sistemin e përkthimit makinerik ETAP.

4. Burimet gjuhësore

Zhvillimi i përpunuesve gjuhësorë kërkon një paraqitje të përshtatshme të informacionit gjuhësor për gjuhën e përpunuar. Ky informacion shfaqet në një sërë fjalorësh dhe gramatikash kompjuterike.

fjalorë janë forma më tradicionale e përfaqësimit të informacionit leksikor; ato ndryshojnë në njësitë e tyre (zakonisht fjalët ose frazat), strukturën dhe mbulimin e fjalorit (fjalor termash në një fushë specifike problematike, fjalorë të fjalorit të përgjithshëm, etj.). Njësia e fjalorit quhet hyrje në fjalor, ai jep informacion rreth tokenit. Homonimet leksikore zakonisht përfaqësohen në hyrje të ndryshme të fjalorit.

Më të zakonshmet në CL janë fjalorët morfologjikë që përdoren për analiza morfologjike, hyrja e tyre në fjalor paraqet informacion morfologjik për fjalën përkatëse - pjesë e ligjëratës, klasën e lakimit (për gjuhët lakore), një listë të kuptimeve të fjalëve, etj. Në varësi të organizimit të fjalës; Përpunuesi gjuhësor në fjalor mund të shtohet edhe informacion gramatikor, për shembull, modele të kontrollit të fjalëve.

Ka fjalorë që ofrojnë informacion më të gjerë për fjalët. Për shembull, modeli gjuhësor “Kuptimi-Tekst” mbështetet në mënyrë të konsiderueshme fjalor shpjegues kombinues, në hyrjen e fjalorit të së cilës, krahas informacionit morfologjik, sintaksor dhe semantik (valenca sintaksore dhe semantike), paraqiten informacione për përputhshmërinë leksikore të kësaj fjale.

Përdorin një numër përpunuesish gjuhësor fjalorë sinonimesh. Një lloj fjalori relativisht i ri - fjalorë paronimikë, d.m.th. fjalë të ngjashme nga jashtë që ndryshojnë në kuptim, për shembull, i huaj Dhe i huaj, redaktimi Dhe referencë .

Një lloj tjetër burimesh leksikore është bazat e të dhënave të frazave, në të cilën përzgjidhen frazat më tipike të një gjuhe të caktuar. Kjo bazë e të dhënave e frazave të gjuhës ruse (rreth një milion njësi) përbën thelbin e sistemit CrossLexica.

Llojet më komplekse të burimeve leksikore janë tezaurët dhe ontologjitë. Një thesaurus është një fjalor semantik, d.m.th një fjalor në të cilin paraqiten lidhjet semantike të fjalëve - marrëdhënie sinonime, të tipit gjini (nganjëherë quhen marrëdhëniet lart-poshtë), pjesë-tërësi, asociacione. Shpërndarja e thesauruseve shoqërohet me zgjidhjen e problemeve të marrjes së informacionit.

I lidhur ngushtë me konceptin e një thesaurus është koncepti i ontologjisë. Ontologjia është një grup konceptesh dhe entitetesh të një fushe të caktuar njohurish, të orientuara drejt ripërdorimit për detyra të ndryshme. Ontologjitë mund të krijohen në bazë të fjalorit ekzistues në një gjuhë - në këtë rast ato quhen gjuhësor Dhe.

Një ontologji e ngjashme gjuhësore konsiderohet të jetë sistemi WordNet - një burim i madh leksikor në të cilin janë mbledhur fjalët angleze: emrat, mbiemrat, foljet dhe ndajfoljet, si dhe lidhjet e tyre semantike të disa llojeve. Për secilën nga pjesët e specifikuara të të folurit, fjalët grupohen në grupe sinonimish ( sinsets), ndërmjet të cilave vendosen marrëdhëniet e antonimisë, hiponimisë (lidhja gjini-specie), meronimia (lidhja pjesë-tërësi). Burimi përmban afërsisht 25 mijë fjalë, numri i niveleve të hierarkisë për marrëdhënien gjini-specie është mesatarisht 6-7, ndonjëherë duke arritur në 15. Niveli i lartë i hierarkisë formon një ontologji të përgjithshme - një sistem konceptesh bazë për botën.

Bazuar në skemën angleze WordNet, u ndërtuan burime të ngjashme leksikore për gjuhë të tjera evropiane, të bashkuara me emrin e përgjithshëm EuroWordNet.

Një lloj krejtësisht i ndryshëm i burimeve gjuhësore është Gramatika NL, lloji i të cilit varet nga modeli sintaksor i përdorur në procesor. Në një përafrim të parë, gramatika është një grup rregullash që shprehin vetitë e përgjithshme sintaksore të fjalëve dhe grupeve të fjalëve. Numri i përgjithshëm i rregullave gramatikore varet gjithashtu nga modeli sintaksor, duke variuar nga disa dhjetëra në disa qindra. Në thelb, këtu lind një problem si raporti midis gramatikës dhe fjalorit në një model gjuhësor: sa më shumë informacion të paraqitet në fjalor, aq më e shkurtër mund të jetë gramatika dhe anasjelltas.

Vini re se ndërtimi i fjalorëve kompjuterikë, thesauruseve dhe gramatikave është një punë voluminoze dhe punë intensive, ndonjëherë edhe më punë intensive se zhvillimi i një modeli gjuhësor dhe procesori përkatës. Prandaj, një nga detyrat vartëse të CL është automatizimi i ndërtimit të burimeve gjuhësore.

Fjalorët kompjuterikë shpesh formohen duke konvertuar fjalorë të zakonshëm tekstesh, por ndërtimi i tyre shpesh kërkon punë shumë më komplekse dhe më të mundimshme. Kjo zakonisht ndodh kur ndërtohen fjalorë dhe thesauri për fusha shkencore që zhvillohen me shpejtësi - biologjia molekulare, shkenca kompjuterike, etj. Materiali burimor për nxjerrjen e informacionit të nevojshëm gjuhësor mund të jetë koleksionet dhe korpuset e tekstit.

Korpusi i teksteve është një përmbledhje tekstesh të mbledhura sipas një parimi të caktuar përfaqësimi (sipas zhanrit, autorësisë, etj.), në të cilin të gjitha tekstet janë të shënuara, domethënë të pajisura me disa shenja (shënime) gjuhësore - morfologjike, theksore, sintaksore, etj. n. Aktualisht, ka të paktën njëqind korpuse të ndryshme - për gjuhë të ndryshme dhe me shenja të ndryshme në Rusi.

Korpuset e etiketuara krijohen nga gjuhëtarët dhe përdoren si për kërkime gjuhësore ashtu edhe për akordim (trajnim) të modeleve dhe përpunuesve të përdorur në CL duke përdorur metoda të njohura matematikore të mësimit të makinerive. Kështu, mësimi i makinës përdoret për të konfiguruar metodat për zgjidhjen e paqartësisë leksikore, njohjen e pjesëve të të folurit dhe zgjidhjen e referencave anaforike.

Meqenëse korpuset dhe koleksionet e teksteve janë gjithmonë të kufizuara për sa i përket fenomeneve gjuhësore të përfaqësuara në to (dhe korpuset, ndër të tjera, kërkojnë mjaft kohë për t'u krijuar), kohët e fundit tekstet në internet po konsiderohen gjithnjë e më shumë si një burim gjuhësor më i plotë. Sigurisht, Interneti është burimi më përfaqësues i mostrave moderne të të folurit, por përdorimi i tij si korpus kërkon zhvillimin e teknologjive të veçanta.

5. Zbatime të gjuhësisë llogaritëse

Fusha e aplikimeve të gjuhësisë llogaritëse po zgjerohet vazhdimisht, ndaj ne do të karakterizojmë këtu problemet më të njohura aplikative të zgjidhura nga mjetet e saj.

Përkthimi me makinë– aplikimi më i hershëm i CL, së bashku me të cilin lindi dhe u zhvillua vetë kjo fushë. Programet e para të përkthimit u ndërtuan më shumë se 50 vjet më parë dhe bazoheshin në një strategji të thjeshtë përkthimi fjalë për fjalë. Megjithatë, u kuptua shpejt se përkthimi me makinë kërkon një model të plotë gjuhësor që merr parasysh të gjitha nivelet e gjuhës, deri në semantikë dhe pragmatikë, gjë që ka penguar vazhdimisht zhvillimin e kësaj fushe. Një model mjaft i plotë përdoret në sistemin vendas ETAP, i cili përkthen tekste shkencore nga frëngjishtja në rusisht.

Sidoqoftë, vini re se në rastin e përkthimit në një gjuhë të ngjashme, për shembull, kur përktheni nga spanjishtja në portugalisht ose nga rusishtja në ukrainisht (të cilat kanë shumë të përbashkëta në sintaksë dhe morfologji), procesori mund të zbatohet bazuar në një të thjeshtuar model, për shembull, bazuar në përdorimin e së njëjtës strategji përkthimi fjalë për fjalë.

Aktualisht, ekziston një gamë e tërë e sistemeve kompjuterike të përkthimit (me cilësi të ndryshme), nga projekte të mëdha kërkimore ndërkombëtare deri te përkthyes automatikë komercialë. Me interes të rëndësishëm janë projektet e përkthimit shumëgjuhësh që përdorin një gjuhë të ndërmjetme në të cilën është koduar kuptimi i frazave të përkthyera. Një drejtim tjetër modern është përkthimi statistikor, bazuar në statistikat për përkthimin e fjalëve dhe frazave (këto ide, për shembull, zbatohen në përkthyesin e motorit të kërkimit Google).

Por pavarësisht shumë dekadash zhvillimi në të gjithë këtë fushë, në përgjithësi problemi i përkthimit me makinë është ende shumë larg zgjidhjes së plotë.

Një aplikim tjetër mjaft i vjetër i gjuhësisë llogaritëse është marrja e informacionit dhe detyrat përkatëse të indeksimit, abstragimit, klasifikimit dhe rubrikimit të dokumenteve.

Kërkimi me tekst të plotë i dokumenteve në bazat e të dhënave të dokumenteve të mëdha (kryesisht shkencore, teknike, biznesi) zakonisht kryhet në bazë të tyre kërko imazhe, me të cilën nënkuptojmë një grup fjalë kyçe– fjalë që pasqyrojnë temën kryesore të dokumentit. Në fillim, vetëm fjalët individuale të NL u konsideruan si fjalë kyçe, dhe kërkimi u krye pa marrë parasysh lakimin e tyre, gjë që është jokritike për gjuhët me lakim të dobët si anglishtja. Për gjuhët e lakuara, për shembull, rusishtja, ishte e nevojshme të përdorej një model morfologjik që merr parasysh lakimin.

Pyetja e kërkimit u prezantua gjithashtu si një grup fjalësh të përcaktuara në bazë të ngjashmërisë së pyetjes dhe imazhit të kërkimit të dokumentit; Krijimi i një imazhi kërkimi të një dokumenti përfshin indeksimi tekstin e tij, pra duke theksuar fjalët kyçe në të. Meqenëse shumë shpesh tema dhe përmbajtja e një dokumenti pasqyrohen shumë më saktë jo me fjalë individuale, por me fraza, frazat filluan të konsideroheshin si fjalë kyçe. Kjo e ndërlikoi ndjeshëm procedurën për indeksimin e dokumenteve, pasi ishte e nevojshme të përdoren kombinime të ndryshme të kritereve statistikore dhe gjuhësore për të zgjedhur fraza të rëndësishme në tekst.

Në fakt, marrja e informacionit përdor kryesisht modeli i tekstit vektor(ndonjëherë quhet çantë e fjalët– çantë me fjalë), në të cilën një dokument paraqitet si një vektor (bashkësi) e fjalëve kyçe të tij. Makinat moderne të kërkimit në internet përdorin gjithashtu këtë model, duke indeksuar tekstet sipas fjalëve të përdorura në to (në të njëjtën kohë, ata përdorin procedura shumë të sofistikuara të renditjes për të kthyer dokumentet përkatëse).

Modeli i specifikuar i tekstit (me disa ndërlikime) përdoret gjithashtu në problemet e marrjes së informacionit të diskutuar më poshtë.

Teksti përmbledhës– zvogëlimi i vëllimit të tij dhe marrja e një përmbledhjeje të tij – një abstrakt (përmbajtje e kondensuar), që e bën kërkimin në koleksionet e dokumenteve më të shpejtë. Një abstrakt i përgjithshëm gjithashtu mund të përpilohet për disa dokumente që lidhen me temën.

Metoda kryesore e abstragimit automatik është ende zgjedhja e fjalive më domethënëse të tekstit që abstraktohet, për të cilat zakonisht fillimisht llogariten fjalët kyçe të tekstit dhe llogaritet koeficienti i rëndësisë së fjalive të tekstit. Përzgjedhja e fjalive domethënëse është e ndërlikuar nga lidhjet anaforike të fjalive, thyerja e të cilave është e padëshirueshme - për të zgjidhur këtë problem, po zhvillohen strategji të caktuara për zgjedhjen e fjalive.

Një detyrë e afërt me abstragimin është shënim teksti i dokumentit, pra hartimi i shënimit të tij. Në formën e tij më të thjeshtë, një abstrakt është një listë e temave kryesore të një teksti që procedurat e indeksimit mund të përdoren për të identifikuar.

Kur krijoni koleksione të mëdha dokumentesh, detyrat e mëposhtme janë të rëndësishme: klasifikimet Dhe grumbullimi tekste për të krijuar klasa dokumentesh që lidhen me temën. Klasifikimi nënkupton caktimin e çdo dokumenti në një klasë specifike me parametra të njohur më parë, dhe grupimi nënkupton ndarjen e një grupi dokumentesh në grupe, d.m.th. në nënbashkësi të dokumenteve tematikisht të ngjashëm. Për zgjidhjen e këtyre problemeve përdoren metoda të mësimit të makinerive dhe për këtë arsye këto probleme të aplikuara quhen Text Mining dhe i përkasin drejtimit shkencor të njohur si Data Mining, ose data mining.

Detyra është shumë afër klasifikimit rubrikim teksti - caktimi i tij në një nga titujt tematikë të njohur më parë (zakonisht titujt formojnë një pemë hierarkike temash).

Problemi i klasifikimit po bëhet gjithnjë e më i përhapur, ai zgjidhet, për shembull, në njohjen e spamit, dhe një aplikim relativisht i ri është klasifikimi i mesazheve SMS në pajisjet celulare. Një drejtim i ri dhe përkatës i kërkimit për problemin e përgjithshëm të marrjes së informacionit është kërkimi shumëgjuhësh i dokumenteve.

Një detyrë tjetër relativisht e re në lidhje me rikthimin e informacionit është gjenerimi i përgjigjeve për pyetjet(Pyetje Përgjigje) . Ky problem zgjidhet duke përcaktuar llojin e pyetjes, duke kërkuar tekste që potencialisht përmbajnë përgjigjen e kësaj pyetjeje dhe duke nxjerrë përgjigjen nga këto tekste.

Një fushë krejtësisht e ndryshme e aplikuar që po zhvillohet, megjithëse ngadalë por në mënyrë të qëndrueshme, është automatizimi i përgatitjes dhe redaktimit tekste në EA. Një nga aplikimet e para në këtë drejtim ishin programet për përcaktimin automatik të vizave të fjalëve dhe programet e drejtshkrimit të tekstit (drejtshkrimor, ose autokorrigjues). Pavarësisht nga thjeshtësia e dukshme e problemit të transferimit, zgjidhja e saktë e tij për shumë gjuhë (për shembull, anglisht) kërkon njohuri të strukturës morfemike të fjalëve në gjuhën përkatëse, dhe për rrjedhojë fjalorin përkatës.

Kontrolli drejtshkrimor është zbatuar prej kohësh në sistemet komerciale dhe mbështetet në një model të përshtatshëm fjalori dhe morfologjik. Përdoret gjithashtu një model sintaksor jo i plotë, në bazë të të cilit identifikohen të gjitha gabimet sintaksore që janë mjaft të shpeshta (për shembull, gabimet e marrëveshjes së fjalëve). Në të njëjtën kohë, korrigjuesit automatikë nuk kanë zbatuar ende zbulimin e gabimeve më komplekse, për shembull, përdorimin e gabuar të parafjalëve. Shumë gabime leksikore gjithashtu nuk zbulohen, në veçanti, gabimet që rezultojnë nga gabimet e shtypit ose përdorimi i gabuar i fjalëve të ngjashme (për shembull, peshë në vend të peshës). Hulumtimi modern CL propozon metoda për zbulimin dhe korrigjimin e automatizuar të gabimeve të tilla, si dhe disa lloje të tjera gabimesh stilistike. Këto metoda përdorin statistika për shfaqjen e fjalëve dhe frazave.

Një detyrë e aplikuar e afërt me mbështetjen e përgatitjes së teksteve është mësimi i gjuhës natyrore, në kuadrin e këtij drejtimi, shpesh zhvillohen sisteme kompjuterike për mësimin e gjuhëve - anglisht, rusisht, etj. (sisteme të ngjashme mund të gjenden në internet). Në mënyrë tipike, këto sisteme mbështesin studimin e aspekteve individuale të gjuhës (morfologji, fjalor, sintaksë) dhe bazohen në modele të përshtatshme, për shembull, modeli morfologjik.

Për sa i përket mësimit të fjalorit, për këtë përdoren edhe analoge elektronike të fjalorëve tekstualë (të cilët në thelb nuk kanë modele gjuhësore). Sidoqoftë, po zhvillohen gjithashtu fjalorë kompjuterikë shumëfunksionalë që nuk kanë analoge teksti dhe synojnë një gamë të gjerë përdoruesish - për shembull, fjalori Crosslexics i frazave ruse. Ky sistem mbulon një gamë të gjerë të fjalorit - fjalëve dhe kombinimeve të tyre të pranueshme fjalësh, dhe gjithashtu ofron ndihmë për modelet e menaxhimit të fjalëve, sinonimet, antonimet dhe korrelacionet e tjera semantike të fjalëve, gjë që është qartësisht e dobishme jo vetëm për ata që studiojnë gjuhën ruse, por edhe për folësit amtare.

Fusha tjetër e aplikimit që vlen të përmendet është gjenerimi automatik tekste në EA. Në parim, kjo detyrë mund të konsiderohet një nëndetyrë e detyrës së përkthimit të makinës të diskutuar tashmë më lart, megjithatë, brenda kornizës së drejtimit ka një numër detyrash specifike. Një detyrë e tillë është gjenerimi shumëgjuhësh, d.m.th., ndërtimi automatik i dokumenteve speciale në disa gjuhë - formulat e patentave, udhëzimet e funksionimit për produktet teknike ose sistemet softuerike, bazuar në specifikimet e tyre në një gjuhë zyrtare. Për të zgjidhur këtë problem, përdoren modele gjuhësore mjaft të detajuara.

Një problem i aplikuar gjithnjë e më i rëndësishëm, i referuar shpesh si Tekst Mining, është nxjerrja e informacionit nga tekstet, ose Nxjerrja e informacionit, e cila kërkohet gjatë zgjidhjes së problemeve të analitikës ekonomike dhe të prodhimit. Për ta bërë këtë, objekte të caktuara identifikohen në testin NL - entitete të emërtuara (emra, personalitete, emra gjeografikë), marrëdhëniet e tyre dhe ngjarjet që lidhen me to. Si rregull, kjo zbatohet në bazë të analizimit të pjesshëm të tekstit, i cili lejon përpunimin e rrjedhave të lajmeve nga agjencitë e lajmeve. Meqenëse detyra është mjaft komplekse jo vetëm teorikisht, por edhe teknologjikisht, krijimi i sistemeve të rëndësishme për nxjerrjen e informacionit nga tekstet është i realizueshëm brenda kompanive tregtare.

Fusha e Tekst Mining përfshin edhe dy detyra të tjera të ndërlidhura – nxjerrjen e opinionit (Opinion Mining) dhe analizën e ndjenjave (Sentiment Analysis), të cilat po tërheqin vëmendjen e një numri në rritje studiuesish. Detyra e parë përfshin kërkimin (në bloge, forume, dyqane online, etj.) të opinioneve të përdoruesve rreth produkteve dhe objekteve të tjera, si dhe analizimin e këtyre opinioneve. Detyra e dytë është e afërt me detyrën klasike të analizës së përmbajtjes së teksteve të komunikimit masiv, ajo vlerëson tonin e përgjithshëm të pohimeve.

Një tjetër aplikacion që vlen të përmendet është mbështetje për dialogun me përdoruesin në EA brenda kuadrit të çdo sistemi softuerik informacioni. Më shpesh, ky problem zgjidhej për bazat e të dhënave të specializuara - në këtë rast, gjuha e pyetjes është mjaft e kufizuar (leksikisht dhe gramatikisht), gjë që lejon përdorimin e modeleve të thjeshtuara gjuhësore. Pyetjet në bazën e të dhënave, të formuluara në NL, përkthehen në gjuhën zyrtare, pas së cilës kërkohet informacioni i kërkuar dhe ndërtohet fraza përkatëse e përgjigjes.

Si të fundit në listën tonë të aplikacioneve CL (por jo më pak e rëndësishme), ne tregojmë njohja dhe sinteza e të folurit. Gabimet e njohjes që lindin në mënyrë të pashmangshme në këto detyra korrigjohen me metoda automatike të bazuara në fjalorë dhe njohuri gjuhësore të morfologjisë. Mësimi i makinerisë do të përdoret gjithashtu në këtë fushë.

konkluzioni

Gjuhësia kompjuterike demonstron rezultate mjaft të prekshme në aplikacione të ndryshme për përpunimin automatik të tekstit në NL. Zhvillimi i tij i mëtejshëm varet si nga shfaqja e aplikacioneve të reja ashtu edhe nga zhvillimi i pavarur i modeleve të ndryshme gjuhësore, në të cilat shumë probleme nuk janë zgjidhur ende. Modelet më të zhvilluara janë analiza morfologjike dhe sinteza. Modelet sintaksore nuk janë sjellë ende në nivelin e moduleve të qëndrueshme dhe efikase të punës, pavarësisht nga numri i madh i formalizmave dhe metodave të propozuara. Modelet në nivelin e semantikës dhe pragmatikës janë akoma më pak të studiuara dhe të formalizuara, megjithëse përpunimi automatik i ligjërimit kërkohet tashmë në një sërë aplikimesh. Vini re se vetë mjetet ekzistuese të gjuhësisë kompjuterike, përdorimi i mësimit të makinerive dhe korporatave të tekstit, mund të avancojnë ndjeshëm zgjidhjen e këtyre problemeve.

Letërsia

1. Baeza-Yates, R. dhe Ribeiro-Neto, B. Modern Information Retrieval, Adison Wesley, 1999.

2. Bateman, J., Zock M. Gjenerimi i gjuhës natyrore. Në: Manuali i Gjuhësisë Kompjuterike të Oksfordit. Mitkov R. (red.). Oxford University Press, 2003, f.304.

3. Biber, D., Conrad S., dhe Reppen D. Corpus Linguistics. Studimi i strukturës dhe përdorimit të gjuhës. Cambridge University Press, Kembrixh, 1998.

4. Bolshakov, I. A., Gjuhësia e supozuar e Gelbukh. Modelet, Burimet, Aplikacionet. Meksikë, IPN, 2004.

5. Brown P., Pietra S., Mercer R., Pietra V. Mathematics of Statistical Machine Translation. // Gjuhësia kompjuterike, vëll. 19 (2): 263-3

6. Carroll J R. Parsing. Në: Manuali i Gjuhësisë Kompjuterike të Oksfordit. Mitkov R. (red.). Oxford University Press, 2003, f. 233-248.

7. Chomsky, N. Strukturat sintaksore. Hagë: Mouton, 1957.

8. Grishman R. Nxjerrja e informacionit. Në: Manuali i Gjuhësisë Kompjuterike të Oksfordit. Mitkov R. (red.). Oxford University Press, 2003, f. 545-559.

9. Harabagiu, S., moldave D. Pyetje Përgjigje. Në: Manuali i Gjuhësisë Kompjuterike të Oksfordit. Mitkov R. (red.). Oxford University Press, 2003, f. 560-582.

10. Hearst, M. A. Zbulimi i Automatizuar i Marrëdhënieve WordNet. Në: Fellbaum, C. (ed.) WordNet: An Electronic Lexical Database. MIT Press, Kembrixh, 1998, f.131-151.

11. Hirst, G. Ontology and the Lexicon. In.: Manual mbi Ontologjitë në Sistemet e Informacionit. Berlin, Springer, 2003.

12. Jacquemin C., Bourigault D. Nxjerrja e termave dhe indeksimi automatik // Mitkov R. (ed.): Handbook of Computational Linguistics. Oxford University Press, 2003. f. 599-615.

13. Kilgarriff, A., G. Grefenstette. Introduction to the Special Issue on Web as the putational linguistics, V. 29, Nr. 3, 2003, f. 333-347.

14. Manning, Ch. D., H. Schütze. Bazat e përpunimit statistikor të gjuhës natyrore. MIT Press, 1999.

15. Matsumoto Y. Përvetësimi i njohurive leksikore. Në: Manuali i Gjuhësisë Kompjuterike të Oksfordit. Mitkov R. (red.). Oxford University Press, 2003, f. 395-413.

16. Manuali i Oksfordit mbi Gjuhësinë Kompjuterike. R. Mitkov (Red.). Shtypi i Universitetit të Oksfordit, 2005.

17. Oakes, M., Paice C. D. Nxjerrja e termave për abstragim automatik. Përparimet e fundit në terminologjinë kompjuterike. D. Bourigault, C. Jacquemin dhe M. L'Homme (Eds), John Benjamins Publishing Company, Amsterdam, 2001, f.353-370.

18. Pedersen, T. Një pemë vendimi e bigrameve është një parashikues i saktë i shqisave të fjalëve. Proc. Takimi i 2-të vjetor i NAC ACL, Pittsburgh, PA, 2001, f. 79-86.

19. Samuelsson C. Metodat Statistikore. Në: Manuali i Gjuhësisë Kompjuterike të Oksfordit. Mitkov R. (red.). Oxford University Press, 2003, f. 358-375.

20. Salton, G. Përpunimi automatik i tekstit: Transformimi, Analiza dhe Rikthimi i Informacionit me Kompjuter. Reading, MA: Addison-Wesley, 1988.

21. Somers, H. Përkthimi i Makinerisë: Zhvillimet e fundit. Në: Manuali i Gjuhësisë Kompjuterike të Oksfordit. Mitkov R. (red.). Oxford University Press, 2003, f. 512-528.

22. Strzalkowski, T. (red.) Rritja e informacionit të gjuhës natyrore. Kluwer, 19p.

23. Woods W. A. ​​Grammers Network Transition for Natural Language Analysis/ Communications of the ACM, V. 13, 1970, N 10, f. 591-606.

24. Rrjeti i fjalëve: një bazë e të dhënave leksikore elektronike. / Christiane Fellbaum. Kembrixh, MIT Press, 1998.

25. Wu J., Yu-Chia Chang Y., Teruko Mitamura T., Chang J. Sugjerim për Përmbledhje Automatike në Shkrimin Akademik // Proceedings of the ACL 2010 Conference Short Papers, 2010.

26. dhe të tjera Mbështetja gjuhësore e sistemit ETAP-2. M.: Nauka, 1989.

27. etj Teknologjitë e analizës së të dhënave: Data Mining, Visual Mining, Text Mining, OLAP – 2nd ed. – Shën Petersburg: BHV-Petersburg, 2008.

28. Bolshakov, Lexica - një fjalor i madh elektronik i kombinimeve dhe lidhjeve semantike të fjalëve ruse. //Përmbledhje. gjuhësisë dhe inteligjencës. teknologjia: Procedurat int. Konf. "Dialog 2009". Numri: Universiteti Shtetëror Rus për Shkencat Humane, 2009, f. 45-50.

29. Bolshakova E.I., Zbulimi i Bolshakov dhe korrigjimi i automatizuar i malapropizmave ruse // NTI. Ser. 2, nr 5, 2007, fq 27-40.

30. Wang, Kinch V. Strategjia për të kuptuar një tekst të lidhur // E re në gjuhësinë e huaj. Vëll. XXIII– M., Përparimi, 1988, f. 153-211.

31. Vasiliev V. G., Krivenko M. P. Metodat e përpunimit të automatizuar të tekstit. – M.: IPI RAS, 2008.

32. Vinograd T. Një program që kupton gjuhën natyrore - M., Mir, 1976.

33. Struktura të lëmuara të gjuhës natyrore në sistemet e automatizuara të komunikimit. – M., Nauka, 1985.

34. Gusev, V. D., Fjalori i paronimeve Salomatina: versioni 2. // NTI, Ser. 2, nr 7, 2001, f. 26-33.

35. Zakharov - hapësira si korpus gjuhësor // Gjuhësia kompjuterike dhe teknologjitë intelektuale: Proceedings of the International. Dialogu i Konferencës ‘2005 / Ed. , – M.: Nauka, 2005, f. 166-171.

36. Kaseviç i gjuhësisë së përgjithshme. - M., Nauka, 1977.

37. Kuptimi Leontief i teksteve: Sistemet, modelet, burimet: Teksti mësimor - M.: Akademia, 2006.

38. Fjalor enciklopedik gjuhësor / Ed. V. N. Yartseva, M.: Enciklopedia Sovjetike, 1990, 685 f.

39. , Salium për indeksimin dhe kategorizimin automatik: zhvillim, strukturë, mirëmbajtje. // NTI, Ser. 2, nr. 1, 1996.

40. Luger J. Inteligjenca artificiale: strategji dhe metoda për zgjidhjen e problemeve komplekse. M., 2005.

41. McQueen K. Strategjitë diskursive për sintezën e tekstit në gjuhën natyrore // E re në gjuhësinë e huaj. Vëll. XXIV. M.: Përparimi, 1989, faqe 311-356.

42. Teoria Melçuk e modeleve gjuhësore “KUPTIMI “TEKST”. - M., Nauka, 1974.

43. Korpusi Kombëtar i Gjuhës Ruse. http://*****

44. Khoroshevsky V. F. OntosMiner: një familje sistemesh për nxjerrjen e informacionit nga koleksionet shumëgjuhëshe të dokumenteve // ​​Konferenca e Nëntë Kombëtare për Inteligjencën Artificiale me Pjesëmarrje Ndërkombëtare KII-2004. T. 2. – M.: Fizmatlit, 2004, f.573-581.

GJUHËSIA KOMPJUTERIKE (gjurmimi nga linguistika kompjuterike angleze), një nga fushat e gjuhësisë së aplikuar, në të cilën zhvillohen dhe përdoren programe kompjuterike, teknologji kompjuterike për organizimin dhe përpunimin e të dhënave për të studiuar gjuhën dhe për të modeluar funksionimin e gjuhës në kushte, situata dhe probleme të caktuara. zonave. Nga ana tjetër, kjo është fusha e aplikimit të modeleve të gjuhës kompjuterike në gjuhësi dhe disiplina të ngjashme. Si drejtim i veçantë shkencor, gjuhësia kompjuterike mori formë në kërkimet evropiane në vitet 1960. Meqenëse mbiemri anglisht computational mund të përkthehet edhe si "kompjuterike", termi "gjuhësi kompjuterike" gjendet gjithashtu në literaturë, por në shkencën ruse ai merr një kuptim më të ngushtë, duke iu afruar konceptit të "gjuhësisë sasiore".

Termi "gjuhësi sasiore" shpesh quhet gjuhë kompjuterike, e cila karakterizon një drejtim ndërdisiplinor në kërkimin e aplikuar, ku metodat sasiore ose statistikore të analizës përdoren si mjeti kryesor për studimin e gjuhës dhe të të folurit. Ndonjëherë gjuhësia sasiore (ose sasiore) është në kontrast me gjuhësinë kombinuese. Në këtë të fundit, rolin dominues e zë aparati matematikor “jo sasior” - teoria e grupeve, logjika matematikore, teoria e algoritmeve etj. Nga pikëpamja teorike, përdorimi i metodave statistikore në gjuhësi bën të mundur plotësimin modeli strukturor i gjuhës me një komponent probabilistik, pra krijimi i një modeli teorik strukturor-probabilistik me një potencial të konsiderueshëm shpjegues. Në fushën e aplikuar, gjuhësia sasiore përfaqësohet, para së gjithash, me përdorimin e fragmenteve të këtij modeli, të përdorura për monitorimin gjuhësor të funksionimit të gjuhës, deshifrimin e tekstit të koduar, autorizimin/atribuimin e tekstit etj.

Termi “gjuhësi kompjuterike” dhe problemet e kësaj fushe shoqërohen shpesh me modelimin e komunikimit dhe mbi të gjitha me sigurimin e ndërveprimit njerëzor me një kompjuter në gjuhë natyrore ose të kufizuar natyrore (për këtë janë krijuar sisteme të veçanta të përpunimit të gjuhës natyrore. ), si dhe me teorinë dhe praktikën e motorëve të kërkimit (IRS). Sigurimi i komunikimit njerëzor me një kompjuter në gjuhën natyrore nganjëherë quhet "përpunim i gjuhës natyrore" (përkthim nga anglishtja i termit Përpunimi i gjuhës natyrore). Kjo fushë e gjuhësisë kompjuterike u ngrit në fund të viteve 1960 jashtë vendit dhe u zhvillua në kuadrin e disiplinës shkencore dhe teknologjike të quajtur inteligjencë artificiale (vepra nga R. Schenk, M. Lebowitz, T. Winograd, etj.). Në kuptimin e saj, shprehja "përpunim i gjuhës natyrore" duhet të mbulojë të gjitha fushat në të cilat kompjuterët përdoren për të përpunuar të dhënat e gjuhës. Megjithatë, në praktikë, ka pasur një kuptim më të ngushtë të termit - zhvillimi i metodave, teknologjive dhe sistemeve specifike që sigurojnë komunikimin njerëzor me një kompjuter në gjuhë natyrore ose të kufizuar natyrore.

Në një farë mase, gjuhësia kompjuterike mund të përfshijë punën në fushën e krijimit të sistemeve të hipertekstit, të konsideruara si një mënyrë e veçantë e organizimit të tekstit dhe madje si një lloj teksti thelbësisht i ri, i kontrastuar në shumë nga vetitë e tij me tekstin e zakonshëm të formuar në traditën e Gutenbergut. e shtypjes (shih Gutenberg).

Kompetenca e gjuhësisë llogaritëse përfshin edhe përkthimin automatik.

Në kuadrin e gjuhësisë kompjuterike, është shfaqur një drejtim relativisht i ri, i cili është zhvilluar në mënyrë aktive që nga vitet 1980-90 - linguistika e korpusit, ku po zhvillohen parime të përgjithshme për ndërtimin e korpuseve të të dhënave gjuhësore (në veçanti, korpuseve të tekstit) duke përdorur teknologji moderne kompjuterike. . Korpuset e tekstit janë koleksione tekstesh të zgjedhura posaçërisht nga librat, revistat, gazetat, etj., të transferuara në media kompjuterike dhe të destinuara për përpunim automatik. Një nga korpuset e para të tekstit u krijua për anglishten amerikane në Universitetin Brown (i ashtuquajturi Korpusi Brown) në 1962-63 nën udhëheqjen e W. Francis. Në Rusi, që nga fillimi i viteve 2000, Instituti i Gjuhës Ruse Vinogradov i Akademisë së Shkencave Ruse ka zhvilluar Korpusin Kombëtar të Gjuhës Ruse, i përbërë nga një mostër përfaqësuese e teksteve në gjuhën ruse me një vëllim prej rreth 100 milion përdorimesh fjalësh. Përveç ndërtimit aktual të korpuseve të të dhënave, linguistika e korpusit merret me krijimin e mjeteve kompjuterike (programeve kompjuterike) të dizajnuara për të nxjerrë informacione të ndryshme nga korpuset e tekstit. Nga këndvështrimi i përdoruesit, korpuset e tekstit i nënshtrohen kërkesave për përfaqësim (përfaqësueshmëri), plotësi dhe ekonomi.

Gjuhësia kompjuterike po zhvillohet në mënyrë aktive si në Rusi ashtu edhe jashtë saj. Fluksi i botimeve në këtë fushë është shumë i madh. Përveç koleksioneve tematike, revista Computational Linguistics botohet çdo tremujor në Shtetet e Bashkuara që nga viti 1984. Shumë punë organizative dhe shkencore kryhet nga Shoqata për Gjuhësinë Kompjuterike, e cila ka struktura rajonale në mbarë botën (në veçanti, një degë evropiane). Çdo dy vjet mbahen konferenca ndërkombëtare COLINT (në vitin 2008 konferenca u mbajt në Mançester). Drejtimet kryesore të gjuhësisë llogaritëse diskutohen gjithashtu në konferencën vjetore ndërkombëtare "Dialog", organizuar nga Instituti Rus i Kërkimeve të Inteligjencës Artificiale, Fakulteti Filologjik i Universitetit Shtetëror të Moskës, Yandex dhe një numër organizatash të tjera. Çështjet përkatëse janë gjithashtu të përfaqësuara gjerësisht në konferencat ndërkombëtare mbi inteligjencën artificiale në nivele të ndryshme.

Lit.: Zvegintsev V. A. Gjuhësia teorike dhe e aplikuar. M., 1968; Piotrovsky R. G., Bektaev K. B., Piotrovskaya A. A. Gjuhësia matematikore. M., 1977; Gorodetsky B. Yu. Problemet aktuale të gjuhësisë së aplikuar // E re në gjuhësinë e huaj. M., 1983. Çështje. 12; Kibrik A. E. Gjuhësia e aplikuar // Kibrik A. E. Ese mbi çështjet e përgjithshme dhe të aplikuara të gjuhësisë. M., 1992; Kennedy G. Një hyrje në linguistikën e korpusit. L., 1998; Bolshakov I.A., Gelbukh A. Gjuhësia kompjuterike: modele, burime, aplikacione. Mekh., 2004; Korpusi Kombëtar i Gjuhës Ruse: 2003-2005. M., 2005; Baranov A. N. Hyrje në gjuhësinë e aplikuar. botimi i 3-të. M., 2007; Gjuhësia kompjuterike dhe teknologjitë intelektuale. M., 2008. Çështje. 7.

Përmbajtja e artikullit

GJUHËSIA KOMPJUTERIKE, drejtim në gjuhësinë e aplikuar, i fokusuar në përdorimin e mjeteve kompjuterike - programeve, teknologjive kompjuterike për organizimin dhe përpunimin e të dhënave - për të modeluar funksionimin e gjuhës në kushte të caktuara, situata, fusha problematike etj., si dhe në të gjithë fushën e zbatimit të modelet kompjuterike të gjuhës në gjuhësi dhe disiplina të ngjashme. Në fakt, vetëm në rastin e fundit po flasim për gjuhësinë e aplikuar në kuptimin e ngushtë, pasi modelimi kompjuterik i gjuhës mund të konsiderohet edhe si fushë e aplikimit të shkencës kompjuterike dhe teorisë së programimit për zgjidhjen e problemeve në shkencën e gjuhës. Megjithatë, në praktikë, gjuhësia llogaritëse përfshin pothuajse gjithçka që lidhet me përdorimin e kompjuterëve në gjuhësi.

Gjuhësia kompjuterike mori formë si një fushë e veçantë shkencore në vitet 1960. Termi rus "gjuhësi kompjuterike" është një përkthim nga linguistika kompjuterike angleze. Meqenëse mbiemri llogaritës në rusisht mund të përkthehet edhe si "llogaritës", termi "gjuhësi kompjuterike" gjendet gjithashtu në literaturë, por në shkencën ruse ai merr një kuptim më të ngushtë, duke iu afruar konceptit të "gjuhësisë sasiore". Fluksi i botimeve në këtë fushë është shumë i madh. Përveç koleksioneve tematike, revista Computer Linguistics botohet çdo tremujor në Shtetet e Bashkuara. Shumë punë organizative dhe shkencore kryhet nga Shoqata për Gjuhësi Kompjuterike, e cila ka struktura rajonale (në veçanti, një degë evropiane). Çdo dy vjet mbahen konferenca ndërkombëtare për gjuhësinë kompjuterike – COLING. Çështjet përkatëse zakonisht përfaqësohen gjerësisht në konferenca të ndryshme mbi inteligjencën artificiale.

Paketa e mjeteve për gjuhësinë kompjuterike.

Gjuhësia kompjuterike si disiplinë e veçantë e aplikuar dallohet në radhë të parë nga instrumenti i saj - d.m.th. mbi përdorimin e mjeteve kompjuterike për përpunimin e të dhënave gjuhësore. Meqenëse programet kompjuterike që modelojnë aspekte të caktuara të funksionimit të një gjuhe mund të përdorin një sërë mjetesh programimi, duket se nuk ka nevojë të flitet për aparatin e përgjithshëm konceptual të gjuhësisë kompjuterike. Megjithatë, nuk është. Ekzistojnë parime të përgjithshme të modelimit kompjuterik të të menduarit, të cilat zbatohen disi në çdo model kompjuterik. Ato bazohen në teorinë e dijes, e cila fillimisht u zhvillua në fushën e inteligjencës artificiale, dhe më vonë u bë një nga degët e shkencës njohëse. Kategoritë më të rëndësishme konceptuale të gjuhësisë kompjuterike janë struktura të tilla njohurish si "kornizat" (struktura konceptuale, ose, siç thonë ata, struktura konceptuale për paraqitjen deklarative të njohurive për një situatë të unifikuar tematikisht të tipizuar), "skenarët" (strukturat konceptuale për procedurat. përfaqësimi i njohurive për një situatë stereotipike ose sjellje stereotipike), "plane" (strukturat e njohurive që kapin idetë për veprimet e mundshme që çojnë në arritjen e një qëllimi të caktuar). I lidhur ngushtë me kategorinë e kornizës është koncepti i "skenës". Kategoria e skenës përdoret kryesisht në literaturën e gjuhësisë llogaritëse si një përcaktim i një strukture konceptuale për paraqitjen deklarative të situatave dhe pjesëve të tyre të aktualizuara në një akt ligjërues dhe të theksuara me mjete gjuhësore (leksema, ndërtime sintaksore, kategori gramatikore, etj.) .

Një grup i organizuar i strukturave të njohurive në një mënyrë të caktuar formon "modelin botëror" të sistemit kognitiv dhe modelin e tij kompjuterik. Në sistemet e inteligjencës artificiale, modeli botëror formon një bllok të veçantë, i cili, në varësi të arkitekturës së zgjedhur, mund të përfshijë njohuri të përgjithshme për botën (në formën e propozimeve të thjeshta si "është ftohtë në dimër" ose në formën e rregullave të prodhimit. "Nëse jashtë bie shi, atëherë duhet të veshësh një mushama ose të marrësh një ombrellë"), disa fakte specifike ("Maja më e lartë në botë është Everesti"), si dhe vlerat dhe hierarkitë e tyre, ndonjëherë të ndara në “blloku aksiologjik” i veçantë.

Shumica e elementeve të koncepteve të mjeteve të gjuhësisë llogaritëse janë homonime: ato njëkohësisht përcaktojnë disa entitete reale të sistemit njohës njerëzor dhe mënyrat e përfaqësimit të këtyre entiteteve të përdorura në përshkrimin dhe modelimin e tyre teorik. Me fjalë të tjera, elementët e aparatit konceptual të gjuhësisë kompjuterike kanë aspekte ontologjike dhe instrumentale. Për shembull, në aspektin ontologjik, ndarja e njohurive deklarative dhe procedurale korrespondon me lloje të ndryshme njohurish në dispozicion të një personi - të ashtuquajturat njohuri WHAT (deklarative; të tilla, për shembull, njohja e adresës postare të disa NN), nga njëra anë, dhe njohuritë SI (procedurale; të tilla, për shembull, njohuri që ju lejojnë të gjeni apartamentin e këtij NN, edhe pa e ditur adresën e tij zyrtare) - nga ana tjetër. Në aspektin instrumental, njohuritë mund të mishërohen në një grup përshkrimesh (përshkrimesh), në një grup të dhënash, nga njëra anë, dhe në një algoritëm, një udhëzim të kryer nga një kompjuter ose ndonjë model tjetër i një sistemi njohës. ne tjetren.

Drejtimet e gjuhësisë llogaritëse.

Fusha e CL është shumë e larmishme dhe përfshin fusha të tilla si modelimi kompjuterik i komunikimit, modelimi i strukturës së komplotit, teknologjitë e hipertekstit për prezantimin e tekstit, përkthimi me makinë dhe leksikografia kompjuterike. Në një kuptim të ngushtë, problemet e CL shpesh shoqërohen me një fushë të aplikuar ndërdisiplinore me emrin disi të pafat "përpunimi i gjuhës natyrore" (përkthimi i termit anglisht Natural Language Processing). Ajo u ngrit në fund të viteve 1960 dhe u zhvillua brenda disiplinës shkencore dhe teknologjike të "inteligjencës artificiale". Në formën e tij të brendshme, fraza "përpunimi i gjuhës natyrore" mbulon të gjitha fushat në të cilat kompjuterët përdoren për të përpunuar të dhënat e gjuhës. Ndërkohë, në praktikë ka zënë vend një kuptim më i ngushtë i këtij termi - zhvillimi i metodave, teknologjive dhe sistemeve specifike që sigurojnë komunikimin e njeriut me një kompjuter në gjuhë natyrore ose të kufizuar natyrore.

Zhvillimi i shpejtë i fushës së "përpunimit të gjuhës natyrore" ndodhi në vitet 1970, i cili u shoqërua me një rritje të papritur eksponenciale të numrit të përdoruesve fundorë të kompjuterit. Meqenëse mësimi i gjuhëve dhe teknologjisë së programimit për të gjithë përdoruesit është i pamundur, ka lindur problemi i organizimit të ndërveprimit me programet kompjuterike. Zgjidhja e këtij problemi të komunikimit ndoqi dy rrugë kryesore. Në rastin e parë, u bënë përpjekje për të përshtatur gjuhët e programimit dhe sistemet operative me përdoruesin përfundimtar. Si rezultat, u shfaqën gjuhë të nivelit të lartë si Visual Basic, si dhe sisteme operative të përshtatshme të ndërtuara në hapësirën konceptuale të metaforave të njohura për njerëzit - DESK, LIBRARY. Mënyra e dytë është zhvillimi i sistemeve që do të lejonin ndërveprimin me një kompjuter në një zonë problematike specifike në gjuhën natyrore ose ndonjë version të kufizuar të tij.

Arkitektura e sistemeve të përpunimit të gjuhës natyrore në rastin e përgjithshëm përfshin një bllok për analizimin e mesazhit të të folurit të përdoruesit, një bllok për interpretimin e mesazhit, një bllok për gjenerimin e kuptimit të përgjigjes dhe një bllok për sintetizimin e strukturës sipërfaqësore të deklaratës. Një pjesë e veçantë e sistemit është komponenti i dialogut, i cili regjistron strategjitë për zhvillimin e dialogut, kushtet për përdorimin e këtyre strategjive dhe mënyrat për të kapërcyer dështimet e mundshme të komunikimit (dështimet në procesin e komunikimit).

Midis sistemeve kompjuterike të përpunimit të gjuhës natyrore, zakonisht dallohen sistemet pyetje-përgjigje, sistemet ndërvepruese të zgjidhjes së problemeve dhe sistemet e lidhura të përpunimit të tekstit. Fillimisht, sistemet pyetje-përgjigje filluan të zhvillohen si një reagim ndaj cilësisë së dobët të kodimit të pyetjeve gjatë kërkimit të informacionit në sistemet e marrjes së informacionit. Meqenëse zona e problemit të sistemeve të tilla ishte shumë e kufizuar, kjo thjeshtoi disi algoritmet për përkthimin e pyetjeve në një paraqitje në një gjuhë zyrtare dhe procedurën e kundërt për konvertimin e një paraqitjeje formale në deklarata në një gjuhë natyrore. Ndër zhvillimet e brendshme, programet e këtij lloji përfshijnë sistemin POET, të krijuar nga një ekip studiuesish nën udhëheqjen e E.V. Sistemi përpunon kërkesat në Rusisht (me kufizime të vogla) dhe sintetizon përgjigjen. Skema e rrjedhës së programit përfshin kalimin e të gjitha fazave të analizës (morfologjike, sintaksore dhe semantike) dhe fazat përkatëse të sintezës.

Sistemet e zgjidhjes së problemeve biseduese, ndryshe nga sistemet e tipit të mëparshëm, luajnë një rol aktiv në komunikim, pasi detyra e tyre është të marrin një zgjidhje për problemin bazuar në njohuritë që paraqiten në të dhe informacionin që mund të merret nga përdoruesi. Sistemi përmban struktura njohurish që regjistrojnë sekuenca tipike të veprimeve për zgjidhjen e problemeve në një fushë të caktuar problemore, si dhe informacione rreth burimeve të nevojshme. Kur një përdorues bën një pyetje ose vendos një detyrë specifike, skripti përkatës aktivizohet. Nëse disa komponentë të skriptit mungojnë ose disa burime mungojnë, sistemi fillon komunikimin. Kështu funksionon për shembull sistemi SNUKA, duke zgjidhur problemet e planifikimit të operacioneve ushtarake.

Sistemet për përpunimin e teksteve të lidhura janë mjaft të ndryshme në strukturë. Karakteristika e tyre e përbashkët mund të konsiderohet përdorimi i gjerë i teknologjive të përfaqësimit të njohurive. Funksionet e sistemeve të këtij lloji janë të kuptojnë tekstin dhe t'u përgjigjen pyetjeve rreth përmbajtjes së tij. Të kuptuarit nuk konsiderohet si një kategori universale, por si një proces i nxjerrjes së informacionit nga një tekst, i përcaktuar nga një qëllim specifik komunikues. Me fjalë të tjera, teksti "lexohet" vetëm me supozimin se pikërisht ajo që përdoruesi potencial dëshiron të dijë për të. Kështu, sistemet për përpunimin e teksteve të lidhura rezultojnë të jenë aspak universale, por të orientuara drejt problemeve. Shembuj tipikë të sistemeve të tipit të diskutuar janë sistemet RESEARCHER dhe TAILOR, të cilat formojnë një paketë të vetme softuerike që i lejon përdoruesit të marrë informacion nga abstraktet e patentave që përshkruajnë objekte fizike komplekse.

Fusha më e rëndësishme e gjuhësisë kompjuterike është zhvillimi i sistemeve të marrjes së informacionit (IRS). Kjo e fundit u ngrit në fund të viteve 1950 dhe në fillim të viteve 1960 si një përgjigje ndaj rritjes së mprehtë të vëllimit të informacionit shkencor dhe teknik. Në bazë të llojit të informacionit të ruajtur dhe të përpunuar, si dhe në veçoritë e kërkimit, sistemet e marrjes së informacionit ndahen në dy grupe të mëdha - dokumentare dhe faktike. Sistemet e marrjes së informacionit dokumentar ruajnë tekstet e dokumenteve ose përshkrimet e tyre (abstrakte, karta bibliografike, etj.). IRS faktike merret me përshkrimin e fakteve specifike, dhe jo domosdoshmërisht në formë teksti. Këto mund të jenë tabela, formula dhe lloje të tjera të paraqitjes së të dhënave. Ekzistojnë gjithashtu sisteme të përziera informacioni, duke përfshirë dokumente dhe informacione faktike. Aktualisht, sistemet e informacionit faktik janë ndërtuar mbi bazën e teknologjive të bazës së të dhënave (DB). Për të siguruar rikthimin e informacionit në sistemin e marrjes së informacionit, krijohen gjuhë të veçanta për marrjen e informacionit, të cilat bazohen në tezaurët e marrjes së informacionit. Gjuha e marrjes së informacionit është një gjuhë zyrtare e krijuar për të përshkruar disa aspekte të planit të përmbajtjes së dokumenteve të ruajtura në sistemin e marrjes së informacionit dhe kërkesës. Procedura për përshkrimin e një dokumenti në një gjuhë të marrjes së informacionit quhet indeksim. Si rezultat i indeksimit, çdo dokumenti i caktohet përshkrimi i tij zyrtar në një gjuhë të marrjes së informacionit - një imazh kërkimi i dokumentit. Pyetja indeksohet në mënyrë të ngjashme, të cilës i caktohet një imazh i pyetjes së kërkimit dhe një recetë kërkimi. Algoritmet e marrjes së informacionit bazohen në krahasimin e recetës së kërkimit me imazhin e pyetjes së kërkimit. Kriteri për lëshimin e një dokumenti për një kërkesë mund të jetë një përputhje e plotë ose e pjesshme e imazhit të kërkimit të dokumentit dhe udhëzimit të kërkimit. Në disa raste, përdoruesi ka mundësinë të formulojë vetë kriteret e lëshimit. Kjo përcaktohet nga nevoja e tij për informacion. Sistemet e automatizuara të marrjes së informacionit shpesh përdorin gjuhë të marrjes së informacionit përshkrues. Subjekti i një dokumenti përshkruhet nga një grup përshkruesish. Përshkruesit janë fjalë dhe terma që tregojnë kategori dhe koncepte të thjeshta, mjaft elementare të zonës së problemit. Në imazhin e kërkimit të dokumentit futen aq shumë përshkrues sa ka tema të ndryshme të mbuluara në dokument. Numri i përshkruesve nuk është i kufizuar, gjë që ju lejon të përshkruani dokumentin në një matricë shumëdimensionale të veçorive. Shpesh në një gjuhë të marrjes së informacionit përshkrues, vendosen kufizime në përputhshmërinë e përshkruesve. Në këtë rast, mund të themi se gjuha e marrjes së informacionit ka sintaksë.

Një nga sistemet e para që funksionoi me një gjuhë përshkruese ishte sistemi amerikan UNITERM, i krijuar nga M. Taube. Fjalët kyçe të dokumentit - një terma - funksionuan si përshkrues në këtë sistem. E veçanta e kësaj IRS është se fillimisht fjalori i gjuhës së informacionit nuk u specifikua, por u ngrit në procesin e indeksimit të dokumentit dhe pyetjes. Zhvillimi i sistemeve moderne të marrjes së informacionit shoqërohet me zhvillimin e sistemeve të marrjes së informacionit të tipit jo-thesaurus. Sisteme të tilla informacioni punojnë me përdoruesin në një gjuhë të kufizuar natyrore, dhe kërkimi kryhet përmes teksteve të abstrakteve të dokumenteve, përmes përshkrimeve të tyre bibliografike dhe shpesh përmes vetë dokumenteve. Për indeksimin në llojin jo-tezaur IRS, përdoren fjalë dhe fraza të gjuhës natyrore.

Në një farë mase, fusha e gjuhësisë kompjuterike mund të përfshijë punë në fushën e krijimit të sistemeve hipertekstike, e konsideruar si një mënyrë e veçantë e organizimit të tekstit dhe madje si një lloj teksti thelbësisht i ri, i kontrastuar në shumë nga vetitë e tij me tekstin e zakonshëm të formuar në traditën e Gutenbergut të shtypjes. Ideja e hipertekstit lidhet me emrin e Vannevar Bush, këshilltarit të Presidentit F. Roosevelt për shkencën. V. Bush vërtetoi teorikisht projektin e sistemit teknik Memex, i cili i lejonte përdoruesit të lidhte tekstet dhe fragmentet e tyre duke përdorur lloje të ndryshme lidhjesh, kryesisht nga marrëdhëniet shoqëruese. Mungesa e teknologjisë kompjuterike e bëri projektin të vështirë për t'u zbatuar, pasi sistemi mekanik doli të ishte shumë kompleks për zbatimin praktik.

Ideja e Bushit u rilind në vitet 1960 në sistemin Xanadu të T. Nelson, i cili tashmë përfshinte përdorimin e teknologjisë kompjuterike. "Xanadu" i lejoi përdoruesit të lexonte një grup tekstesh të futura në sistem në mënyra të ndryshme, në sekuenca të ndryshme, softueri bëri të mundur që të dy të mbanin mend sekuencën e teksteve të shikuara dhe të zgjidhnin pothuajse cilindo prej tyre në çdo kohë; Një grup tekstesh me marrëdhënie që i lidhin (një sistem tranzicioni) u quajt hipertekst nga T. Nelson. Shumë studiues e shohin krijimin e hipertekstit si fillimin e një epoke të re informacioni, në kundërshtim me epokën e shtypjes. Lineariteti i shkrimit, i cili nga jashtë pasqyron linearitetin e të folurit, rezulton të jetë një kategori themelore që kufizon mendimin dhe kuptimin njerëzor të tekstit. Bota e kuptimit është jolineare, prandaj, ngjeshja e informacionit semantik në një segment linear të të folurit kërkon përdorimin e një "paketimi komunikues" të veçantë - ndarja në temë dhe remë, ndarja e planit të përmbajtjes së një thënie në të qartë (deklaratë, propozim, fokus) dhe shtresa të nënkuptuara (parasupozim, pasojë, nënkuptim ligjërimi) . Refuzimi i linearitetit të tekstit si në procesin e paraqitjes së tij tek lexuesi (d.m.th. gjatë leximit dhe të kuptuarit), ashtu edhe në procesin e sintezës, sipas teoricienëve, do të kontribuonte në "çlirimin" e të menduarit dhe madje edhe në shfaqjen e tij. forma të reja.

Në një sistem kompjuterik, hiperteksti paraqitet në formën e një grafiku, nyjet e të cilit përmbajnë tekste tradicionale ose fragmente të tyre, imazhe, tabela, video etj. Nyjet janë të lidhura nga një sërë marrëdhëniesh, llojet e të cilave specifikohen nga zhvilluesit e softuerit të hipertekstit ose nga vetë lexuesi. Marrëdhëniet përcaktojnë mundësitë e mundshme të lëvizjes, ose lundrimit përmes hipertekstit. Marrëdhëniet mund të jenë të njëanshme ose të dyanshme. Rrjedhimisht, shigjetat me dy drejtime lejojnë përdoruesin të lëvizë në të dy drejtimet, ndërsa shigjetat me një drejtim lejojnë përdoruesin të lëvizë vetëm në një drejtim. Zinxhiri i nyjeve nëpër të cilat kalon lexuesi kur shikon përbërësit e tekstit formon një shteg, ose rrugë.

Implementimet kompjuterike të hipertekstit mund të jenë hierarkike ose në rrjet. Struktura hierarkike – e ngjashme me pemën – e hipertekstit kufizon ndjeshëm mundësitë e kalimit midis përbërësve të tij. Në një hipertekst të tillë, marrëdhëniet midis komponentëve i ngjajnë strukturës së një thesaurus bazuar në marrëdhëniet gjini-specie. Hiperteksti i rrjetit lejon përdorimin e llojeve të ndryshme të marrëdhënieve midis komponentëve, pa u kufizuar në marrëdhëniet gjini-specie. Sipas metodës së ekzistimit të hipertekstit dallohen hipertekstet statike dhe dinamike. Hiperteksti statik nuk ndryshon gjatë funksionimit; në të përdoruesi mund të regjistrojë komentet e tij, por ato nuk e ndryshojnë thelbin e çështjes. Për hipertekstin dinamik, ndryshimi është një formë normale e ekzistencës. Në mënyrë tipike, hipertekstet dinamike funksionojnë aty ku është e nevojshme të analizohet vazhdimisht rrjedha e informacionit, d.m.th. në shërbimet e informacionit të llojeve të ndryshme. Hiperteksti është, për shembull, Sistemi i Informacionit të Arizonës (AAIS), i cili përditësohet çdo muaj nga 300–500 abstrakte në muaj.

Marrëdhëniet midis elementeve të hipertekstit mund të rregullohen fillimisht nga krijuesit, ose ato mund të gjenerohen sa herë që një përdorues akseson hipertekstin. Në rastin e parë po flasim për hipertekste të një strukture të fortë, dhe në të dytën - për hipertekste të një strukture të butë. Struktura e ngurtë është teknologjikisht mjaft e kuptueshme. Teknologjia për organizimin e një strukture të butë duhet të bazohet në një analizë semantike të afërsisë së dokumenteve (ose burimeve të tjera të informacionit) me njëri-tjetrin. Kjo është një detyrë jo e parëndësishme në gjuhësinë kompjuterike. Në ditët e sotme, përdorimi i teknologjive të strukturave të buta në fjalë kyçe është i përhapur. Kalimi nga një nyje në tjetrën në një rrjet hiperteksti kryhet si rezultat i kërkimit të fjalëve kyçe. Meqenëse grupi i fjalëve kyçe mund të jetë i ndryshëm çdo herë, struktura e hipertekstit ndryshon çdo herë.

Teknologjia për ndërtimin e sistemeve të hipertekstit nuk bën dallimin midis informacionit tekst dhe jotekst. Ndërkohë, përfshirja e informacionit vizual dhe audio (video, foto, fotografi, regjistrime zanore etj.) kërkon një ndryshim të rëndësishëm në ndërfaqen e përdoruesit dhe mbështetje më të fuqishme softuerike dhe kompjuterike. Sisteme të tilla quhen hipermedia, ose multimedia. Dukshmëria e sistemeve multimediale paracaktoi përdorimin e tyre të gjerë në mësimdhënie dhe në krijimin e versioneve kompjuterike të enciklopedive. Ka, për shembull, CD-rom të prodhuar bukur me sisteme multimediale të bazuara në enciklopeditë për fëmijë të botuara nga Dorlin Kindersley.

Në kuadër të leksikografisë kompjuterike po zhvillohen teknologji kompjuterike për hartimin dhe funksionimin e fjalorëve. Programet speciale - bazat e të dhënave, kabinetet e skedarëve kompjuterikë, programet e përpunimit të tekstit - ju lejojnë të gjeneroni automatikisht hyrje në fjalor, të ruani informacionin e fjalorit dhe ta përpunoni atë. Shumë programe të ndryshme leksikografike kompjuterike ndahen në dy grupe të mëdha: programe për mbështetjen e veprave leksikografike dhe fjalorë automatikë të llojeve të ndryshme, duke përfshirë bazat e të dhënave leksikografike. Një fjalor automatik është një fjalor në një format të veçantë makine, i destinuar për t'u përdorur në një kompjuter nga një përdorues ose një program kompjuterik për përpunimin e tekstit. Me fjalë të tjera, ekziston një dallim midis fjalorëve automatikë për përdoruesin e fundit njerëzor dhe fjalorëve automatikë për programet e përpunimit të tekstit. Fjalorët automatikë të destinuar për përdoruesin përfundimtar ndryshojnë ndjeshëm në ndërfaqen dhe strukturën e hyrjes së fjalorit nga fjalorët automatikë të përfshirë në sistemet e përkthimit makinerik, sistemet automatike të abstraktimit, sistemet e marrjes së informacionit, etj. Më shpesh ato janë versione kompjuterike të fjalorëve të mirënjohur konvencionalë. Në tregun e softuerëve ka analoge kompjuterike të fjalorëve shpjegues të gjuhës angleze (Webster automatik, fjalor automatik shpjegues i gjuhës angleze botuar nga Collins, versioni automatik i Fjalorit të ri të madh anglez-rus të redaktuar nga Yu.D. Apresyan dhe E.M. Mednikova), ekziston gjithashtu një version kompjuterik i fjalorit të Ozhegov. Fjalorët automatikë për programet e përpunimit të tekstit mund të quhen fjalorë automatikë në kuptimin e ngushtë. Ata në përgjithësi nuk janë të destinuara për përdoruesin mesatar. Veçoritë e strukturës së tyre dhe shtrirja e materialit të fjalorit përcaktohen nga programet që ndërveprojnë me to.

Modelimi kompjuterik i strukturës së komplotit është një fushë tjetër premtuese e gjuhësisë kompjuterike. Studimi i strukturës së komplotit lidhet me problemet e kritikës strukturore letrare (në kuptimin e gjerë), semiotikës dhe studimeve kulturore. Programet kompjuterike të disponueshme për modelimin e komplotit bazohen në tre formalizma bazë për paraqitjen e komplotit - drejtimet morfologjike dhe sintaksore të paraqitjes së komplotit, si dhe në qasjen njohëse. Idetë për strukturën morfologjike të strukturës së komplotit kthehen në veprat e famshme të V.Ya. cm.) për një përrallë ruse. Propp vuri re se me bollëkun e personazheve dhe ngjarjeve në një përrallë, numri i funksioneve të personazheve është i kufizuar dhe ai propozoi një aparat për përshkrimin e këtyre funksioneve. Idetë e Propp formuan bazën e programit kompjuterik TALE, i cili simulon gjenerimin e një komploti përrallë. Algoritmi i programit TALE bazohet në sekuencën e funksioneve të personazheve në përrallë. Në fakt, funksionet e Propp-it përcaktuan një grup situatash të tipizuara, të renditura në bazë të një analize të materialit empirik. Mundësitë e lidhjes së situatave të ndryshme në rregullat e gjenerimit u përcaktuan nga një sekuencë tipike funksionesh - në formën në të cilën kjo mund të përcaktohet nga tekstet e përrallave. Në program, sekuencat tipike të funksioneve u përshkruan si skenarë tipikë të takimit të karaktereve.

Baza teorike e qasjes sintaksore ndaj komplotit të një teksti ishte "gramatika e tregimeve" ose "gramatika e tregimeve". Ato u shfaqën në mesin e viteve 1970 si rezultat i transferimit të ideve të gramatikës gjeneruese të N. Chomsky në përshkrimin e makrostrukturës së tekstit. Nëse përbërësit më të rëndësishëm të strukturës sintaksore në një gramatikë gjeneruese ishin frazat foljore dhe emërore, atëherë në shumicën e gramatikave të komplotit ekspozimi (vendosja), ngjarja dhe episodi u veçuan si ato themelore. Në teorinë e gramatikës së komplotit, janë diskutuar gjerësisht kushtet e minimalitetit, domethënë kufizimet që përcaktojnë statusin e një sekuence elementësh të komplotit si një komplot normal. Sidoqoftë, doli se kjo nuk mund të bëhet duke përdorur metoda thjesht gjuhësore. Shumë kufizime kanë natyrë sociokulturore. Gramatikat e skicave, ndërkohë që ndryshonin ndjeshëm në grupin e kategorive në pemën e gjenerimit, lejuan një grup shumë të kufizuar rregullash për modifikimin e strukturës narrative.

Në fillim të viteve 1980, një nga studentët e R. Schenk, V. Lehnert, si pjesë e punës së saj për krijimin e një gjeneratori të komplotit kompjuterik, propozoi një formalizëm origjinal të njësive të komplotit emocional (Affective Plot Units), i cili doli të ishte një mjet i fuqishëm. të përfaqësimit të strukturës së parcelës. Përkundër faktit se fillimisht u zhvillua për një sistem të inteligjencës artificiale, ky formalizëm u përdor në studime thjesht teorike. Thelbi i qasjes së Lehnert ishte se komploti përshkruhej si një ndryshim vijues në gjendjet kognitive-emocionale të personazheve. Kështu, fokusi i formalizmit të Lehnert nuk është në përbërësit e jashtëm të komplotit - ekspozimi, ngjarja, episodi, morali - por në karakteristikat e tij të përmbajtjes. Në këtë aspekt, formalizmi i Lehnert është pjesërisht një rikthim në idetë e Propp-it.

Kompetenca e gjuhësisë kompjuterike përfshin edhe përkthimin me makinë, i cili aktualisht po përjeton një rilindje.

Literatura:

Popov E.V. Komunikimi me kompjuter në gjuhën natyrore. M., 1982
Sadur V.G. Komunikimi i të folurit me kompjuterët elektronikë dhe problemet e zhvillimit të tyre. – Në librin: Komunikimi i të folurit: problemet dhe perspektivat. M., 1983
Baranov A.N. Kategoritë e inteligjencës artificiale në semantikën gjuhësore. Kornizat dhe skriptet. M., 1987
Kobozeva I.M., Laufer N.I., Saburova I.G. Modelimi i komunikimit në sistemet njeri-makinë. – Mbështetja gjuhësore e sistemeve të informacionit. M., 1987
Olker H.R. Përralla, tragjedi dhe mënyra të paraqitjes së historisë botërore. – Në librin: Gjuha dhe modelimi i ndërveprimit social. M., 1987
Gorodetsky B.Yu. Gjuhësia kompjuterike: modelimi i komunikimit gjuhësor
McQueen K. Strategjitë e ligjërimit për sintezën e tekstit të gjuhës natyrore. – E re në gjuhësinë e huaj. Vëll. XXIV, Gjuhësia kompjuterike. M., 1989
Popov E.V., Preobrazhensky A.B. . Karakteristikat e zbatimit të sistemeve NL
Preobrazhensky A.B. Gjendja e zhvillimit të sistemeve moderne NL. - Inteligjence artificiale. Libër 1, Sistemet e komunikimit dhe sistemet e ekspertëve. M., 1990
Subbotin M.M. Hiperteksti. Një formë e re e komunikimit me shkrim. – VINITI, Ser. Shkenca Kompjuterike, 1994, vëll
Baranov A.N. Hyrje në Gjuhësinë e Aplikuar. M., 2000



Prezantimi

Çfarë është gjuhësia kompjuterike?

GJUHËSIA KOMPJUTERIKE , një drejtim në gjuhësinë e aplikuar, i përqendruar në përdorimin e mjeteve kompjuterike - programeve, teknologjive kompjuterike për organizimin dhe përpunimin e të dhënave - për të modeluar funksionimin e gjuhës në kushte të caktuara, situata, fusha problematike etj., si dhe në të gjithë fushën e aplikimi i modeleve kompjuterike të gjuhës në gjuhësi dhe disiplina të ngjashme. Në fakt, vetëm në rastin e fundit po flasim për gjuhësinë e aplikuar në kuptimin e ngushtë, pasi modelimi kompjuterik i gjuhës mund të konsiderohet edhe si fushë e aplikimit të shkencës kompjuterike dhe teorisë së programimit për zgjidhjen e problemeve në shkencën e gjuhës. Megjithatë, në praktikë, gjuhësia llogaritëse përfshin pothuajse gjithçka që lidhet me përdorimin e kompjuterëve në gjuhësi.

Gjuhësia kompjuterike mori formë si një fushë e veçantë shkencore në vitet 1960. Termi rus "gjuhësi kompjuterike" është një përkthim nga linguistika kompjuterike angleze. Meqenëse mbiemri llogaritës në rusisht mund të përkthehet edhe si "llogaritës", termi "gjuhësi kompjuterike" gjendet gjithashtu në literaturë, por në shkencën ruse ai merr një kuptim më të ngushtë, duke iu afruar konceptit të "gjuhësisë sasiore". Fluksi i botimeve në këtë fushë është shumë i madh. Përveç koleksioneve tematike, revista Computer Linguistics botohet çdo tremujor në Shtetet e Bashkuara. Shumë punë organizative dhe shkencore kryhet nga Shoqata për Gjuhësi Kompjuterike, e cila ka struktura rajonale (në veçanti, një degë evropiane). Çdo dy vjet mbahen konferenca ndërkombëtare për gjuhësinë kompjuterike – COLING. Çështjet përkatëse zakonisht përfaqësohen gjerësisht në konferenca të ndryshme mbi inteligjencën artificiale.

Detyrat

Gjuhësia kompjuterike merr përsipër problemet aktuale gjuhësore të modelimit kompjuterik të veprimtarisë gjuhësore. Objektivat e tij janë të ndërtojë modele gjuhësore më të sakta dhe të plota dhe algoritme më të avancuara të analizës dhe sintezës.

Drejtimet kryesore mund të identifikohen:

1) Ndërveprimi midis njeriut dhe kompjuterit: kontroll - gjuhë programimi, transferim informacioni - ndërfaqe.

2) Puna me tekste: indeksimi, analiza dhe klasifikimi, redaktimi automatik (korrigjimi i gabimeve), identifikimi i njohurive, përkthimi me makinë.

Histori

Gjenerimi i thjeshtë i një nëngrupi të gjuhës angleze për aksesin në bazat e të dhënave u sigurua nga një nga sistemet e hershme amerikane LIFER (Language Interface Facility me Elipsis dhe Recursion), i krijuar në vitet '70. Pas tij, sisteme të tjera, më fleksibël u shfaqën në tregun e kompjuterëve, duke siguruar një ndërfaqe të kufizuar gjuhësore natyrore me një kompjuter.

Në vitet '80, në Shtetet e Bashkuara u formuan një numër kompanish të angazhuara në zhvillimin dhe shitjen e ndërfaqeve të gjuhëve natyrore me bazat e të dhënave dhe sistemet e ekspertëve. Në vitin 1985 Korporata Semantek prezantoi një paketë të tillë softuerike për pyetje dhe përgjigje, dhe kompania Carnegie Group ofroi një paketë të ngjashme LanguageCraft.

Puna aktive është duke u zhvilluar për krijimin e sistemeve automatike të përkthimit. Sistemi i përkthimit automatik SYSTRAN, i zhvilluar nën udhëheqjen e D. Tom për Forcat Ajrore të SHBA, është bërë i përhapur. Gjatë viteve 1974 - 1975 Sistemi u përdor nga shoqata e hapësirës ajrore NASA për të përkthyer dokumente për projektin Apollo-Soyuz. Në ditët e sotme, ajo përkthen rreth 100,000 faqe në vit nga disa gjuhë.

Në Evropë, puna për krijimin e sistemeve kompjuterike të përkthimit u stimulua nga formimi i Rrjetit Evropian të Informacionit (EURONET DIANA). Në vitin 1982, Komuniteti Ekonomik Evropian shpalli krijimin e programit evropian EUROTRA, qëllimi i të cilit është të zhvillojë një sistem përkthimi të asistuar me kompjuter për të gjitha gjuhët evropiane. Projekti u vlerësua fillimisht në 12 milion dollarë në 1987, ekspertët përcaktuan kostot totale të këtij projekti në më shumë se 160 milion dollarë.

Në Japoni, kërkimet në linguistikën kompjuterike përqendrohen rreth programit kompjuterik mbarëkombëtar të gjeneratës së pestë të shpallur në 1981.

Ka një sërë projektesh ushtarake për të krijuar ndërfaqe njeri-makinë në gjuhën natyrore. Në Shtetet e Bashkuara, ato kryhen kryesisht në kuadër të Iniciativës Strategjike Kompjuterike, një program dhjetëvjeçar i miratuar nga Departamenti i Mbrojtjes në vitin 1983. Qëllimi i tij është të krijojë një gjeneratë të re të armëve dhe sistemeve ushtarake "inteligjente" në për të siguruar epërsinë teknologjike afatgjatë të Shteteve të Bashkuara.

Natyrisht, specialistët e inteligjencës artificiale, të cilët janë të përgatitur mirë në kompjuterë dhe gjuhë programimi, filluan me energji të zgjidhin problemin e të kuptuarit të gjuhës duke përdorur metodat e tyre. Kishte një kërkim për algoritme të gjuhës natyrore. Janë krijuar programe komplekse të të kuptuarit të gjuhës për fusha shumë të ngushta të specializuara, janë zbatuar programe të pjesshme të përkthimit me makinë dhe një sërë të tjerash. Por nuk pati përparim vendimtar në zgjidhjen e problemit të të kuptuarit të gjuhës. Gjuha dhe njerëzit janë aq të lidhur sa shkencëtarët duhet të trajtojnë problemin e të kuptuarit njerëzor të botës. Dhe kjo është tashmë fusha e filozofisë.

Konceptet bazë të gjuhësisë

Gjuhëtarët e kompjuterave janë të angazhuar në zhvillimin e algoritmeve të njohjes së tekstit dhe të folurit, sintezën e të folurit artificial, krijimin e sistemeve të përkthimit semantik dhe vetë zhvillimin e inteligjencës artificiale (në kuptimin klasik të fjalës - si një zëvendësim për inteligjencën njerëzore - ajo nuk ka gjasa të shfaqet ndonjëherë, por sisteme të ndryshme ekspertësh bazuar në analizën e të dhënave).

Algoritmet e njohjes së të folurit do të përdoren gjithnjë e më shumë në jetën e përditshme - shtëpitë inteligjente dhe pajisjet elektronike nuk do të kenë telekomandë dhe butona, por në vend të kësaj do të përdoret një ndërfaqe zanore. Kjo teknologji është duke u rafinuar, por ka ende shumë sfida: është e vështirë për një kompjuter të njohë fjalimin e njeriut, sepse njerëz të ndryshëm flasin shumë ndryshe. Prandaj, si rregull, sistemet e njohjes funksionojnë mirë ose kur janë të trajnuar për një folës dhe janë përshtatur tashmë me veçoritë e tij të shqiptimit, ose kur numri i frazave që sistemi mund të njohë është i kufizuar (si, për shembull, në komandat zanore për një TV).

Specialistët në krijimin e programeve të përkthimit semantik kanë ende shumë punë përpara: për momentin, algoritme të mira janë zhvilluar vetëm për përkthim në dhe nga anglishtja. Këtu ka shumë probleme - gjuhë të ndryshme janë të strukturuara ndryshe semantikisht, kjo ndryshon edhe në nivelin e ndërtimit të frazave, dhe jo të gjitha kuptimet e një gjuhe mund të përcillen duke përdorur aparatin semantik të një tjetre. Përveç kësaj, programi duhet të dallojë homonimet, të njohë saktë pjesët e të folurit dhe të zgjedhë kuptimin e saktë të një fjale polisemantike që i përshtatet kontekstit.

Sinteza e të folurit artificial (për shembull, për robotët në shtëpi) është gjithashtu punë e mundimshme. Është e vështirë të bësh fjalën e krijuar artificialisht të tingëllojë e natyrshme për veshin e njeriut, sepse ka miliona nuanca që ne nuk i kushtojmë vëmendje, por pa të cilat gjithçka nuk është më "e njëjtë" - fillime të rreme, pauza, hezitime, etj. Rrjedha e të folurit është e vazhdueshme dhe në të njëjtën kohë diskrete: ne flasim pa pushim midis fjalëve, por nuk është e vështirë për ne të kuptojmë se ku mbaron një fjalë dhe fillon një tjetër, por për një makinë kjo do të ishte një problem i madh.

Drejtimi më i madh në gjuhësinë llogaritëse lidhet me Big Data. Në fund të fundit, ka korpuse të mëdha tekstesh si burimet e lajmeve, nga të cilat është e nevojshme të izolohen informacione të caktuara - për shembull, të theksohen burimet e lajmeve ose të përshtaten RSS sipas shijeve të një përdoruesi të caktuar. Teknologji të tilla tashmë ekzistojnë dhe do të vazhdojnë të zhvillohen, sepse fuqia kompjuterike po rritet me shpejtësi. Analiza e tekstit gjuhësor përdoret gjithashtu për të garantuar sigurinë e internetit dhe kërkimin e informacionit të nevojshëm për shërbimet e inteligjencës.

Ku të studioni për t'u bërë gjuhëtar kompjuteri? Në vendin tonë, për fat të keq, specialitetet që lidhen me gjuhësinë dhe programimin klasik, statistikat dhe analizën e të dhënave janë mjaft të ndara. Dhe për t'u bërë një gjuhëtar dixhital, duhet t'i kuptoni të dyja. Universitetet e huaja kanë programe të arsimit të lartë në gjuhësinë kompjuterike, por tani për tani alternativa më e mirë për ne është të marrim një arsim bazë gjuhësor dhe më pas të zotërojmë bazat e IT. Është mirë që tani ka shumë kurse të ndryshme në internet, për fat të keq, nuk ishte kështu gjatë viteve të mia studentore. Kam studiuar në Fakultetin e Gjuhësisë së Aplikuar në Universitetin Shtetëror të Gjuhësisë së Moskës, ku kishim kurse për inteligjencën artificiale dhe njohjen e të folurit - por ende jo në vëllim të mjaftueshëm. Tani kompanitë e TI-së po përpiqen në mënyrë aktive të ndërveprojnë me institucionet. Unë dhe kolegët e mi nga Kaspersky Lab gjithashtu përpiqemi të marrim pjesë në procesin arsimor: japim leksione, mbajmë konferenca studentore dhe japim grante për studentët e diplomuar. Por deri tani nisma vjen më shumë nga punëdhënësit sesa nga universitetet.



Ju pëlqeu artikulli? Ndani me miqtë tuaj!