Vsebina članka

RAČUNALNIŠKO JEZIKOSLOVJE, smer uporabnega jezikoslovja, usmerjena v uporabo računalniških orodij – programov, računalniških tehnologij za organiziranje in obdelavo podatkov – za modeliranje delovanja jezika v določenih razmerah, situacijah, problemskih območjih ipd., kot tudi v celotnem obsegu uporabe računalniški jezikovni modeli v jezikoslovju in sorodnih disciplinah. Pravzaprav le v slednjem primeru govorimo o uporabnem jezikoslovju v ožjem pomenu, saj lahko računalniško modeliranje jezika obravnavamo tudi kot področje uporabe računalniške znanosti in teorije programiranja pri reševanju problemov v znanosti o jeziku. V praksi pa računalniško jezikoslovje vključuje skoraj vse, kar je povezano z uporabo računalnikov v jezikoslovju.

Računalniško jezikoslovje se je kot posebno znanstveno področje izoblikovalo v šestdesetih letih prejšnjega stoletja. Ruski izraz "računalniška lingvistika" je prevod iz angleškega računalniškega jezikoslovja. Ker pridevnik računalniški v ruščini lahko prevedemo tudi kot »računalniški«, v literaturi najdemo tudi izraz »računalniška lingvistika«, ki pa ima v ruski znanosti ožji pomen in se približuje pojmu »kvantitativna lingvistika«. Pretok objav na tem področju je zelo velik. Poleg tematskih zbirk v ZDA četrtletno izhaja revija Computer Linguistics. Veliko organizacijskega in znanstvenega dela opravlja Združenje za računalniško jezikoslovje, ki ima regionalne strukture (predvsem evropsko podružnico). Vsaki dve leti potekajo mednarodne konference o računalniški lingvistiki – COLING. Ustrezna vprašanja so običajno široko zastopana na različnih konferencah o umetni inteligenci.

Zbirka orodij za računalniško jezikoslovje.

Računalniško jezikoslovje kot posebno aplikativno disciplino odlikuje predvsem instrument – t.j. o uporabi računalniških orodij za obdelavo jezikovnih podatkov. Ker lahko računalniški programi, ki modelirajo določene vidike delovanja jezika, uporabljajo različna programska orodja, se zdi, da ni treba govoriti o splošnem konceptualnem aparatu računalniškega jezikoslovja. Vendar to ne drži. Obstajajo splošna načela računalniškega modeliranja mišljenja, ki so nekako implementirana v kateri koli računalniški model. Temeljijo na teoriji znanja, ki se je prvotno razvila na področju umetne inteligence, kasneje pa je postala ena od vej kognitivne znanosti. Najpomembnejše konceptualne kategorije računalniškega jezikoslovja so takšne strukture znanja, kot so "okvirji" (konceptualne ali, kot pravijo, konceptualne strukture za deklarativno predstavitev znanja o tipizirani tematsko enotni situaciji), "scenariji" (konceptualne strukture za proceduralne predstavitev znanja o stereotipni situaciji ali stereotipnem vedenju), »načrti« (strukture znanja, ki zajemajo ideje o možnih dejanjih, ki vodijo k doseganju določenega cilja). S kategorijo okvirja je tesno povezan koncept »scene«. Kategorija prizora se v literaturi o računalniškem jezikoslovju uporablja predvsem kot označba konceptualne strukture za izjavno predstavitev situacij in njihovih delov, aktualiziranih v govornem dejanju in poudarjenih z jezikovnimi sredstvi (leksemi, skladenjske konstrukcije, slovnične kategorije itd.) .

Organiziran niz struktur znanja na določen način tvori »svetovni model« kognitivnega sistema in njegov računalniški model. V sistemih umetne inteligence model sveta tvori poseben blok, ki lahko glede na izbrano arhitekturo vključuje splošno znanje o svetu (v obliki enostavnih predlogov, kot je »pozimi je hladno« ali v obliki produkcijskih pravil "če zunaj dežuje, potem morate obleči dežni plašč ali vzeti dežnik"), nekaj posebnih dejstev ("Najvišji vrh na svetu je Everest"), pa tudi vrednote in njihove hierarhije, včasih ločene v poseben »aksiološki blok«.

Večina elementov konceptov orodij računalniške lingvistike je homonimnih: hkrati označujejo nekatere resnične entitete človeškega kognitivnega sistema in načine predstavljanja teh entitet, ki se uporabljajo pri njihovem teoretičnem opisu in modeliranju. Z drugimi besedami, elementi pojmovnega aparata računalniške lingvistike imajo ontološke in instrumentalne vidike. Na primer, v ontološkem vidiku delitev deklarativnega in proceduralnega znanja ustreza različnim vrstam znanja, ki je na voljo osebi - tako imenovano znanje KAJ (deklarativno; kot npr. poznavanje poštnega naslova katerega koli NN), na eni strani in znanje KAKO (proceduralno; takšno, na primer znanje, ki vam omogoča, da najdete stanovanje tega NN, tudi če ne poznate njegovega uradnega naslova) - na drugi strani. Z instrumentalnega vidika je znanje lahko utelešeno v nizu opisov (opisov), v nizu podatkov na eni strani in v algoritmu, navodilu, ki ga izvaja računalnik ali kakšen drug model kognitivnega sistema, na drugi strani.

Smeri računalniškega jezikoslovja.

Področje CL je zelo raznoliko in vključuje področja, kot so računalniško modeliranje komunikacije, modeliranje strukture zapletov, tehnologije hiperbesedila za predstavitev besedila, strojno prevajanje in računalniška leksikografija. V ožjem smislu problematiko JZ pogosto povezujemo z interdisciplinarnim aplikativnim področjem z nekoliko neposrečenim imenom »procesiranje naravnega jezika« (prevod angleškega izraza Natural Language Processing). Nastala je v poznih šestdesetih letih prejšnjega stoletja in se razvila v okviru znanstvene in tehnološke discipline »umetne inteligence«. V svoji notranji obliki fraza »obdelava naravnega jezika« zajema vsa področja, kjer se računalniki uporabljajo za obdelavo jezikovnih podatkov. Medtem se je v praksi uveljavilo ožje razumevanje tega pojma - razvoj metod, tehnologij in specifičnih sistemov, ki zagotavljajo komunikacijo med človekom in računalnikom v naravnem ali omejenem naravnem jeziku.

Hiter razvoj področja »procesiranja naravnega jezika« se je zgodil v sedemdesetih letih prejšnjega stoletja, kar je bilo povezano z nepričakovano eksponentno rastjo števila končnih uporabnikov računalnikov. Ker je poučevanje jezikov in tehnologije programiranja za vse uporabnike nemogoče, se je pojavil problem organizacije interakcije z računalniškimi programi. Rešitev tega komunikacijskega problema je potekala po dveh glavnih poteh. V prvem primeru so bili poskusi prilagoditi programske jezike in operacijske sisteme končnemu uporabniku. Posledično so se pojavili jeziki na visoki ravni, kot je Visual Basic, pa tudi priročni operacijski sistemi, zgrajeni v konceptualnem prostoru ljudem znanih metafor - DESK, KNJIŽNICA. Drugi način je razvoj sistemov, ki bi omogočali interakcijo z računalnikom na določenem problemskem področju v naravnem jeziku ali neki njegovi omejeni različici.

Arhitektura sistemov za obdelavo naravnega jezika v splošnem primeru vključuje blok za analizo govornega sporočila uporabnika, blok za interpretacijo sporočila, blok za generiranje pomena odgovora in blok za sintezo površinske strukture izjave. Poseben del sistema je dialoška komponenta, ki beleži strategije vodenja dialoga, pogoje za uporabo teh strategij in načine premostitve morebitnih komunikacijskih napak (napak v komunikacijskem procesu).

Med računalniškimi sistemi za obdelavo naravnega jezika običajno ločimo sisteme za vprašanje-odgovor, interaktivne sisteme za reševanje problemov in povezane sisteme za obdelavo besedil. Sprva so se sistemi vprašanj in odgovorov začeli razvijati kot reakcija na slabo kakovost kodiranja poizvedb pri iskanju informacij v sistemih za iskanje informacij. Ker je bilo problemsko področje takih sistemov zelo omejeno, je to nekoliko poenostavilo algoritme za prevajanje poizvedb v formalno jezikovno predstavitev in obratni postopek za pretvorbo formalne predstavitve v izjave v naravnem jeziku. Med domačimi dogodki tovrstni programi vključujejo sistem POET, ki ga je ustvarila skupina raziskovalcev pod vodstvom E.V. Popova. Sistem obdela zahteve v ruščini (z manjšimi omejitvami) in sintetizira odgovor. Diagram poteka programa vključuje prehod skozi vse stopnje analize (morfološke, sintaktične in semantične) in ustrezne stopnje sinteze.

Pogovorni sistemi za reševanje problemov imajo za razliko od sistemov prejšnjega tipa aktivno vlogo pri komunikaciji, saj je njihova naloga pridobiti rešitev problema na podlagi znanja, ki je v njem predstavljeno, in informacij, ki jih lahko dobi od uporabnika. Sistem vsebuje strukture znanja, ki beležijo tipična zaporedja dejanj za reševanje problemov na danem problemskem področju, ter informacije o potrebnih virih. Ko uporabnik postavi vprašanje ali določi določeno nalogo, se aktivira ustrezen skript. Če nekatere komponente skripta manjkajo ali nekateri viri manjkajo, sistem sproži komunikacijo. Tako deluje na primer sistem SNUKA, ki rešuje probleme načrtovanja vojaških operacij.

Sistemi za obdelavo povezanih besedil so po zgradbi precej raznoliki. Njihovo skupno značilnost lahko štejemo za široko uporabo tehnologij za predstavitev znanja. Funkcije tovrstnih sistemov so razumevanje besedila in odgovarjanje na vprašanja o njegovi vsebini. Razumevanje ni obravnavano kot univerzalna kategorija, temveč kot proces pridobivanja informacij iz besedila, ki ga določa določena komunikacijska intenca. Z drugimi besedami, besedilo se »bere« samo s predpostavko, da točno to, kar potencialni uporabnik želi vedeti o njem. Tako se izkaže, da sistemi za obdelavo povezanih besedil niso univerzalni, temveč problemsko usmerjeni. Tipična primera sistemov obravnavanega tipa sta sistema RESEARCHER in TAILOR, ki tvorita enoten programski paket, ki uporabniku omogoča pridobivanje informacij iz patentnih povzetkov, ki opisujejo kompleksne fizične objekte.

Najpomembnejše področje računalniškega jezikoslovja je razvoj sistemov za iskanje informacij (IRS). Slednji je nastal v poznih petdesetih in zgodnjih šestdesetih letih 20. stoletja kot odgovor na močno povečanje obsega znanstvenih in tehničnih informacij. Glede na vrsto shranjenih in obdelanih informacij ter lastnosti iskanja so sistemi za iskanje informacij razdeljeni v dve veliki skupini - dokumentarne in stvarne. Sistemi za iskanje dokumentarnih informacij hranijo besedila dokumentov ali njihove opise (izvlečke, bibliografske kartice itd.). Factual IRS obravnavajo opis specifičnih dejstev in ne nujno v besedilni obliki. To so lahko tabele, formule in druge vrste predstavitve podatkov. Obstajajo tudi mešani informacijski sistemi, ki vključujejo dokumente in dejanske informacije. Trenutno so faktografski informacijski sistemi zgrajeni na podlagi tehnologij baz podatkov (DB). Da bi zagotovili iskanje informacij v sistemu za iskanje informacij, so ustvarjeni posebni jeziki za iskanje informacij, ki temeljijo na tezavrih za iskanje informacij. Jezik za iskanje informacij je formalni jezik, zasnovan za opis določenih vidikov načrta vsebine dokumentov, shranjenih v sistemu za iskanje informacij, in zahteve. Postopek za opisovanje dokumenta v jeziku za iskanje informacij se imenuje indeksiranje. Kot rezultat indeksiranja je vsakemu dokumentu dodeljen formalni opis v jeziku za iskanje informacij - iskalna slika dokumenta. Na podoben način se indeksira poizvedba, ki ji je dodeljena slika iskalne poizvedbe in iskalni recept. Algoritmi za iskanje informacij temeljijo na primerjavi iskalnega predpisa z iskalno sliko poizvedbe. Kriterij za izdajo dokumenta na zahtevo je lahko popolno ali delno ujemanje iskalne slike dokumenta in iskalnega navodila. V nekaterih primerih ima uporabnik možnost, da sam oblikuje merila za izdajo. To je odvisno od njegove potrebe po informacijah. Avtomatizirani sistemi za iskanje informacij pogosto uporabljajo deskriptorske jezike za iskanje informacij. Predmet dokumenta je opisan z nizom deskriptorjev. Deskriptorji so besede in izrazi, ki označujejo preproste, dokaj elementarne kategorije in koncepte problematičnega področja. V iskalno sliko dokumenta je vnesenih toliko deskriptorjev, kot je različnih tem, ki jih pokriva dokument. Število deskriptorjev ni omejeno, kar vam omogoča, da dokument opišete v večdimenzionalni matriki značilnosti. V jeziku za iskanje informacij o deskriptorju so pogosto uvedene omejitve glede združljivosti deskriptorjev. V tem primeru lahko rečemo, da ima jezik za iskanje informacij sintakso.

Eden prvih sistemov, ki je deloval z deskriptorskim jezikom, je bil ameriški sistem UNITERM, ki ga je ustvaril M. Taube. Ključne besede dokumenta – uniterms – so v tem sistemu delovale kot deskriptorji. Posebnost tega IRS je, da na začetku slovar informacijskega jezika ni bil določen, ampak je nastal v procesu indeksiranja dokumenta in poizvedbe. Razvoj sodobnih sistemov za iskanje informacij je povezan z razvojem sistemov za iskanje informacij brez tezavra. Takšni informacijski sistemi delujejo z uporabnikom v omejenem naravnem jeziku, iskanje pa poteka po besedilih izvlečkov dokumentov, po njihovih bibliografskih opisih, pogosto pa tudi po samih dokumentih. Za indeksiranje v netezavrskem tipu IRS se uporabljajo besede in besedne zveze naravnega jezika.

Področje računalniške lingvistike lahko do neke mere vključuje delo na področju ustvarjanja hiperbesedilnih sistemov, ki veljajo za poseben način organiziranja besedila in celo kot bistveno novo vrsto besedila, ki je v številnih svojih lastnostih v nasprotju z običajnim besedilom, oblikovanim v Gutenbergovo tradicijo tiskanja. Zamisel o hipertekstu je povezana z imenom Vannevarja Busha, svetovalca predsednika F. Roosevelta za znanost. V. Bush je teoretično utemeljil projekt tehničnega sistema Memex, ki je uporabniku omogočal povezovanje besedil in njihovih fragmentov z različnimi vrstami povezav, predvsem z asociativnimi razmerji. Pomanjkanje računalniške tehnologije je otežilo izvedbo projekta, saj se je mehanski sistem izkazal za preveč zapletenega za praktično izvedbo.

Busheva ideja se je ponovno rodila v šestdesetih letih prejšnjega stoletja v sistemu Xanadu T. Nelsona, ki je že vključeval uporabo računalniške tehnologije. »Xanadu« je uporabniku omogočal branje nabora besedil, vnesenih v sistem, na različne načine, v različnih zaporedjih; Skupek besedil z razmerji, ki jih povezujejo (sistem prehodov), je T. Nelson poimenoval hipertekst. Mnogi raziskovalci menijo, da je nastanek hiperteksta začetek nove informacijske dobe, v nasprotju z dobo tiskanja. Linearnost zapisa, ki navzven odseva linearnost govora, se izkaže za temeljno kategorijo, ki omejuje človekovo razmišljanje in razumevanje besedila. Pomenski svet je nelinearen, zato stiskanje semantičnih informacij v linearnem govornem segmentu zahteva uporabo posebnih »komunikacijskih paketov« - delitev na temo in remo, delitev vsebinskega načrta izjave na eksplicitne (izjava, predlog, fokus). ) in implicitne (predpostavka, posledica, implikatura diskurza) plasti . Zavrnitev linearnosti besedila tako v procesu njegovega podajanja bralcu (torej med branjem in razumevanjem) kot v procesu sinteze bi po mnenju teoretikov prispevala k »osvoboditvi« mišljenja in celo nastanku njegovega nove oblike.

V računalniškem sistemu je hiperbesedilo predstavljeno v obliki grafa, katerega vozlišča vsebujejo tradicionalna besedila ali njihove fragmente, slike, tabele, video posnetke itd. Vozlišča so povezana z različnimi odnosi, katerih tipe določijo razvijalci hiperbesedilne programske opreme ali bralec sam. Odnosi določajo potencialne možnosti gibanja ali navigacije skozi hipertekst. Odnosi so lahko enosmerni ali dvosmerni. Skladno s tem dvosmerne puščice omogočajo uporabniku premikanje v obe smeri, medtem ko enosmerne puščice omogočajo uporabniku premikanje le v eno smer. Veriga vozlišč, skozi katere gre bralec, ko gleda sestavine besedila, tvori pot ali pot.

Računalniške izvedbe hiperteksta so lahko hierarhične ali omrežne. Hierarhična – drevesna – struktura hiperbesedila bistveno omejuje možnosti prehoda med njegovimi komponentami. V takšnem hiperbesedilu razmerja med komponentami spominjajo na strukturo tezavra, ki temelji na odnosih med rodom in vrsto. Omrežno hiperbesedilo omogoča uporabo različnih vrst razmerij med komponentami, ki niso omejene na razmerja med rodom in vrsto. Glede na način obstoja hiperbesedila ločimo statična in dinamična hiperbesedila. Statični hipertekst se med delovanjem ne spreminja; vanj lahko uporabnik zapiše svoje komentarje, ki pa ne spremenijo bistva zadeve. Za dinamično hiperbesedilo je sprememba normalna oblika obstoja. Značilno je, da dinamična hiperbesedila delujejo tam, kjer je treba stalno analizirati pretok informacij, tj. informacijskih storitev različnih vrst. Hipertekst je na primer Arizonski informacijski sistem (AAIS), ki se mesečno posodablja s 300–500 izvlečki na mesec.

Razmerja med elementi hiperbesedila lahko na začetku določijo ustvarjalci ali pa se ustvarijo vsakič, ko uporabnik dostopa do hiperbesedila. V prvem primeru govorimo o hiperbesedilih trde strukture, v drugem pa o hiperbesedilih mehke strukture. Toga struktura je tehnološko povsem razumljiva. Tehnologija za organizacijo mehke strukture mora temeljiti na semantični analizi bližine dokumentov (ali drugih virov informacij) drug drugemu. To je netrivialna naloga v računalniškem jezikoslovju. Dandanes je uporaba tehnologij mehke strukture na ključnih besedah zelo razširjena. Prehod iz enega vozlišča v drugega v hipertekstnem omrežju se izvede kot rezultat iskanja ključnih besed. Ker je nabor ključnih besed lahko vsakič drugačen, se struktura hiperbesedila vsakič spremeni.

Tehnologija za gradnjo hiperbesedilnih sistemov ne razlikuje med besedilnimi in nebesedilnimi informacijami. Vključevanje vizualnih in zvočnih informacij (videov, slik, fotografij, zvočnih posnetkov itd.) pa zahteva bistveno spremembo uporabniškega vmesnika ter zmogljivejšo programsko in računalniško podporo. Takšni sistemi se imenujejo hipermedijski ali multimedijski. Prepoznavnost multimedijskih sistemov je vnaprej določila njihovo široko uporabo v izobraževanju in pri ustvarjanju računalniških različic enciklopedij. Obstajajo na primer čudovito izdelani CD-romi z multimedijskimi sistemi, ki temeljijo na otroških enciklopedijah, ki jih je izdal Dorlin Kindersley.

V okviru računalniške leksikografije se razvijajo računalniške tehnologije za sestavljanje in delovanje slovarjev. Posebni programi - baze podatkov, računalniške omare, programi za obdelavo besedil - vam omogočajo samodejno ustvarjanje slovarskih vnosov, shranjevanje slovarskih informacij in njihovo obdelavo. Številne različne računalniške leksikografske programe delimo v dve veliki skupini: programe za podporo leksikografskim delom in avtomatske slovarje različnih vrst, vključno z leksikografskimi bazami podatkov. Samodejni slovar je slovar v posebni strojni obliki, ki je namenjen uporabi v računalniku s strani uporabnika ali računalniškega programa za obdelavo besedil. Z drugimi besedami, obstaja razlika med samodejnimi slovarji za končnega uporabnika in samodejnimi slovarji za programe za obdelavo besedil. Avtomatski slovarji, namenjeni končnemu uporabniku, se po vmesniku in strukturi slovarskega vnosa bistveno razlikujejo od avtomatskih slovarjev, ki so vključeni v sisteme za strojno prevajanje, sisteme za samodejno abstrahiranje, sisteme za iskanje informacij itd. Najpogosteje gre za računalniške različice znanih običajnih slovarjev. Na trgu programske opreme obstajajo računalniški analogi razlagalnih slovarjev angleškega jezika (avtomatski Webster, samodejni razlagalni slovar angleškega jezika, ki ga je izdal Collins, avtomatska različica novega velikega angleško-ruskega slovarja, ki ga je uredil Yu.D. Apresyan). in E.M. Mednikova), obstaja tudi računalniška različica Ozhegovega slovarja. Avtomatske slovarje za programe za obdelavo besedil lahko imenujemo avtomatski slovarji v ožjem pomenu besede. Na splošno niso namenjeni povprečnemu uporabniku. Značilnosti njihove strukture in obseg besednega gradiva določajo programi, ki z njimi sodelujejo.

Računalniško modeliranje strukture ploskve je še eno obetavno področje računalniške lingvistike. Študij strukture zapleta se nanaša na probleme strukturalne literarne kritike (v širšem smislu), semiotike in kulturnih študij. Razpoložljivi računalniški programi za modeliranje ploskev temeljijo na treh osnovnih formalizmih za ploskevni prikaz - morfološki in sintaktični smeri ploskevskega predstavljanja ter na kognitivnem pristopu. Ideje o morfološki strukturi ploskve segajo v znana dela V.Ya Proppa ( cm.) o ruski pravljici. Propp je opazil, da je ob obilici likov in dogodkov v pravljici število funkcij likov omejeno, in predlagal aparat za opisovanje teh funkcij. Proppove ideje so bile osnova računalniškega programa TALE, ki simulira generiranje pravljičnega zapleta. Algoritem programa TALE temelji na zaporedju funkcij likov v pravljici. Proppove funkcije so namreč definirale nabor tipiziranih situacij, urejenih na podlagi analize empiričnega materiala. Možnosti povezovanja različnih situacij v pravilih generiranja so bile določene s tipičnim zaporedjem funkcij – v obliki, kot je to mogoče ugotoviti iz besedil pravljic. V programu so bila tipična zaporedja funkcij opisana kot tipični scenariji srečanja likov.

Teoretična podlaga skladenjskega pristopa k zapletu besedila so bile »zgodbene slovnice« ali »zgodbene slovnice«. Pojavili so se sredi sedemdesetih let prejšnjega stoletja kot posledica prenosa idej generativne slovnice N. Chomskega na opis makrostrukture besedila. Če so bile najpomembnejše sestavine skladenjske strukture v generativni slovnici glagolske in samostalniške besedne zveze, potem so bili v večini plotnih slovnic kot osnovni izpostavljeni ekspozicija (prizorišče), dogodek in epizoda. V teoriji slovnic zapletov so bili pogoji minimalnosti, to je omejitve, ki določajo status zaporedja elementov zapleta kot normalnega zapleta, na široko razpravljani. Izkazalo pa se je, da tega ni mogoče storiti s čisto lingvističnimi metodami. Veliko omejitev je sociokulturne narave. Slovnice zapletov so se sicer precej razlikovale v naboru kategorij v generacijskem drevesu, vendar so dopuščale zelo omejen nabor pravil za spreminjanje narativne strukture.

V zgodnjih osemdesetih letih prejšnjega stoletja je eden od študentov R. Schenka, V. Lehnert, v okviru svojega dela na ustvarjanju računalniškega generatorja zapletov predlagal izvirni formalizem čustvenih zapletov (Affective Plot Units), ki se je izkazal za močno sredstvo. predstavljanja strukture parcele. Kljub temu, da je bil prvotno razvit za sistem umetne inteligence, je bil ta formalizem uporabljen v povsem teoretičnih študijah. Bistvo Lehnertovega pristopa je bilo, da je bil zaplet opisan kot zaporedna sprememba kognitivno-emocionalnih stanj likov. Tako Lehnertov formalizem ni osredotočen na zunanje sestavine zapleta - ekspozicijo, dogodek, epizodo, moralo - temveč na njegove vsebinske značilnosti. V tem pogledu je Lehnertov formalizem deloma vrnitev k Proppovim idejam.

V pristojnost računalniškega jezikoslovja sodi tudi strojno prevajanje, ki trenutno doživlja preporod.

Literatura:

Popov E.V. Komunikacija z računalnikom v naravnem jeziku. M., 1982
Sadur V.G. Govorna komunikacija z elektronskimi računalniki in problemi njihovega razvoja. – V knjigi: Govorna komunikacija: problemi in obeti. M., 1983
Baranov A.N. Kategorije umetne inteligence v lingvistični semantiki. Okvirji in skripte. M., 1987
Kobozeva I.M., Laufer N.I., Saburova I.G. Modeliranje komunikacije v sistemih človek-stroj. – Jezikovna podpora informacijskih sistemov. M., 1987
Olker H.R. Pravljice, tragedije in načini prikazovanja svetovne zgodovine. – V knjigi: Jezik in modeliranje socialne interakcije. M., 1987
Gorodetsky B.Yu. Računalniško jezikoslovje: modeliranje jezikovne komunikacije
McQueen K. Diskurzne strategije za sintezo besedil v naravnem jeziku. – Novosti v tujem jezikoslovju. vol. XXIV, Računalniško jezikoslovje. M., 1989
Popov E.V., Preobraženski A.B. . Značilnosti implementacije sistemov NL
Preobraženski A.B. Stanje razvoja sodobnih NL sistemov. - Umetna inteligenca. Knjiga 1, Komunikacijski sistemi in ekspertni sistemi. M., 1990
Subbotin M.M. Hipertekst. Nova oblika pisne komunikacije. – VINITI, Ser. Računalništvo, 1994, letnik 18
Baranov A.N. Uvod v uporabno jezikoslovje. M., 2000

Uvod

Kaj je računalniško jezikoslovje?

RAČUNALNIŠKO JEZIKOSLOVJE , smer uporabnega jezikoslovja, ki se osredotoča na uporabo računalniških orodij – programov, računalniških tehnologij za organiziranje in obdelavo podatkov – za modeliranje delovanja jezika v določenih razmerah, situacijah, problemskih območjih ipd., pa tudi celotnega obsega uporaba računalniških modelov jezika v jezikoslovju in sorodnih disciplinah. Pravzaprav le v slednjem primeru govorimo o uporabnem jezikoslovju v ožjem pomenu, saj lahko računalniško modeliranje jezika obravnavamo tudi kot področje uporabe računalniške znanosti in teorije programiranja pri reševanju problemov v znanosti o jeziku. V praksi pa računalniško jezikoslovje vključuje skoraj vse, kar je povezano z uporabo računalnikov v jezikoslovju.

Naloge

Računalniško jezikoslovje loteva se aktualnih jezikoslovnih problemov računalniškega modeliranja jezikovne dejavnosti. Njegovi cilji so zgraditi natančnejše in popolnejše jezikovne modele ter naprednejše algoritme za analizo in sintezo.

Glavne smeri je mogoče identificirati:

1) Interakcija med človekom in računalnikom: nadzor - programski jeziki, prenos informacij - vmesnik.

2) Delo z besedili: indeksiranje, analiza in klasifikacija, avtomatsko urejanje (popravljanje napak), prepoznavanje znanja, strojno prevajanje.

Zgodba

Enostavno generiranje podmnožice angleškega jezika za dostop do baz podatkov je omogočil eden od zgodnjih ameriških sistemov LIFER (Language Interface Facility wich Elipsis and Recursion), ustvarjen v 70. letih. Za njim so se na računalniškem trgu pojavili drugi, bolj prilagodljivi sistemi, ki so omogočali omejen vmesnik v naravnem jeziku z računalnikom.

V 80. letih prejšnjega stoletja so v ZDA nastala številna podjetja, ki so se ukvarjala z razvojem in prodajo vmesnikov v naravnem jeziku z bazami podatkov in ekspertnimi sistemi. Leta 1985 Korporacija Semantek je predstavila tak programski paket Q&A, podjetje Carnegie Group pa je ponudilo podoben paket LanguageCraft.

Poteka aktivno delo za ustvarjanje avtomatskih prevajalskih sistemov. Avtomatski prevajalski sistem SYSTRAN, razvit pod vodstvom D. Toma za ameriške letalske sile, je postal zelo razširjen. V letih 1974 - 1975 Sistem je uporabilo vesoljsko združenje NASA za prevajanje dokumentov za projekt Apollo-Soyuz. Danes letno prevede okoli 100.000 strani iz več jezikov.

V Evropi je delo pri ustvarjanju računalniških prevajalskih sistemov spodbudilo oblikovanje Evropske informacijske mreže (EURONET DIANA). Leta 1982 je Evropska gospodarska skupnost napovedala ustanovitev evropskega programa EUROTRA, katerega cilj je razviti računalniško podprt prevajalski sistem za vse evropske jezike. Projekt je bil prvotno ocenjen na 12 milijonov dolarjev, leta 1987 pa so strokovnjaki ocenili skupne stroške tega projekta na več kot 160 milijonov dolarjev.

Na Japonskem se raziskave v računalniškem jezikoslovju osredotočajo na vsedržavni računalniški program pete generacije, objavljen leta 1981.

Obstajajo številni vojaški projekti za ustvarjanje vmesnikov človek-stroj v naravnem jeziku. V ZDA jih izvajajo predvsem v okviru Strateške računalniške pobude, desetletnega programa, ki ga je Ministrstvo za obrambo sprejelo leta 1983. Njegov cilj je ustvariti novo generacijo »inteligentnega« orožja in vojaških sistemov v ZDA. da bi zagotovili dolgoročno tehnološko premoč ZDA.

Seveda so strokovnjaki za umetno inteligenco, ki so dobri poznavalci računalništva in programskih jezikov, energično začeli reševati problem razumevanja jezika z lastnimi metodami. Iskali so se algoritmi naravnega jezika. Ustvarjeni so bili kompleksni programi za razumevanje jezikov za zelo ozka specializirana področja, implementirani so bili delni programi za strojno prevajanje in številni drugi. A odločilnega napredka pri reševanju problema razumevanja jezika ni bilo. Jezik in ljudje smo tako povezani, da so se znanstveniki morali lotiti problema človeškega razumevanja sveta. In to je že področje filozofije.

Osnovni pojmi jezikoslovja

Od leta 2012 Inštitut za jezikoslovje Ruske državne univerze za humanistične vede usposablja magistre v magistrskem programu Računalniško jezikoslovje(smer Fundamentalno in uporabno jezikoslovje). Ta program je zasnovan za pripravo profesionalnih jezikoslovci ki obvladajo tako osnove jezikoslovja kot sodobne metode raziskovalnega, strokovno-analitskega, inženirskega dela in so sposobni učinkovito sodelovati pri razvoju inovativnih jezikovnih računalniških tehnologij.

V izobraževalnem procesu sodelujejo razvijalci velikih raziskovalnih in komercialnih sistemov na področju avtomatske obdelave besedil, kar zagotavlja povezavo magistrskega izobraževanja z glavnim tokom sodobne računalniške lingvistike. Posebna pozornost je namenjena udeležbi magistrov na ruskih in mednarodnih konferencah.

Med učitelji so avtorji osnovnih učbenikov o jezikoslovnih specialitetah, strokovnjaki svetovnega razreda, vodje projektov velikih avtomatskih sistemov za obdelavo jezikov: Ya.G. Testelec, I.M. Boguslavsky, V.I. Belikov, V.I. Podlesskaya, V.P. Selegey, L.L. Iomdin, A.S. Starostin, S.A. Sharov, pa tudi zaposleni v podjetjih, ki so vodilna v svetu na področju računalniške lingvistike: IBM (sistem Watson), Yandex, ABBYY (sistemi Lingvo, FineReader, Compreno).

Osnova za usposabljanje magistrov v tem programu je projektni pristop. Vključevanje magistrskih študentov v raziskovalno delo na področju računalniškega jezikoslovja poteka na podlagi Ruske državne univerze za humanistiko in na podlagi podjetij, ki razvijajo programe na področju AOT (ABBYY, IBM itd.), ki , pa je seveda velik plus tako za same mojstre kot za njihove morebitne delodajalce. V magistrski program so sprejeti predvsem ciljni magistri, katerih usposabljanje izvajajo bodoči delodajalci.

Vstopni testi: "Formalni modeli in metode sodobnega jezikoslovja." Točne informacije o času izpita lahko dobite na spletni strani magistrskega oddelka Ruske državne univerze za humanistične vede.

Predstojniki magistrata - vodja. Izobraževalno-znanstveni center za računalniško jezikoslovje, direktor jezikoslovnih raziskav pri ABBYY Vladimir Pavlovič Selegej in doktor filoloških znanosti, prof Vera Isaakovna Podleskaya .

Program sprejemnega izpita in razgovora za disciplino “Formalni modeli in metode sodobne lingvistike.”

Komentarji na program

Vsako programsko vprašanje lahko spremljajo naloge, povezane z opisi specifičnih jezikovnih pojavov, povezanih z delom vprašanja: konstrukcija struktur, opis omejitev, možni algoritmi za konstrukcijo in/ali identifikacijo.
Vprašanja, označena z zvezdicami, so neobvezna (na listkih so pod številko 3). Poznavanje ustreznega gradiva je velik bonus za kandidate, vendar ni obvezno.
Poleg teoretičnih vprašanj bodo izpitne karte ponudile majhen delček posebnega (jezikovnega) besedila v angleščini za prevod in diskusijo. Od kandidatov se zahteva, da izkažejo zadovoljivo raven znanja angleške znanstvene terminologije in znanstvene analize besedil. Kot primer besedila, ki vlagatelju ne bi smelo povzročati večjih težav, je spodaj del članka https://en.wikipedia.org/wiki/Anaphora_(lingvistika):

V jezikoslovju je anafora (/əˈnæfərə/) uporaba izraza, katerega razlaga je odvisna od drugega izraza v kontekstu (njegovega predhodnika ali postcedenta). V ožjem smislu je anafora uporaba izraza, ki je posebej odvisen od predhodnega izraza in je zato v nasprotju s kataforo, ki je uporaba izraza, ki je odvisen od postcedentnega izraza. Anaforični (napotni) izraz se imenuje anafora. Na primer, v stavku Sally je prišla, a je nihče ni videl, je zaimek njena anafora, ki se nanaša nazaj na predhodnico Sally. V stavku Pred njenim prihodom nihče ni videl Sally se zaimek njena nanaša naprej na postcedent Sally, zato je njena zdaj katafora (in anafora v širšem, ne pa ožjem pomenu). Običajno je anaforični izraz predforma ali kakšna druga vrsta deiktičnega (kontekstualno odvisnega) izraza. Anafora in katafora sta vrsti endofore, ki se nanašata na nekaj, kar je omenjeno drugje v pogovornem oknu ali besedilu.

Anafora je pomemben koncept iz različnih razlogov in na različnih ravneh: prvič, anafora nakazuje, kako je diskurz konstruiran in vzdrževan; drugič, anafora povezuje različne skladenjske elemente na ravni stavka; tretjič, anafora predstavlja izziv za obdelavo naravnega jezika v računalniškem jezikoslovju, saj je lahko identifikacija reference težavna; in četrtič, anafora pove nekaj o tem, kako se jezik razume in obdeluje, kar je pomembno za področja jezikoslovja, ki jih zanima kognitivna psihologija.

TEORETIČNA VPRAŠANJA

SPLOŠNA VPRAŠANJA JEZIKOSLOVJA

Predmet jezikoslovja. Jezik in govor. Sinhronija in diahronija.
Ravni jezika. Formalni modeli jezikovnih ravni.
Sintagmatika in paradigmatika. Koncept distribucije.
Osnove medjezikovnih primerjav: tipološko, genealoško in arealno jezikoslovje.
*Matematična lingvistika: predmet in raziskovalne metode

FONETIKA

Predmet fonetika. Artikulacijska in akustična fonetika.
Segmentna in suprasegmentna fonetika. Prozodija in intonacija.
Osnovni pojmi fonologije. Tipologija fonoloških sistemov in njihove fonetične izvedbe.
*Računalniška orodja in metode fonetičnih raziskav
* Analiza in sinteza govora.

MORFOLOGIJA

Predmet morfologije. Morfemi, morfemi, alomorfi.
Pregibanje in besedotvorje.
Slovnični pomeni in načini njihove implementacije. Slovnične kategorije in gramemi. Morfološki in skladenjski slovnični pomeni.
Pojmi besedne oblike, debla, leme in paradigme.
Deli govora; osnovni pristopi k prepoznavanju delov govora.
*Formalni modeli za opis pregiba in besedotvorja.
*Morfologija pri nalogah avtomatske obdelave jezika: preverjanje črkovanja, lematizacija, POS-označevanje

SINTAKSA

Predmet sintakse. Načini izražanja skladenjskih odnosov.
Načini predstavljanja skladenjske zgradbe stavka. Prednosti in slabosti dreves odvisnosti in komponent.
Načini opisovanja linearnega reda. Pomanjkanje projektivnosti in zlom komponent. Koncept transformacije; transformacije, povezane z linearnim redom.
Razmerje med sintakso in semantiko: valence, kontrolni modeli, aktanti in cirkonstante.
Diateza in kolaterala. Izpeljava aktanta.
Komunikativna organizacija izreka. Tema in rema, dano in novo, kontrast.
*Glavne sintaktične teorije: MST, generativizem, funkcijska slovnica, HPSG
*Matematični modeli sintakse: klasifikacija formalnih jezikov po Chomskem, algoritmi za prepoznavanje in njihova kompleksnost.

SEMANTIKA

Predmet semantike. Naivne in znanstvene jezikovne slike sveta. Sapir–Whorfova hipoteza.
Pomen v jeziku in govoru: pomen in referent. Vrsta reference (denotativni status).
Leksikalna semantika. Načini za opis semantike besede.
Slovnična semantika. Glavne kategorije na primeru ruskega jezika.
Semantika stavka. Propozicijska komponenta. Deiksis in anafora. Kvantifikatorji in vezniki. Modalnost.
Hierarhičnost in sistematičnost leksikalnih pomenov. Polisemija in homonimija. Pomenska struktura večpomenske besede. Pojma invariant in prototip.
Paradigmatska in sintagmatska razmerja v besedišču. Leksikalne funkcije.
Tolmačenje. Jezik tolmačenja. Moskovska semantična šola
Semantika in logika. Resnična vrednost izjave.
Teorija govornih dejanj. Izrek in njegova ilokucijska moč. Performativi. Klasifikacija govornih dejanj.
Frazeologija: popis in metode opisovanja frazeoloških enot.
*Modeli in metode formalne semantike.
*Modeli semantike v sodobnem računalniškem jezikoslovju.
*Distributivna in operativna semantika.
*Osnovne ideje konstrukcijske slovnice.

TIPOLOGIJA

Tradicionalne tipološke klasifikacije jezikov.
Tipologija slovničnih kategorij samostalnika in glagola.
Tipologija preprostega stavka. Glavne vrste konstrukcij: tožilnik, ergativ, aktiv.
Tipologija besednega reda in Greenbergove korelacije. Levo in desno razvejani jeziki.

LEKSIKOGRAFIJA

Besedišče kot inventar kulture; družbena variiranost besedišča, leksikalna raba, norma, kodifikacija.
Tipologija slovarjev (na ruskem gradivu). Odsev besedišča v slovarjih različnih vrst.
Dvojezična leksikografija z uporabo ruskega jezika.
Deskriptivna in predpisovalna leksikografija. Strokovni jezikoslovni slovarji.
Posebnosti glavnih ruskih razlagalnih slovarjev. Zgradba slovarskega stavka. Tolmačenje in enciklopedične informacije.
Besedišče in slovnica. Zamisel o integralnem modelu jezika v moskovski semantični šoli.
*Metodologija leksikografa.
*Korpusne metode v slovaropisju.

LINGVISTIKA BESEDILA IN DISKURZA

Pojem besedila in diskurza.
Mehanizmi medfrazne komunikacije. Glavne vrste sredstev za njihovo jezikovno izvajanje.
Stavek kot jezikovna enota in kot element besedila.
Nadfrazne enote, načela njihovega oblikovanja in izolacije, osnovne lastnosti.
Glavne kategorije razvrščanja besedil (žanr, slog, register, predmetno področje itd.)
*Metode za samodejno žanrsko razvrščanje.

SOCIOLINGVISTIKA

Problem predmeta in meja sociolingvistike, njena interdisciplinarna narava. Osnovni pojmi sociologije in demografije. Ravni jezikovne strukture in sociolingvistika. Osnovni pojmi in smeri sociolingvistike.
Jezikovni stiki. Dvojezičnost in diglosija. Divergentni in konvergentni procesi v zgodovini jezika.
Socialna diferenciacija jezika. Oblike obstoja jezika. Knjižni jezik: raba-norma-kodifikacija. Funkcionalna področja jezika.
Jezikovna socializacija. Hierarhičnost družbene in jezikovne identitete. Posameznikovo jezikovno vedenje in njegov sporazumevalni repertoar.
Metode sociolingvističnega raziskovanja.

RAČUNALNIŠKO JEZIKOSLOVJE

Naloge in metode računalniškega jezikoslovja.
Korpusno jezikoslovje. Glavne značilnosti ohišja.
Predstavitev znanja. Osnovne ideje teorije okvirov M. Minskyja. Sistem FrameNet.
Tezavrusi in ontologije. WordNet.
Osnove statistične analize besedil. Frekvenčni slovarji. Analiza kolokacij.
*Koncept strojnega učenja.

LITERATURA

Izobraževalna (osnovna raven)

Baranov A.N. Uvod v uporabno jezikoslovje. M.: Uredništvo URRS, 2001.

Baranov A.N., Dobrovolsky D.O. Osnove frazeologije (kratek tečaj) Študijski vodnik. 2. izdaja. Moskva: Flinta, 2014.

Belikov V.A., Krysin L.P. Sociolingvistika. M., Ruska državna univerza za humanistične vede, 2001.

Burlak S.A., Starostin S.A. Primerjalnozgodovinsko jezikoslovje. M.: Akademija. 2005

Vakhtin N.B., Golovko E.V. Sociolingvistika in sociologija jezika. Sankt Peterburg, 2004.

Knyazev S. V., Pozharitskaya S. K. Sodobni ruski knjižni jezik: fonetika, grafika, črkovanje, črkovanje. 2. izd. M., 2010

Koboževa I.M. Jezikovna semantika. M.: Uvodnik URSS. 2004.

Kodzasov S.V., Krivnova O.F. Splošna fonetika. M.: RSUH, 2001.

Krongauz M.A. Semantika. M.: RSUH. 2001.

Krongauz M.A. Semantika: Naloge, naloge, besedila. M.: Akademija. 2006..

Maslov Yu.S. Uvod v jezikoslovje. Ed. 6., izbrisano. M.: Akademija, fil. fak. Državna univerza v Sankt Peterburgu,

Plungyan V.A. Splošna morfologija: Uvod v predmet. Ed. 2. M.: Uvodnik URSS, 2003.

Testelec Ya.G. Uvod v splošno sintakso. M., 2001.

Shaikevič A.Ya. Uvod v jezikoslovje. M.: Akademija. 2005.

Znanstveno in referenčno

Apresyan Yu.D. Izbrana dela, zvezek I. Leksikalna semantika: 2. izd., špan. in dodatno M.: Šola "Jeziki ruske kulture", 1995.

Apresyan Yu.D. Izbrana dela, II. zvezek. Celostni opis jezika in sistemske leksikografije. M.: Šola "Jeziki ruske kulture", 1995.

Apresyan Yu.D.(ur.) Nov razlagalni slovar sinonimov ruskega jezika. Moskva - Dunaj: "Jeziki ruske kulture", Wiener Slavistischer Almanach, Sonderband 60, 2004.

Apresyan Yu.D.(ur.) Jezikovna slika sveta in sistemska leksikografija (ur. Yu. D. Apresyan). M.: "Jeziki slovanskih kultur", 2006, Predgovor in poglavje. 1, str.26-74.

Bulygina T.V., Shmelev A.D. Jezikovna konceptualizacija sveta (na podlagi ruske slovnice). M.: Šola "Jeziki ruske kulture", 1997.

Weinreich W. Jezikovni stiki. Kijev, 1983.

Vezhbitskaya A. Semantične univerzalije in opis jezikov. M .: Šola "Jeziki ruske kulture". 1999.

Galperin I.R. Besedilo kot predmet jezikoslovnega raziskovanja. 6. izd. M.: LKI, 2008 ("Jezikovna dediščina 20. stoletja")

Zaliznyak A.A."Ruski nominalni pregib" z uporabo izbranih del o sodobnem ruskem jeziku in splošnem jezikoslovju. M.: Jeziki slovanske kulture, 2002.

Zaliznyak A.A., Paducheva E.V. K tipologiji odnosnih stavkov. / Semiotika in računalništvo, let. 35. M., 1997, str. 59-107.

Ivanov Vjač. sonce.. Jezikoslovje tretjega tisočletja. Vprašanja za prihodnost. M., 2004. Str. 89-100 (11. Jezikovna situacija v svetu in napoved za bližnjo prihodnost).

Kibrik A.E. Eseji o splošnih in uporabnih vprašanjih jezikoslovja. M.: Založba Moskovske državne univerze, 1992.

Kibrik A.E. Jezikovne konstante in spremenljivke. Sankt Peterburg: Aletheya, 2003.

Labov U. O mehanizmu jezikovnih sprememb // Novo v jezikoslovju. številka 7. M., 1975. P.320-335.

Lyons J. Jezikovna semantika: Uvod. M.: Jeziki slovanske kulture. 2003.

Lyons John. Jezik in jezikoslovje. Začetni tečaj. M: URSS, 2004

Lakoff J.Ženske, ogenj in nevarne stvari: kaj nam kategorije jezika povedo o mišljenju. M.: Jeziki slovanske kulture. 2004.

Lakoff J, Johnson M. Metafore, po katerih živimo. per. iz angleščine 2. izdaja. M.: URSS. 2008.

Lingvistični enciklopedični slovar / Ed. V.I. Jarceva. M.: Znanstvena založba "Big Russian Encyclopedia", 2002.

Melchuk I.A. Tečaj splošne morfologije. Tt. I-IV. Moskva-Dunaj: "Jeziki slovanske kulture", Wiener Slavistischer Almanach, Sonderband 38/1-38/4, 1997-2001.

Melčuk I. A. Izkušnje v teoriji lingvističnih modelov “POMEN ↔ BESEDILO”. M.: Šola "Jeziki ruske kulture", 1999.

Fedorova L.L. Semiotika. M., 2004.

Filippov K. A. Jezikoslovje besedila: Potek predavanj - 2. izd., špan. in dodatno Ed. Sankt Peterburg Univerza, 2007.

Haspelmath, M., et al. (ur.). Svetovni atlas jezikovnih struktur. Oxford, 2005.

Sušilec, M.S. in Haspelmath, M.(ur.) Svetovni atlas jezikovnih struktur na spletu. Leipzig: Inštitut Maxa Plancka za evolucijsko antropologijo, 2013. (http://wals.info)

Croft W. Tipologija in univerzalije. Cambridge: Cambridge University Press, 2003. Shopen, T. (ur.). Jezikovna tipologija in sintaktični opis. 2. izdaja. Cambridge, 2007.

V. I. Belikov. O slovarjih, »ki vsebujejo norme sodobnega ruskega knjižnega jezika, kadar se uporablja kot državni jezik Ruske federacije«. 2010 // Portal Gramota.Ru (http://gramota.ru/biblio/research/slovari-norm)

Računalniško jezikoslovje in intelektualne tehnologije: Na podlagi gradiva letne mednarodne konference "Dialog". vol. 1-11. - M.: Založba Nauka, Ruska državna humanistična univerza, 2002-2012. (Članki o računalniški lingvistiki, http://www.dialog-21.ru).

Nacionalni korpus ruskega jezika: 2006-2008. Novi rezultati in obeti. / Rep. izd. V. A. Plungjan. - Sankt Peterburg: Nestor-zgodovina, 2009.

Novost v tujem jezikoslovju. vol. XXIV, Računalniško jezikoslovje / Comp. B. Yu Gorodetsky. M.: Napredek, 1989.

Shimchuk E. G. Ruska leksikografija: učbenik. M.: Akademija, 2009.

Nacionalni korpus ruskega jezika: 2003-2005. Zbirka člankov. M.: Indrik, 2005.

Za kontakte:

Izobraževalni in znanstveni center za računalniško jezikoslovje Inštituta za jezikoslovje Ruske državne univerze za humanistične vede

1. Aktivnosti za formalizacijo znanja o naravnem jeziku na njegovih različnih ravneh za namene uporabe v računalniških tehnologijah. 2. Področje znanja, ki rešuje probleme komunikacije med osebo in računalnikom v naravnem jeziku. 3. Širok nabor uporabe računalniških orodij - programov, računalniških tehnologij za organiziranje in obdelavo podatkov - za modeliranje delovanja jezika v določenih pogojih, situacijah, problemskih področjih.

Umetna inteligenca je veja računalništva, katere cilj je razviti računalniške sisteme, ki so sposobni izvajati funkcije, ki se tradicionalno štejejo za intelektualne – razumevanje naravnega jezika, logično sklepanje, uporaba nabranega znanja, usposabljanje, načrtovanje akcij itd.

3. Izdelava algoritmov za jezikovno analizo - razvoj algoritmov za analizo besedil v naravnem jeziku na vseh jezikovnih ravneh: fonemski, morfemski, oblikoslovni, skladenjski, pragmatični. Gradnja sintaktičnega drevesa odvisnosti (projekt samodejne obdelave besedila)

4. Korpusno jezikoslovje – ukvarja se z razvojem, nastajanjem in uporabo besedilnih (jezikovnih) korpusov. Domača stran spletnega mesta Nacionalnega korpusa ruskega jezika

5. Strojno prevajanje je smer znanstvenega raziskovanja, povezana z izgradnjo avtomatskih sistemov za prevajanje besedil iz enega naravnega jezika v drugega. Domača stran spletnega mesta Google prevajalnik

6. Samodejno abstrahiranje – izdelava programov za stisnjeno predstavitev besedil v naravnem jeziku. Storitev za izdelavo izvlečka na spletni strani Visual World

7. Polnobesedilno iskanje informacij – razvoj sistemov za iskanje informacij z jezikovno analizo besedil informacijskega polja in zahtev uporabnikov. Domača stran informacijskega iskalnega sistema Yandex

lingvistika statistična jezikoslovna programska oprema

Zgodovina razvoja računalniškega jezikoslovja

Proces nastajanja in oblikovanja sodobnega jezikoslovja kot vede o naravnem jeziku predstavlja dolg zgodovinski razvoj jezikoslovnega znanja. Jezikovno znanje temelji na elementih, ki so se oblikovali v procesu dejavnosti, neločljivo povezanih z razvojem strukture ustnega govora, nastankom, nadaljnjim razvojem in izboljšanjem pisanja, učenjem pisanja, pa tudi z razlago in dekodiranjem besedil.

Naravni jezik kot predmet jezikoslovja zavzema osrednje mesto v tej znanosti. V procesu razvoja jezika so se spreminjale tudi predstave o njem. Če prej notranji organizaciji jezika niso pripisovali posebnega pomena in so ga obravnavali predvsem v kontekstu njegovega odnosa z zunanjim svetom, potem je bila od konca 19. do začetka 20. stoletja posebna vloga dodeljena notranjemu. formalna struktura jezika. V tem obdobju je znameniti švicarski jezikoslovec Ferdinand de Saussure razvil temelje ved, kot sta semiologija in strukturna lingvistika, in jih podrobno predstavil v svoji knjigi Tečaj splošnega jezikoslovja (1916).

Znanstvenik je prišel na idejo, da bi jezik obravnaval kot enoten mehanizem, celovit sistem znakov, kar posledično omogoča matematično opisovanje jezika. Saussure je prvi predlagal strukturni pristop k jeziku, in sicer: opis jezika s proučevanjem odnosov med njegovimi enotami. Pod enotami ali »znaki« je razumel besedo, ki združuje pomen in zvok. Koncept, ki ga je predlagal švicarski znanstvenik, temelji na teoriji jezika kot sistema znakov, sestavljenega iz treh delov: jezika (iz francoskega langue), govora (iz francoskega parole) in govorne dejavnosti (iz francoskega langage).

Znanstvenik sam je vedo, ki jo je ustvaril, semiologijo, opredelil kot »vedo, ki preučuje življenje znakov v okviru življenja družbe«. Ker je jezik znakovni sistem, je Saussure v iskanju odgovora na vprašanje, kakšno mesto zavzema jezikoslovje med drugimi vedami, trdil, da je jezikoslovje del semiologije. Splošno sprejeto je, da je bil švicarski filolog tisti, ki je postavil teoretične temelje nove smeri v jezikoslovju in postal utemeljitelj in "oče" sodobnega jezikoslovja.

Koncept, ki ga je predstavil F. de Saussure, je bil nadalje razvit v delih številnih izjemnih znanstvenikov: na Danskem - L. Hjelmslev, na Češkem - N. Trubetskoy, v ZDA - L. Bloomfield, Z. Harris, N. Chomsky. Kar zadeva našo državo, se je tukaj strukturna lingvistika začela razvijati približno v istem časovnem obdobju kot na Zahodu - na prelomu 19. in 20. stoletja. - v delih F. Fortunata in I. Baudouina de Courtenaya. Treba je opozoriti, da je I. Baudouin de Courtenay tesno sodeloval s F. de Saussurejem. Če je Saussure postavil teoretične temelje strukturalne lingvistike, potem lahko Baudouin de Courtenay štejemo za osebo, ki je postavila temelje za praktično uporabo metod, ki jih je predlagal švicarski znanstvenik. Prav on je opredelil jezikoslovje kot vedo, ki uporablja statistične metode in funkcionalne odvisnosti, ter ga ločil od filologije. Prva izkušnja pri uporabi matematičnih metod v jezikoslovju je bila fonologija - veda o strukturi zvokov jezika.

Opozoriti je treba, da so se postulati, ki jih je postavil F. de Saussure, lahko odražali v problemih jezikoslovja, ki so bili pomembni sredi 20. stoletja. V tem obdobju se je pojavila jasna težnja po matematizaciji znanosti o jeziku. Skoraj v vseh velikih državah se začne hiter razvoj znanosti in računalniške tehnologije, ki zahteva vse bolj nove jezikovne temelje. Rezultat vsega tega je bila hitra konvergenca natančnih znanosti in humanistike, pa tudi aktivna interakcija matematike in jezikoslovja, ki je našla praktično uporabo pri reševanju perečih znanstvenih problemov.

V 50. letih 20. stoletja je na stičišču ved, kot so matematika, jezikoslovje, računalništvo in umetna inteligenca, nastala nova veja znanosti - računalniško jezikoslovje (znano tudi kot strojno jezikoslovje ali avtomatska obdelava besedil v naravnem jeziku). Glavne stopnje razvoja te smeri so potekale v ozadju razvoja metod umetne inteligence. Močan zagon za razvoj računalniškega jezikoslovja je bil nastanek prvih računalnikov. Vendar pa se s prihodom nove generacije računalnikov in programskih jezikov v 60. letih prejšnjega stoletja začne bistveno nova stopnja v razvoju te znanosti. Opozoriti je treba tudi, da začetki računalniškega jezikoslovja segajo v dela slavnega ameriškega jezikoslovca N. Chomskega na področju formalizacije strukture jezika. Rezultati njegovih raziskav, pridobljenih na stičišču jezikoslovja in matematike, so bili podlaga za razvoj teorije formalnih jezikov in slovnic (generativnih ali generativnih slovnic), ki se pogosto uporablja za opis tako naravnih kot umetnih jezikov, zlasti programskih jezikov. Natančneje, ta teorija je povsem matematična disciplina. Lahko se šteje za enega prvih v takšni smeri uporabnega jezikoslovja, kot je matematično jezikoslovje.

Prvi poskusi in prvi razvoj v računalniškem jezikoslovju se nanašajo na ustvarjanje sistemov za strojno prevajanje, pa tudi sistemov, ki modelirajo človeške jezikovne sposobnosti. V poznih 80-ih, s prihodom in aktivnim razvojem interneta, je prišlo do hitre rasti obsega besedilnih informacij, ki so na voljo v elektronski obliki. To je pripeljalo do dejstva, da so tehnologije za iskanje informacij prešle na kakovostno novo stopnjo svojega razvoja. Pojavila se je potreba po avtomatski obdelavi besedil v naravnem jeziku, pojavile so se povsem nove naloge in tehnologije. Znanstveniki se soočajo s problemom hitre obdelave ogromnega toka nestrukturiranih podatkov. Da bi našli rešitev tega problema, je bil velik pomen dan razvoju in uporabi statističnih metod na področju avtomatske obdelave besedil. Z njihovo pomočjo je bilo mogoče rešiti takšne težave, kot je razdelitev besedil v skupine, ki jih združuje skupna tema, poudarjanje določenih fragmentov v besedilu itd. Poleg tega je uporaba metod matematične statistike in strojnega učenja omogočila reševanje problemov prepoznavanja govora in ustvarjanja iskalnikov.

Znanstveniki se niso ustavili pri doseženih rezultatih: še naprej so si postavljali nove cilje in cilje, razvijali nove tehnike in raziskovalne metode. Vse to je pripeljalo do tega, da je jezikoslovje začelo delovati kot uporabna veda, ki je združevala vrsto drugih ved, med katerimi je vodilno vlogo imela matematika s svojo raznolikostjo kvantitativnih metod in zmožnostjo njihove uporabe za globlje razumevanje pojavov. preučujejo. Tako je matematično jezikoslovje začelo svoj nastanek in razvoj. Trenutno je to precej »mlada« veda (obstaja že približno petdeset let), vendar kljub svoji zelo »mladi starosti« predstavlja že uveljavljeno področje znanstvenega spoznanja s številnimi uspešnimi dosežki.