Tezauras. lingvistiniai tezauro konstravimo principai Sukurkite tezaurą tam tikra tema

Pagal tezauras suprantamas kaip sudėtingas žodyno tipo komponentas, kuriame visos žodyno reikšmės yra tarpusavyje susijusios semantiniais ryšiais, atspindinčiais pagrindinius sąvokų ryšius aprašytoje žinių srityje. Anksčiau terminas tezauras pirmiausia reiškė žodynus, kuriuose kalbos žodynas buvo pateiktas maksimaliai išbaigtai ir jo vartojimo tekstuose pavyzdžiais.

Tezauras apima leksemos, susijęs su keturiomis kalbos dalimis: būdvardis, daiktavardis, veiksmažodis ir prieveiksmis. Kiekvieną kalbos dalį atitinkantys aprašymai turi skirtingą struktūrą.

Pagrindiniai tezauro ryšiai yra šie:

  • sinonimas– ryšys tarp tos pačios kalbos žodžių, skirtingo skambesio ir rašybos, bet turinčių vienodą ar labai panašią leksinę reikšmę, pvz.: kavalerija – kavalerija, narsus – narsus;
  • antonimiją- ryšys tarp tos pačios kalbos žodžių, skirtingo skambesio, turinčių tiesiogiai priešingas reikšmes: tiesa - melas, gėris - blogis;
  • hiponimija/hiperonimija. Hipernimas– platesnės reikšmės žodis, išreiškiantis bendrą, bendrinę sąvoką, objektų (savybių, atributų) klasės (aibės) pavadinimas. Hiponimas– siauresnės reikšmės žodis, įvardijantis objektą (savybę, požymį) kaip klasės (aibės) elementą. Šie santykiai yra tranzityvūs ir asimetriški. Hiponimas paveldi visas hipernimo savybes. Jie yra pagrindiniai daiktavardžių apibūdinimo santykiai;
  • meronimija/partonimija– „DALIS-VISOS“ santykiai. Šiame santykyje išsiskiria santykiai „būti elementu“ ir „būti sudarytam“. Santykis apibrėžiamas tik daiktavardžiams;
  • pasekmė (šis santykis jungia veiksmažodžius);
  • priežastis (taip pat apibrėžta veiksmažodžiams).

Tezauro pavyzdys:

trobelė – medinis valstiečių namas [hiperonimas]: gyvenamasis pastatas [meronimas]: kaimo gyvenvietė [sinonimas]: namas

Visi ryšiai sukuria sudėtingą hierarchinį sąvokų tinklą, o žinojimas, kur yra sąvoka šiame tinkle, yra svarbi žinių apie tą sąvoką dalis. Santykių savybės skiriasi aprašant skirtingas kalbos dalis.

Skirtingose ​​sistemose tezauras gali atlikti skirtingas funkcijas:

  • siauros ar plačios dalykinės srities specializuotų žinių šaltinis, dalykinės srities terminijos apibūdinimo ir organizavimo būdas;
  • paieškos įrankis informacijos paieškos sistemose;
  • rankinio dokumentų indeksavimo informacijos paieškos sistemose įrankis (vadinamasis valdymo žodynas);
  • automatinis teksto indeksavimo įrankis.

Tezaurus, kaip konceptualius žodynus, pradėjo kurti Roger (arba anglų fizikas Roget), susisteminęs anglų kalbos žodyną į grupes. Kiekviena grupė yra pavaizduota sąvokos pavadinimu („kategorijos“, kurių iš pradžių buvo tūkstantis; tai įprasti žodžiai, išdėstyti abėcėlės tvarka, pvz., PATVIRTINIMAS ... AGENTŪRA ...), po kurių pateikiami jos sinonimai: kalbos dalys (daiktavardžiai, veiksmažodžiai, būdvardžiai, prieveiksmiai), antonimai ir tada giminingų žodžių sąrašai (jų yra daug, o kai kurie yra nuorodos į kitų kategorijų pavadinimus, kurių žodyno įraše yra „tolimų giminaičių“ sąrašas). gali tęsti, pavyzdžiui, iš AGENTŪROS... žr. VERSLAS). Nuo Rodžerio tezauro išleidimo 1852 m. o jo pakartotiniai leidimai vis dar vyksta įvairiomis formomis ir skirtingiems vartotojams, tezauras nuolat atnaujinamas nauju žodynu ir ryšiais, tačiau pirmosios versijos kūrėjo vardas lieka už visų variantų. Šio tezauro vertė yra jo natūralumas, tai, kad jame aprašomas visas kalbos žodynas, o ne tik terminija, ir tai, kad jis gali būti naudojamas informacijos paieškos sistemose kaip priemonė didinti. semantinė sistemos galia.

Tezaurai iki šių dienų išlieka labiausiai priimtina dalykinės srities žinių apibūdinimo forma, tinkama žmogaus suvokimui. Šiuolaikinių užsienio tezaurų pavyzdžiai yra WordNet ir EuroWordNet.

Anglų kalbos tezauras WordNet pasirodė 1990 m. ir pradėjo aktyviai dalyvauti įvairiose automatinio teksto apdorojimo srityse. WordNet apima apie 100 tūkstančių skirtingų vienetų (beveik pusė jų yra frazės), suskirstytų į 70 000 sąvokų.

Šiuo metu kuriamas daugiakalbis tezauras EuroWordNet. Iš pradžių keturioms kalboms (danų, italų, ispanų ir amerikiečių anglų) kuriamas žodžių reikšmių tinklas, susietas semantiniais ryšiais ir leidžiantis rasti skirtingų kalbų žodžius, kurie yra panašios reikšmės. Skirtingai nei Roger tezauras ir WordNet tinklas, kurie buvo sukurti anglų kalbos leksinei ir konceptualiai sistemai apibūdinti, EuroWordNet pirmiausia sukurtas siekiant išspręsti praktines automatinio didelio teksto kiekio apdorojimo problemas. Svarbiausios užduotys, kurias reikia išspręsti naudojant šį tezaurą, yra šios:

  • Daugiakalbės informacijos paieškos teikimas;
  • informacijos gavimo išsamumo didinimas;
  • prašymo formulavimas natūralia kalba;
  • semantinis dokumentų indeksavimas ir kt.

Be šių ryšių, įvedami ir teminiai ryšiai, jungiantys vienos dalykinės srities sąvokas. Taip pat siūloma įvesti specialias pastabas apie sąvokų tarpusavio ryšius, žyminčias santykių disjunkciją arba konjunkciją. Jeigu tam tikra sąvoka tinkle turi kelis to paties pavadinimo ryšius, tai jie gali būti disjunktyvūs, t.y. vienas iš šių santykių realiai realizuojamas, arba konjunktyvinis, t.y. visi šie ryšiai galioja sąvokai.

Vidaus institutai sukūrė daugiau nei šimtą konkrečiai pramonės šakai skirtų tezaurų, atitinkančių tam tikrą valstybinį tokio tipo žodynų standartą. Jie vadinami – IRT – informacijos paieškos tezaurais. Iš visų galimų semantinių ryšių tarp sąvokų jose yra fiksuoti trys: sinoniminiai, bendriniai (kurie dažniausiai apima santykį „DALIS-VISUMA“) ir „visi kiti“, dar vadinami asociatyviniais.

Standartiniai IPT daugiausia skirti rankiniam dokumentų indeksavimui, taip pat užklausoms formuluoti ir keisti paieškų metu. Egzistuoja nestandartiniai tezaurai, iškeliantys užduotį pasirinktinai sisteminti terminologiją konkrečioje žinių srityje – tai ypač pasakytina apie naujas dalykų sritis. Vis labiau pastebima tendencija tezaurus praturtinti terminų apibrėžimais, o tai svarbu norint atskirti terminų dviprasmiškumą, ypač kalbant apie susijusias disciplinas ir peržengiant siaurų dalykinių sričių ribas.

3.1. Tezauro koncepcija

Tezauras (iš graikų θήσαϋροξ - lobis, atsargos) arba ideografinis žodynas (iš graikų idėja - sąvoka, vaizdavimas, idėja ir grafas - rašyti, apibūdinti) - šiuolaikinėje kalbotyroje: 1) specialus bendrojo ar specialiojo žodyno žodynas, kuriame yra semantiniai ryšiai tarp leksinių vienetų; 2) žodynas, skirtas žodžio paieškai pagal jo semantinį ryšį su kitais žodžiais; 3) tam tikras žodžių organizavimo (išdėliojimo) būdas žodyne; 4) leksinės kompozicijos organizavimo būdas, leidžiantis ekonomiškai „modeliuoti pasaulį“.

Pirmąja, originalia reikšme – saugykla, lobis, terminą tezauras pavartojo L.V. Shcherba straipsnyje „Bendrosios leksikografijos patirtis“ (trečioji opozicija: tezauras - paprastas (aiškinamasis ar vertimo) žodynas). Mokslininkas rašo: „Sakydami tezaurą, šiandien dažniausiai turime omenyje „Thesaurus linguae latinae“ – penkių Vokietijos akademijų įmonę, pradėtą ​​dar 1900 m. ir iki šiol praleistą tik raidę M. Būdingas šio tipo žodynas susideda iš to, kad juose yra absoliučiai visi žodžiai, pasirodę tam tikra kalba bent kartą, ir kad po kiekvienu žodžiu pateikiamos absoliučiai visos citatos iš tam tikra kalba prieinamų tekstų. Minėtos opozicijos pagrindas – tezauras – eilinis (aiškinamasis ar vertimas) žodynas – yra „kalbinės medžiagos“ ir „kalbinės sistemos“ – sąvokų priešprieša, kurią bandžiau pagrįsti savo straipsnyje „Apie trejopą kalbos reiškinių aspektą ir apie kalbotyros eksperimentą“.

Antroji šio termino reikšmė siejama su plačiai žinomu žodynu-tezauru „Angliškų žodžių ir posakių tezauras“, kurį sukūrė P.M. Roger (Rogeto anglų kalbos žodžių ir frazių tezauras, 1852) ir jo tęsinys, O. V. Baranovo žodynas.

Šiame aiškinime terminas tezauras reiškia tam tikrą žodyno leksinės kompozicijos organizavimo ir išdėstymo būdą (žr. trečiąją termino reikšmę).

Ketvirtoji termino tezauras reikšmė siejama su visuotiniu šio leksinės kompozicijos organizavimo metodo pripažinimu, leidžiančiu ekonomiškai „modeliuoti pasaulį“. Šiuo požiūriu tezauro žodynas yra „sistemingas bet kurios mokslo ar technikos srities žodyno tvarkymas, o bendriausia forma - bendrasis literatūrinis žodynas, be to, visas tam tikros kalbos žodynas“.

Pasak Yu.N. Bendrinės kalbos tezauras Karaulovas, savo antraščių, skyrių, zonų, sričių struktūroje ir santykiuose fiksuojantis plačias neverbalinio idėjų jungimo galimybes, užtikrina žmogiškųjų vertybių apyskaitą.

A.N. Baranovas ir D.O. Dobrovolskis pratarmėje „Iš redaktorių“ į „Šiuolaikinių rusų idiomų žodynas-tezauras“ pateikia tezaurui tokį apibrėžimą - specialų žodyno tipą, kuris skiriasi nuo kitų (ypač aiškinamojo, dvikalbio ir kt.) tvarkyti kalbinę medžiagą. Tezaure kalbos vienetai pateikiami ne abėcėlės tvarka, kaip įprastame žodyne, o grupuojami pagal jų reikšmę.

L.P. Krysinas tezaurą (ideografinį žodyną) vadina specialiu aiškinamuoju žodynu, žodynu „priešingai“. „Jei aiškinamajame žodyne, rašo mokslininkas, žodyno įrašo „įrašas“ yra žodis, o žodyno įrašo turinys yra šio žodžio reikšmės aiškinimas, tai ideografiniame žodyne „įrašas“ yra žodyno įrašo prasmė, idėja (iš čia ir kilo šio tipo žodyno pavadinimas – ideografinis), o žodyno įrašo turinys yra žodžių, išreiškiančių duotą reikšmę, sąrašas. O jei aiškinamasis žodynas yra nepamainomas įrankis tekstui suprasti, tai ideografinis žodynas gali būti naudojamas kuriant tekstą: labai dažnai žmogus nori išreikšti tam tikrą mintį, bet neranda tam tinkamų žodžių; ideografinis žodynas palengvina šias paieškas. Yra du pagrindiniai tezaurų tipai:

lingvistinis tezauras - žodynas, kuriame yra natūralios kalbos žodžių sąrašas, atrinktas atlikus prasmingą tekstų analizę ir susistemintas pagal priimtą klasifikavimo sistemą;

statistinis tezauras – informacijos paieškos žodynas, kuriame yra žodžių, atrinktų atlikus statistinę konkrečios temos tekstų analizę, sąrašas, sugrupuotas į žodyno įrašus pagal šių žodžių kokartojimo dažnumą tuose pačiuose tekstuose.

Informacijos paieškos tezaurai (IRT) palengvina informacijos paiešką jos automatinio apdorojimo metu. IPT maksimaliai atskleidžia semantinius ryšius tarp leksinių vienetų. Kaip teigiama GOST dėl IPT, „vienakalbis informacijos gavimo tezauras yra kontroliuojamas ir kintantis leksinių vienetų žodynas, pagrįstas vienos natūralios kalbos žodynu, rodantis semantinius ryšius tarp leksinių vienetų ir skirtas informacijai apdoroti bei gauti“.

Pagrindinis IPT vienetas yra deskriptorių terminai. Abėcėlinė, leksinė-semantinė IPT dalis yra deskriptorių straipsnių rinkinys.

Aprašomieji žodynai skirti visapusiškai apibūdinti tam tikros srities žodyną ir įrašyti visus joje vartojamus žodynus; jie fiksuoja visus turimus atitinkamus atvejus. Tipiškas aprašomojo žodyno pavyzdys yra V. I. „Gyvosios didžiosios rusų kalbos aiškinamasis žodynas“. Dahl (pirmasis keturių tomų leidimas buvo išleistas 1863–1866 m.). Jo kūrėjo tikslas buvo ne standartizuoti kalbą, o visapusiškai apibūdinti visą didžiosios rusų kalbos įvairovę, įskaitant jos tarmines liaudies kalbos formas.

Kiekvienas deskriptorių žodyno įrašas prasideda deskriptoriumi, kuriame šio deskriptoriaus sinonimai, taip pat kiti leksiniai vienetai, susiję su pagrindiniu deskriptoriumi pagal genčiai būdingus ar asociatyvinius ryšius, pateikiami toliau, GOST straipsnyje.

Taigi tezaurai, ypač elektroniniu formatu, yra viena iš efektyvių priemonių atskiroms dalykinėms sritims apibūdinti.

Tezauras retai randamas gryna forma. Tikruose tezauruose pirminė idėja yra supaprastinta arba pašalinė, bet potencialiai reikalinga, vartotojui pridedama informacija. Šiandien žinomiausi yra Yu.N. „Rusų kalbos semantinis žodynas“. Karaulova, „Identiškų vardų žodynas“ N.Yu. Švedova, „Teminis rusų kalbos žodynas“, L.G. Smekhova ir kt.

Tęsti. Tezauro terminas L.V. Shcherba jį naudojo kalbėdamas apie žodyną, kuriame, jei įmanoma, buvo užfiksuoti visi kontekstai, kuriuose atsiranda tam tikras žodis. Būdingas tezaurų bruožas yra tas, kad juose bent vieną kartą surašyti visi tam tikra kalba pasirodę žodžiai, o po kiekvienu žodžiu pateikiamos visos citatos iš ta kalba prieinamų tekstų. Tezauro žodyno turinys yra kalbos medžiaga, o įprastas žodynas – kalbos medžiaga ir kalbos sistema (terminai L. V. Ščerbos).

Šią savybę papildo įvairaus pobūdžio kryžminiai ryšiai – dažnai paradigminiai (sinoniminiai arba antoniminiai), kurie rodo reikšmių bendrumą ar priešpriešą. Be to, įvairios asociacijos. jungtys (t. y. sintagminiai ryšiai).

Taigi tezauro (ideografinio žodyno) užduotis yra pateikti idėją apie tam tikro kalbinės medžiagos skerspjūvio semantinę organizaciją, parodant pagrindinius semantinius laukus, jų vidinę struktūrą ir išorinius ryšius. Tezauras yra aiškus kalbos sistemiškumo demonstravimas, leidžiantis pamatyti daugybę ryšių, jungiančių atskirus kalbinius vienetus ir vienetų grupes, tipų.

3.2. Koncepcinių žinių apie pasaulį vaizdavimo tezauro forma istorija

Poreikis išdėstyti žodžius pagal jų reikšmių panašumą, gretimumą ir analogiją buvo jaučiamas per visą stebimą žmogaus mąstymo istoriją.

Norėdami atsekti idėjos pateikti konceptualias žinias apie pasaulį tezauro pavidalu ištakas, mums padės atsigręžti į tezaurų (ideografinių žodynų) sudarymo istoriją.

Taigi civilizacijos aušroje, kai žmonės savo mintis galėjo reikšti raštu tik pasitelkę ideogramas ir simbolius, bene vienintelis galimas žodynas buvo toks, kuriame žodžiai buvo suskirstyti į temines grupes. Tiesiog leksikografui tuo metu buvo sunku rasti kitą žodžių klasifikavimo kriterijų, išskyrus santykius, kurie egzistuoja pačioje tikrovėje.

Deja, neturime įrodymų, ar ideografinį rašymą naudojusios tautos iš tikrųjų turėjo tokius žodynus. Vienas iš seniausių mums žinomų ideografinės klasifikacijos bandymų yra graikų gramatiko, Aleksandrijos bibliotekos direktoriaus Aristofano Bizantijos (mirė 180 m. pr. Kr.) Attikai Lexeis.

II amžiuje. n. e. pasirodo pagrindinis veikalas „Onomasticon“, kurį pagal graikų kalbos medžiagą parengė leksikografas ir sofistas Julijus Poluksas (tikrasis vardas Polideucesas), kilęs iš Egipto miesto Nacratis. Yu Pollux parašė keletą kūrinių, bet mus pasiekė tik „Onomasticon“ (Pollux Yu. Onomasticon. M., 1956).


Onomastiką sudaro 10 knygų. Knygos iš esmės yra atskiri traktatai ir juose yra svarbiausi žodžiai, susiję su konkrečia tema. Taigi, pirmoji knyga kalba apie dievus ir karalius; antroje - apie žmones, jų gyvenimą ir fiziologinę sandarą; trečioje – apie giminystę ir civilinius santykius ir tt Žodyną papildo trumpos interpretacijos. Šiais laikais žodynas pirmą kartą buvo išleistas 1502 m. Venecijoje.

Tarp II ir III a. n. e. Išleistas nuostabus sanskrito žodynas „Amarakosha“ (Amarakosha. Paris, 1839). Jo autorė yra senovės Indijos poetė, gramatikė ir leksikografė Amara Sina, kuri buvo vadinama „vienu iš devynių perlų, puošiančių Vikramaditijos sostą“. Amarakosha išvertus į rusų kalbą reiškia Amaros iždą. Žodyne yra 10 tūkstančių žodžių. Kad geriau įsimintų žodžių reikšmių aiškinimą, žodyno įrašai konstruojami eilėraščių pavidalu. Visa žodyno medžiaga suskirstyta į 3 knygas. Kiekvieną knygą sudaro keli skyriai, o skyrius savo ruožtu, jei reikia, yra padalintas į keletą skyrių. Pirmoji knyga skirta dangui, dievams ir viskam, kas su jais tiesiogiai susiję. Antroje knygoje yra žodžių, susijusių su žeme, gyvenvietėmis, augalais, gyvūnais ir žmonėmis (pirmiausia žmogus laikomas gyva būtybe, o paskui socialine būtybe; prieš akis iškyla visa autoriaus šiuolaikinės visuomenės kastinė struktūra; kunigai , kaip Dievo patikėtiniai, yra pačiame viršuje, o žemiau – kariškiai ir karaliai, dar žemiau – žemės savininkai, o pačiame apačioje – amatininkai, žonglieriai, tarnai ir kt.). Trečioji knyga yra griežtai lingvistinė, kaip matyti iš šešių jos skyrių pavadinimų.

Europos mokslininkams žodynas tapo žinomas tik XVIII amžiaus pabaigoje, kai 1798 metais Romoje buvo išleista pirmoji jo dalis. Ją visą su vertimu į anglų kalbą 1808 m. paskelbė anglų sanskrito mokslininkas G.T. Colebrooke (N.T. Colebrooke). 1839 m. pasirodė jo vertimas į prancūzų kalbą, kurį padarė A.L. Delonchampsas (A.L. Deslongchamps). Tolesnis semantinio žodyno klasifikavimo idėjos vystymas yra susijęs su vadinamosios pasaulio kalbos problema.

Tęsti. Apskritai, tai yra pirmasis ideografinio žodyno klasifikavimo tradicijos raidos etapas. Šį tarpsnį galima pavadinti ideografinių žodynų priešistore. Dabar patartina atsigręžti į šiuolaikinę tezaurų žodynų klasifikaciją.

Nesunku pastebėti, kuo aprašomi kūriniai skiriasi nuo abėcėlinių žodynų. Jei abėcėliniuose žodynuose žodžių pateikimas reguliuojamas tokiu sutartiniu ir itin neutraliu instrumentu kaip abėcėlė, tai kuriant ideografinį žodyną lemiama tampa paties leksikografo pasaulėžiūra.

3.3. Žodynų-tezaurų klasifikavimo principai

Kaip jau buvo parodyta aukščiau, tezaurų klasifikacijos sudarymo problema nėra nauja ir jau kelis dešimtmečius patraukė daugelio vietinių ir užsienio kalbininkų (C. Marello, V. V. Morkovkin, L. P. Stupin, V. V. Dubichinsky ir kt.) dėmesį. ). Šios srities tyrimų rezultatas – alternatyvių šių leksikografinių kūrinių klasifikacijų sukūrimas. Viena iš naujausių klasifikacijų grindžiama šiais kriterijais: a) semantinių ryšių tarp žodyno vienetų tipas; 2) žodyno apimtis; 3) žodyno apibendrinimas; 4) leksemų reikšmės ugdymas; 5) gramatinė ir stilistinė leksemų kvalifikacija; 6) leksemų veikimo demonstravimas; 7) atstovaujamų kalbų skaičius; 8) semiotinių priemonių tipas, naudojamas semantizuoti leksemas. Ši klasifikacija pagrįsta anksčiau O.M. sukurtomis klasifikacijomis. Karpova ir I. Burkhanovas (Burchanovas I. Apie stilistiškai ir pragmatiškai svarbių leksinių reikšmių aspektų ideografinį aprašymą. Londonas, 1996); į leksikografinį aparatą įvedama klasifikacijoje naudojama terminija


V.V. Morkovkinas, Yu.N. Karaulovas, K. Marello. Klasifikavimo kriterijus suformulavo O.M. Karpova. Tuo pačiu C. Marello išskiria tris tezaurų tipus:

kaupiamieji, kurie yra žodžių grupės, neapibrėžiančios jų reikšmės;

galutinis, interpretuojantis kiekvieną žodžių grupės leksinį vienetą;

dvikalbiai ir daugiakalbiai tezaurai keliautojams (Marello C. Thesaurus//W.D.D. 1990. V. 2. P. 1083).

Kaupiamieji tezaurai ne tik suteikia galimybę rasti suprantamesnį, tikslesnį, stilistiškai teisingesnį žodį esant tam tikram semantiniam lauke, bet ir tampa teminių kompiuterinių duomenų bankų formavimo pagrindu.

Galutiniai tezaurai kartu su reikšmės apibrėžimais gali apimti etimologinę informaciją ir literatūros kūrinių citatas, kurios parodo tiesioginę enciklopedinę šio tipo tezauro orientaciją. Be to, tokio tipo žodynai supažindina vartotoją su reikiama sąvokų sistema, paaiškina sąvokų esmę, panašumus ir skirtumus, jų paradigminius ir sintagminius ryšius, o kartais suteikia informacijos apie tarimą, gramatikos, žodžių darybos ir kitas galimybes. leksiniai vienetai, reiškiantys šias sąvokas.

Dvikalbiai ir daugiakalbiai tezaurai keliautojams dažniausiai kuriami pagal temines skiltis: numeriai, maistas, transportas, viešbučiai ir kt. su dviejų ar daugiau kalbų vertimo atitikmenimis.

Kad esamų tezaurų žodynų tipai būtų rodomi kuo išsamiau, sukuriama kelių lygių klasifikacija. Pirma, pagal semantinių ryšių tarp žodyno vienetų tipą, tezaurai skirstomi į tris dideles klases:

1. Asociatyvinis tezauras (terminologija Yu.N. Karaulov

2. Analogiškas tezauras (terminologija V. V. Morkovkin

3. Ideografinis (ideologinis) tezauras (terminologija L. V. Ščerbos, V. V. Morkovkino. Minėti trys tezaurų tipai atitinkamai atspindi tokius semantinių leksemų ryšių tipus):

1. Semantinės-sintaksinės jungtys, kurių pagrindu
žodžiai jungiami į grupes arba poras, iš anksto nulemtas jų atsiradimo ir egzistavimo dvigubais ryšiais: semantine ir sintaksine. Semantiniai ryšiai tarp žodžių nustatomi daugiausia tarp veiksmažodžių ir būdvardžių, kurie atlieka predikatyvinę funkciją sakinyje, ir daiktavardžių, pavyzdžiui:

a) tarp veiksmo ir organo (instrumento), kuriuo jis atliekamas: griebti - ranką, pamatyti - akį, plaukti - valtį ir pan.;

b) tarp veiksmo veiksmažodžių, kuriems reikalingas vienas dalykas, ir subjekto: loja - šuo, kaimynas - arklys ir pan.; c) tarp veiksmažodžių ir tam tikro gramatinio priedo, kurio pirmieji reikalauja: kapoti – malką, valgyti – maistą ir pan.

Vadinasi, asociatyvinis tezauras yra žodynas-tezauras, kuris tvarko leksinius vienetus pagal tarp jų egzistuojančius semantinius ir sintaksinius ryšius ir grupes išdėsto pagal grafinę centrinių žodžių formą.

2. Leksikos-semantiniai ryšiai. Grupavimas su tokio tipo ryšiu vyksta pagal pagrindinį žodžių požymį – leksinę reikšmę. Kartu atsižvelgiama ir į leksiko-gramatinius ryšius, kurių pavidalu realizuojamos atskiros žodžių reikšmės.

Taigi analoginis tezauras yra leksikografinis žinynas, kurio pagrindinis makrostruktūros vienetas yra leksinė-semantinė grupė; grupės susistemintos semantinių dominantų abėcėlės tvarka.

3. Dalykiniai ar teminiai ryšiai, kai žodžių jungimas į vieną grupę atsiranda dėl daiktų ir procesų, žymimų žodžiais: objektai, funkcijų panašumo ar bendrumo.
namų apyvokos daiktai, kūno dalys, drabužių tipai, pastatai ir kt.

Taigi ideografinis tezauras yra leksikografinis kūrinys, vaizduojantis leksinius vienetus kaip dalykinių (teminių) grupių dalį ir suskirstantis juos į hierarchinę struktūrą, skirtą konceptualioms žinioms apie pasaulį reprezentuoti.

Pagal tą patį kriterijų mes toliau skirstome tipus. Taigi ideografinis tezauras yra vaizduojamas šiais 4 tipais:


Tiesą sakant, ideografinis tezauras.

Teminis žodynas.

Sisteminis žodynas.

Teminis-sisteminis žodynas


Pats ideografinis tezauras yra specialus ideografinio žodyno tipas, kurio makrostruktūra sutvarkyta pagal a priori sinoptinį žemėlapį, uždėtą ant leksinės kalbos sudėties. Skirtingai nuo kitų ideografinių žodynų tipų, pačiam ideografiniam tezaurui būdinga logiška ir griežtai sutvarkyta klasifikacijos struktūra, sukurta remiantis moksline taksonomija, net jei bendrajam žodynui taikomas leksikografinis aprašymas (New Webster "Thesaurus. Landoll, 1991).

Teminis žodynas – tai ypatinga ideografinio tezauro rūšis, kurios pagrindinis makrostruktūros vienetas yra teminė grupė, apimanti leksemas, sujungta pagal jų denotacijų (referentų) klasifikaciją ir vertinama atitikimo konkrečia tema.

Sisteminis žodynas yra specialus ideografinio tezauro tipas, kurio klasifikacijos struktūra yra skirta pateikti faktinius semantinius ryšius, egzistuojančius tarp kalbos leksinių vienetų. Klasifikacijos struktūra savo esme reprezentuoja leksikogramatinę žodyno klasifikaciją, kitaip tariant, paradigminę jo struktūrą, apibūdinamą pavaldumo ir sudėties požiūriu.

Teminis-sisteminis žodynas – tai ypatinga ideografinio žodyno rūšis, kuri yra teminio ir sisteminio žodyno derinys.

Tęsti. Nagrinėjama kalbinių tezaurų klasifikacija apima tokius žodynų tipus: analoginis tezauras (terminologija V.V. Morkovkin); ideografinis (ideologinis) tezauras (terminologija L. V. Ščerbos ir V. V. Morkovkino); doc. tezauras (terminologija Yu.N. Karaulovas). Toliau bus pristatytas pop. atskleidžiami tezaurai ir jų bruožai.

3.4. Populiarūs tezaurai ir jų savybės

Žymiausias iš turimų žodynų-tezaurų, kuriam ir šis terminas priklauso, buvo sukurtas remiantis anglų kalbos medžiaga; tai nuolat perspausdinamas P.M. tezauras. Roger Roget anglų kalbos žodžių ir frazių tezauras (1852).

Svarbu pažymėti, kad anglų kalbos žodžių ir posakių tezauro autorius visapusiškai pasinaudojo tuo metu turima patirtimi. „Principas, kuriuo vadovaudavausi klasifikuodamas žodžius“, – rašo P.M. Roger, yra tas pats, kuris naudojamas klasifikuojant asmenis įvairiose gamtos istorijos srityse. Todėl mano paryškinti skyriai atitinka natūralias botanikos ir zoologijos šeimas, o žodžių serijas sutvirtina tie patys santykiai, jungiantys natūralias augalų ir gyvūnų serijas.

P.M. Rogeris manė, kad įtikinama žodžių klasifikacija pagal jų reikšmes neįmanoma, kol realybės objektai, vadinami šiais žodžiais, nėra tinkamai ištirti ir sutvarkyti. Todėl savo darbą jis pradeda suskirstydamas anglų kalbos konceptualųjį lauką į keturias dideles klases: abstrakčius santykius, erdvę, materiją ir dvasią (protą, valią, jausmus). Šios klasės dar skirstomos į keletą genčių, kurios savo ruožtu skirstomos į tam tikrą skaičių rūšių.

Tarp ideografinio žodyno trūkumų P.M. Rogeriui mokslininkai priskiria: 1) ne visai įtikinamą pagrindinių konceptualių klasių nomenklatūrą; 2) abstrakčioji logika vyrauja prieš natūralius žodžių ryšius; 3) santykinis naudojimo nepatogumas (šis trūkumas buvo iš esmės ištaisytas vėlesniuose leidimuose).

Šiuolaikinėje rusų leksikografijoje yra keletas žodynų, kurie turėtų būti priskirti prie žodynų-tezaurų (ideografinių žodynų). Pavyzdžiui, tai buvo sukurta vadovaujant Yu.N. Karaulova „Rusų semantinis žodynas“, „Rusų kalbos semantinis žodynas“, redagavo N.Yu. Švedova, „Teminis rusų kalbos žodynas“, L.G. Sayakhova, D.M. Khasanova ir V.V. Morkovkina, „Rusų veiksmažodžių leksinių-semantinių grupių žodynas“, red. E.V. Kuznecova, „Ideografinis rusų kalbos žodynas“, O.S. Baranova, „Žmogaus vidinio pasaulio konceptosfera rusų kalba“, V. I. Ubiyko, išsamus mokomasis žodynas „Rusų kalbos leksinis pagrindas“, vadovaujamas V. V. Morkovkina.

Susipažinkime su kai kuriais iš jų.

Šiuolaikinių rusų idiomų žodynas-tezauras“, redagavo A.N. Baranova ir D.O. Dobrovolskis apima keturias pagrindines dalis: 1) santrauką; 2) legenda; 3) pagrindinė žodyno-tezauro dalis; 4) rodyklės. Santraukos tikslas – pateikti bendrą idėją apie pagrindinio tezauro korpuso struktūrą. Jame išvardyti visi taksonai su subtaksais ir atitinkamomis paradigminėmis nuorodomis. Pagrindinė Tezauro žodyno dalis yra žodyno įrašų rinkinys, sugrupuotas į grupes (taksus) ir pogrupius (subtaksus) pagal juose aprašytų idiomų reikšmę. Kiekviename straipsnyje yra idioma ir jos naudojimo šiuolaikinėje rusų kalboje pavyzdžiai. Santrauka, Legenda, Rodyklės yra aptarnaujančios minėto Žodyno-tezauro dalys, suteikiančios vartotojui galimybę dirbti greitai ir efektyviai. Legenda naudojama tais atvejais, kai idiomų vartojimo pavyzdžių nereikia, nes ji atkuria visą informaciją, išskyrus pavyzdžius. Tiesą sakant, tai yra žodyno žodynas. Žodyno vienetai yra lemos. Lema šiuo atveju reiškia idiomą originalia (žodyno) forma ir, jei įmanoma, apima visus reikšmingus jos variantus. Pavyzdžiui, idioma stovėti vietoje yra lemos žymėjimo laiko dalis, stovėti vietoje, slysti.

Žodyne yra dvi nuorodos. Knygos pabaigoje yra straipsnis „Šiuolaikinės rusų ideomatikos žodyno-tezauro teorinė samprata“, kuriame išsamiai analizuojami moksliniai šio projekto bruožai.

„Rusų kalbos semantinis žodynas“, sukurtas vadovaujant Yu.N. Karaulova apima 10 tūkstančių rusiškų žodžių, kurie suskirstyti į 1600 konceptualių grupių. Grupių identifikavimas grindžiamas pasikartojančiais žodžių aiškinimo elementais aiškinamuosiuose žodynuose: pavyzdžiui, „veiksmas“, „nuosavybė“, „įrankis“ ir kt.

„Rusų kalbos semantinis žodynas“, sukurtas vadovaujant akademikui N.Yu. Švedova, remiasi kiek skirtingais principais, būdingais tiek ideografinių, tiek aiškinamųjų žodynų sudarymui. Pirma, visi kalbos žodžiai čia skirstomi į keturias klases: 1) nurodančius vienetus (įvardžiai), 2) įvardijimą (tariamieji žodžiai), 3) faktines jungtis (jungtukai, prielinksniai, susiejantys veiksmažodžiai), 4) klasifikuojamuosius (modaliniai žodžiai). , dalelės, įsiterpimai). Antra, kiekvienoje klasėje visi žodžiai paskirstomi pagal kalbos dalis. Trečia, kiekvienoje kalbos dalyje aibės ir poaibiai identifikuojami pagal teminį artumą arba, atvirkščiai, žodžių reikšmių priešpriešą.

DUDEN – tai knyga su paveikslėliais (piešiniais) kairėje pusėje (pagal skirtingą programinę įrangą) su sunumeruotomis dalimis (iki mažiausių). Dešinėje pusėje prie šio sunumeruoto sąrašo yra pavadinimai (net dviem kalbomis). Pavyzdžiui, visame puslapyje piešiama geležinkelio įranga, stotys ir bėgiai. Dešinėje yra strėlių, semaforų, ramentų ir kt. pavadinimai.

„Teminis rusų kalbos žodynas“ L.G. Sayakhova, D.M. Khasanova ir V.V. Morkovkinoje yra 25 tūkstančiai leksinių vienetų, suskirstytų į tris dideles klases: „Žmogus“, „Visuomenė“, „Gamta“, kurios palaipsniui išsišakoja į mažesnius poklasius. Pavyzdžiui, klasėje „Žmogus“ yra poklasiai „Žmogaus kūnas ir organizmas“, „Žmogaus gyvenimas“, „Išvaizda, žmogaus išvaizda“, „Emocinė žmogaus išvaizda“ ir kt. Kiekvienas poklasis savo ruožtu yra suskirstyti į dar konkretesnius: „ Žmogaus emocinis pasaulis“ - „Žmogaus psichinės savybės“ - „Temperamentas“, „Charakteris“ - „Bendrieji charakterio bruožai“ ir kt. Kiekvienai klasei priklausančių žodžių reikšmė ir vartosena iliustruojama dažniausiai pasitaikančiomis frazėmis. Pavyzdžiui, prie žodžio „juokas“, kuris yra „Vyro“ klasės pogrupyje „jausmų, emocijų raiška“, nurodomi tokie junginiai su šiuo žodžiu kaip linksmas juokas, džiaugsmingas juokas, vaiko juokas, pliūpsnis. į juoką ir pan.

Tęsti. Viena iš veiksmingų priemonių atskiroms dalykinėms sritims apibūdinti, ypač elektroniniu formatu, yra tezaurai.

Sąvoka tezauras jau seniai plačiai vartojama kalbotyroje, norint apibūdinti specialų žodyno tipą, vienu ar kitu laipsniu atspindintį „pasaulio paveikslą“, „kalbinį pasaulio modelį“ (pagal Yu.N. Karaulov). Tezauras kaip „iždas“ išaugo savo semantine apimtimi ir gavo naują prasmę. Pradėta vadinti žodynu, kuris ne tik sugeria visus kalbos leksinius turtus, bet ir sutvarko juos tam tikru loginiu-sisteminiu būdu. Tezauro žodyne žodžiai jungiami į grupes, o šis suvienodinimas vyksta remiantis konkretaus žodžio gebėjimu perteikti tam tikrą sąvoką.

Tezauro žodynas kalbotyroje visada buvo laikomas savotiška universalia sistema, užtikrinančia kolektyvinių (konkrečiai visuomenei) žinių apie pasaulį saugojimą žodine forma. Skirtingai nuo kitų žodynų, tezaurų žodyne šios žinios saugomos struktūrizuota forma, kuri atspindi mūsų idėjas apie „pasaulio struktūrą“.

Šiuo metu žinomiausi ir populiariausi tezaurai yra anglų kalbos tezauras, O.V. ideografinis rusų kalbos žodynas. Baranova, rusų semantinis žodynas Yu.N. Karaulova, akademiko N.Yu rusų semantinis žodynas. Švedova, DUDEN, Teminis rusų kalbos žodynas L.G. Sayakhova, D.M. Khasanova ir V.V. Morkovkina.

N. V. Lukaševičius

[apsaugotas el. paštas]

B. V. Dobrovas

Maskvos valstybinio universiteto tyrimų skaičiavimo centras. M. V. Lomonosovas;

ANO informacijos tyrimų centras

[apsaugotas el. paštas]

Pagrindiniai žodžiai: tezauras, informacijos paieška, automatinis teksto apdorojimas,

Didžioji dauguma technologijų, dirbančių su dideliais tekstų rinkiniais, yra pagrįstos statistiniais ir tikimybiniais metodais. Taip yra dėl to, kad leksiniai ištekliai, kuriais būtų galima apdoroti tekstų rinkinius lingvistiniais metodais, turi turėti dešimčių tūkstančių žodyno įrašų apimtis ir turėti nemažai svarbių savybių, kurias būtina specialiai stebėti kuriant šaltinį. Ataskaitoje nagrinėjame pagrindinius leksinių išteklių automatiniam didelių tekstų rinkinių apdorojimo kūrimo principus, pasitelkiant 1997 metais sukurtą rusų kalbos tezaurą kompiuteriniam teksto apdorojimui RuTez, kuris šiuo metu yra hierarchinis tinklas, susidedantis iš daugiau nei 42 tūkst. . Dabartinę tezauro būklę aprašome palyginę jo leksinę sudėtį ir Universiteto informacinės sistemos RUSSIA (www.cir.ru) tekstinį korpusą – 400 tūkst. dokumentų. Aptariami tezauro naudojimo įvairiose automatinio teksto apdorojimo programose pavyzdžiai.

  1. Įvadas

Šiuo metu milijonai dokumentų tapo prieinami elektronine forma, sukurta tūkstančiai informacinių sistemų ir elektroninių bibliotekų. Tuo pačiu metu informacinės sistemos, kurios paieškai naudoja leksinius ir terminologinius išteklius, skaičiuojamos procentų dalimis. Taip yra dėl rimtų problemų kuriant tokius kalbinius išteklius, skirtus automatiniam šiuolaikinių elektroninių dokumentų rinkinių apdorojimui.

Pirma, šios kolekcijos paprastai yra labai didelės. Antra, rinkiniai yra įvairių struktūrų dokumentų rinkinys su įvairia sintaksine struktūra, todėl sunku automatiškai apdoroti tekstinius sakinius. Be to, svarbi informacija dažnai paskirstoma tarp skirtingų teksto sakinių.

Visa tai aštriai kelia klausimą, koks turėtų būti kalbinis išteklius, kuris, viena vertus, būtų naudingas automatiniam apdorojimui ir paieškai elektroninėse kolekcijose, kita vertus, galėtų būti sukurtas per numatomą laiką ir prižiūrimas santykinai mažai lėšų. pastangų.

Šiame straipsnyje apžvelgsime pagrindinius leksinių išteklių, skirtų automatiniam didelių tekstų rinkinių apdorojimui, kūrimo principus. Šie principai bus nagrinėjami naudojant ANO Informacijos tyrimų centro nuo 1997 m. sukurto rusų kalbos tezauro, skirto kompiuteriniam teksto apdorojimui RuTez, pavyzdį. Šiuo metu „RuTez“ yra daugiau nei 42 tūkstančių sąvokų hierarchinis tinklas, apimantis daugiau nei 95 tūkstančius rusiškų žodžių, posakių ir terminų. Apibūdinsime dabartinę tezauro būklę, remdamiesi jo leksinės sudėties palyginimu su Universiteto informacinės sistemos RUSSIA teksto korpuso žodynu, remiamu Maskvos valstybinio universiteto tyrimų skaičiavimo centro. M.V. Lomonosovas ir ANO TSII. UIS RUSSIA (www.cir.ru) yra 400 tūkstančių dokumentų socialinėmis ir politinėmis temomis (apie 3 GB tekstų, 200 mln. žodžių). Straipsnyje taip pat bus aptarti tezauro naudojimo įvairiose automatinio teksto apdorojimo programose pavyzdžiai.

  1. Kalbinio šaltinio kūrimo principai

informacijos paieškos užduotims

Norint užtikrinti efektyvų automatinį elektroninių dokumentų apdorojimą (automatinį dokumentų indeksavimą, kategorizavimą, palyginimą), būtina sukurti jų palyginimo pagrindą – sąrašą to, kas buvo paminėta dokumente. Kad toks rodyklė būtų veiksmingesnė už žodinį rodyklę, būtina įveikti leksinę teksto įvairovę: sinonimus, polisemiją, kalbos dalis, stilistiką ir redukuoti iki nekeičiamo – sąvokos, kuri tampa skirtingų tekstų palyginimo pagrindas. Taigi kalbinio šaltinio pagrindas turėtų būti sąvokos, o kalbinės išraiškos: žodžiai, terminai – tapti tik teksto įvestimis, kurios inicijuoja atitinkamą sąvoką.

Kad būtų galima palyginti skirtingas, bet panašias sąvokas, tarp jų turi būti užmegzti santykiai. Tradiciškai kalbiniai ištekliai, skirti automatiniam tekstų apdorojimui natūralia kalba, naudojo tam tikrus semantinių ryšių rinkinius, pvz. dalis, šaltinis, priežastis ir tt Tačiau dirbdami su dideliais ir nevienalyčiais tekstų rinkiniais, turime suprasti, kad esant dabartinei teksto apdorojimo technologijai, kompiuterinė sistema negalės patikimai aptikti šių ryšių tekste, kad galėtų atlikti procedūras, kurias mes susiejome. šiuos ar kitus santykius. Todėl sąvokų santykiai pirmiausia turi apibūdinti tam tikras nekintamas savybes, kurios nepriklauso arba silpnai priklauso nuo konkretaus teksto, kuriame ta sąvoka minima, temos.

Pagrindinė šių santykių funkcija yra atsakyti į šį klausimą:

jei žinoma, kad tekstas skirtas aptarti C1, o C2 yra susijęs

požiūrisRsu C1, ar galime pasakyti, kad teksto tema(*)

susiję su C2?

Kuriant kalbinį šaltinį automatiniam apdorojimui, svarbu nustatyti, kurios sąvokų C1 ir C2 savybės leidžia nustatyti teisingus (*) ryšius tarp jų.

Taigi, pavyzdžiui, nesvarbu, apie kokius tekstus rašoma beržai, visada galime pasakyti, kad šie dainų tekstai yra apie medžiai. Tačiau nepaisant populiarumo ir dažnų diskusijų apie santykius medis kaip dalis miškai, labai mažai tekstų apie medžius yra tekstai apie miškus. Atminkite, kad problema nesusijusi su santykių pavadinimu. Taigi valymas yra miško dalis, o tekstai apie proskynas yra tekstai apie miškus.

Santykių nekintamumą, palyginti su galimų dalykinės srities tekstų temų spektru, daugiausia lemia gilesnės savybės, nei atsispindi santykių pavadinimai, būtent jo kiekybinės ir egzistencinės savybės. Taigi, santykio kvantoriaus savybės apibūdina, ar visi sąvokos pavyzdžiai turi tam tikrą ryšį, ar šis ryšys išlieka per visą pavyzdžio gyvavimo ciklą. Problema naudojant ryšį medismiškas Taip yra būtent dėl ​​to, kad ne kiekvienas konkretus medis yra miške, bet proskyna negali būti už miško.

Santykių egzistencinių savybių aprašymo pavyzdys - ar iš sąvokos C1 egzistavimo išplaukia sąvokos C2 egzistavimas (pvz., sąvokos egzistavimas GARAŽAS reikalauja sąvokos egzistavimo AUTOMOBILIS) arba pavyzdžių C1 egzistavimas priklauso nuo C2 pavyzdžių (tokių specifinių POTVIENIS neatsiejamas nuo konkretaus pavyzdžio UPĖS). Diskusija priklausomos sąvokos C2 tekste, ypač priklausoma nuo pavyzdžio, leidžia manyti, kad tekstas yra susijęs ir su pagrindine sąvoka C1.

Panagrinėkime sąvokų santykį MIŠKAS ir MEDIS išsamiau. Tiesą sakant, dalis koncepcijos MIŠKAS yra MEDIS MIŠKE, kol yra LAISVAI STOVANTIS MEDIS,MEDIS SODE tt Bet kuriuo atveju būtina nutraukti sąvokos pavaldumo santykius MEDŽIS koncepcija MIŠKAS.

Iš kitos pusės, MIŠKAS yra rūšis MEDŽIŲ KOLEKCIJOS, neegzistuoja be medžių (taip pat SODAS). Taigi, koncepcija MIŠKAS turi būti susiję su sąvoka MEDŽIS. Pradėję nuo konkrečių taikymo problemų poreikių analizės, priėjome prie išvados, kad svarbu apibūdinti giliąsias ryšių savybes, kurios anksčiau buvo labai mažai atspindėtos kalbiniuose ištekliais, tačiau yra itin svarbios automatinio apdorojimo užduotims. didelių tekstų rinkinių ir, galbūt, daugeliui kitų užduočių.

Dabar modeliuojame sąvokų kvantoriaus ir egzistencinių savybių apibūdinimą su tradicinių tezauro ryšių rinkiniu ABOVE-BELOW (66% visų ryšių), DALIS-VISA (30% ryšių), ASSOCIACIJA (4%), kartu su tam tikras papildomų modifikatorių rinkinys (pažymėta 20% ryšių). Atkreipkite dėmesį, kad DALIS-VISOS ir ASOCIACIJOS santykiai aiškinami atsižvelgiant į taisyklę (*). Iš viso aprašyta apie 160 tūkstančių tiesioginių sąvokų sąsajų, o tai, atsižvelgiant į santykių tranzityvumą, iš viso suteikia daugiau nei 1350 tūkstančių skirtingų sąsajų, tai yra vidutiniškai kiekviena sąvoka yra susijusi su 30 kitų. .

  1. RuTez tezauras: bendra struktūra

RuTez tezauras yra hierarchinis sąvokų tinklas, atitinkantis atskirų žodžių, teksto posakių ar sinonimų eilučių reikšmes. Taigi pagrindiniai tezauro elementai yra sąvokos, kalbinės išraiškos, kalbinių posakių ir sąvokų santykiai bei sąvokų santykiai.

Tezauras į vientisą sistemą sujungia tiek kalbines žinias – leksemų, idiomų ir jų sąsajų aprašymus, tradiciškai susijusius su leksinėmis, semantinėmis žiniomis, tiek žinias apie terminus ir santykius dalykinių sričių viduje, tradiciškai susijusias su terminologų veiklos sritimi, aprašytas 2007 m. informacijos paieškos tezaurai . Kaip tokias dalykines sritis tezauras apibūdina tokias dalykų sritis kaip ekonomika, teisėkūra, finansai, tarptautiniai santykiai, kurios yra tokios svarbios kasdieniam žmogaus gyvenimui, kad turi reikšmingą leksinį vaizdą tradiciniuose aiškinamuosiuose žodynuose. Juose leksinė ir terminologinė yra stipriai tarpusavyje susijusios ir stipriai sąveikauja viena su kita.

Kalbinės raiškos yra atskiros leksemos (daiktavardžiai, būdvardžiai ir veiksmažodžiai), vardinės ir žodinės grupės. Taigi tezauras šiuo metu neapima prieveiksmių ir funkcinių žodžių kaip kalbinių posakių. Kelių žodžių grupės gali apimti terminus, idiomas, leksines funkcijas ( įtakos e).

Kiekvienai kalbinei išraiškai aprašoma:

Jo polisemija yra ryšys su viena ar keliomis sąvokomis, o tai reiškia, kad tam tikra kalbinė išraiška gali būti šios sąvokos tekstinė išraiška. Kalbinės išraiškos priskyrimas skirtingoms sąvokoms taip pat yra netiesioginis jos polisemijos požymis;

Jo morfologinė sudėtis (kalbos dalis, skaičius, atvejis);

Rašymo ypatybės (pavyzdžiui, su didžiosiomis raidėmis) ir kt.

Kiekviena tezauro sąvoka turi unikalų pavadinimą, kalbinių posakių, kuriais ši sąvoka gali būti išreikšta tekste, sąrašą ir sąsajų su kitomis sąvokomis sąrašą.

Viena iš jo vienareikšmių tekstinių posakių dažniausiai pasirenkama kaip unikalus sąvokos pavadinimas. Bet sąvokos pavadinimą gali sudaryti ir dviprasmiškų jos tekstinių posakių pora – sinonimai, rašomi atskirti kableliais ir vienareikšmiškai apibrėžiantys (pvz., sąvoka STORDAS). Dviprasmiška sąvokos pavadinimo tekstinė išraiška taip pat gali būti pateikiama su ženklu arba sutrumpintas interpretacijos fragmentas, pavyzdžiui, sąvoka MINIA (ŽMONIŲ GRUPĖ).

  1. Žodyno įrašo pavyzdys

Kaip pavyzdį pasirinkome sąvokos žodyno įrašą MIŠKAS, atitinkantis vieną iš žodžio reikšmių miškas. Šis žodyno įrašas įdomus tuo, kad jame yra įvairių rūšių žinios, tradiciškai priskiriamos leksinėms (semantinėms) ir enciklopedinėms žinioms (žinios apie dalykinę sritį, terminija).

Sąvokos sinonimai MIŠKAS(iš viso 13):

miškas (M), miško zona, miško aplinka,

miškas,miško kvartalas,miško kraštovaizdis,

miško plotas, miškas, miškingas plotas,

miško išteklių plotas, mažas miškas,

miškų masyvas.

Toliau pateikiamos sąvokos su sinonimais:

JUNGLE(džiunglės);

MIŠKO PARKAS(miesto sodas, žalioji zona,

žalioji zona, miško parkas,

miškotvarka, miško parkas

juosta, parkas (M), parko teritorija);

MIŠKININKYSTĖ;

PALIKO MIŠKAS(minkštalapis miškas, kietalapis

miškas);

GROVE(ąžuolynas);

spygliuočių miškas (spygliuočių miškas, tamsus spygliuočių miškas)

Sąvokos – dalys su sinonimais:

VĖJASBREAK(vėtis, netikėtas);

PJOVIMAS(pjovimo plotas);

MIŠKO KULTŪRA(miško rūšys, miškininkystė

kultūra);

MIŠKO ŽEMĖ (miško žemės; uždengtos žemės

miškas; miško žemės, miško teritorija;

miško žemė, miškinga

plotas);

MIŠKO SODIJOS(miško plantacijos, miško plantacijos,

apželdinimas mišku);

MIŠKO KRAŠTAS(kraštas, kraštas);

POŽIEDĖS (pomiškis);

PROSEKA;

SAUSA MEDIENA(negyvas mediena).

Čia simboliai (M) rodo pastabą apie teksto įvesties dviprasmiškumą.

Koncepcija MIŠKAS Jis taip pat turi kitus ryšius, vadinamuosius priklausomybės ryšius (šiuolaikinėje versijoje jie vadinami ASC 2 - asimetrinė asociacija): MIŠKO GANIS(miško gaisras, gaisras miške; MIŠKO NAUDOJIMAS (miško naudojimas, miško fondo plotų naudojimas); MIŠKININKYSTĖ; MIŠKO MOKSLAS (miško mokslas). Kaip jau buvo pažymėta 2 dalyje, MIŠKO sąvoka priklauso nuo MEDŽIO sąvokos, kuri tezaure žymima ryšiu ASC 1.

Visiška koncepcija MIŠKAS yra tiesiogiai susijęs su 28 kitomis sąvokomis, atsižvelgiant į santykių tranzityvumą - su 235 sąvokomis (iš viso daugiau nei 650 teksto įvesties).

  1. Esamos būklės įvertinimas

Rusų kalbos tezauras RuTez

5.1. Leksinė kompozicija

Šiuo metu tezauro tinkle yra daugiau nei 95 tūkstančiai kalbinių posakių, iš kurių 61 tūkstantis yra vienažodžiai.

Ši darbų apimtis privertė apsispręsti, kokius žodžius ir kalbinius posakius reikia įtraukti į Tezauro aprašymus. Natūralus noras buvo pamatyti, kaip tezaure atvaizduojami dažniausiai rusų kalbos žodžiai. Tam buvo panaudotas Universiteto informacinės sistemos RUSIJA tekstų rinkinys (400 tūkst. dokumentų). Rinkinyje yra įvairių Rusijos Federacijos įstaigų oficialūs dokumentai (55 tūkst. dokumentų nuo 1992 m.), taip pat spaudos medžiaga nuo 1999 m. (laikraščiai Izvestija, Nezavisimaya Gazeta, Komsomolskaja Pravda, Argumenty i Fakty, žurnalas Expert ir kt.), mokslinės medžiagos. žurnalai („Maskvos universiteto biuletenis“, „Sociologinis žurnalas“). Palygintas į Tezaurą įtrauktų lemų sąrašas ir tekstų rinkinyje dažniausiai pasitaikančių 100 000 lemų (dažnis daugiau nei 25).

Sąrašo poleksemų žymėjimas parodė, kad tarp šių šimtų tūkstančių lemų 35 tūkstančiai aprašyti RuTez, tik apie 7 tūkstančius leksemų nusipelno įtraukti į tezaurą, likusios yra įvairių tikrinių vardų leminiai variantai. Todėl papildymas nustojo būti prioritetine užduotimi ir vykdomas palaipsniui, pradedant nuo dažniausiai pasitaikančių žodžių. Daroma prielaida, kad kai tik šis sąrašas bus išnaudotas, bus atliktas dar vienas palyginimas su informacinės sistemos tekstiniu masyvu, bus pasirinktos naujos leksemos, kurių dažnis didesnis nei 25. Toliau numatoma mažinti žiūrėjimo slenkstį . Daugybė teksto pavyzdžių tekstų rinkinyje leidžia greitai reaguoti į „leksikos naujoves“ (pavyzdžiui, įrengimas,blokbasteris, Beau Monde, trileris) ir įtraukite juos į atitinkamas Thesaurus hierarchinės sistemos vietas.

Nuolatinis darbas su esamu tekstų rinkiniu suteikia unikalių galimybių patikrinti žodynuose siūlomų leksinių aprašymų reikšmę ir kokybę. Pavyzdžiui, neįprastai didelis žodžio vartojimo dažnis Motina Žr(daugiau nei 400 kartų). Patikrinus masyvą paaiškėjo, kad žodis iš tiesų dažnai vartojamas kaip žodžio sinonimas Maskva, o aiškinamieji žodynai dažnai pažymi šį žodį kaip pasenusį. Kitas dažnai vartojamo žodžio (daugiau nei 300 kartų), pažymėto kaip pasenęs žodynuose, pavyzdys yra žodis palaimingas.

5.2 Žodžių reikšmių aprašymas

Palyginimas su tekstų rinkiniu rodo, kad daugelis masyvo dažnio žodžių yra gerai pateikti tezaure bent viena (dažniausiai pagrindine) reikšme. Išsiaiškinti, kiek tezauras reprezentuoja daugiaprasminių žodžių reikšmių spektrą rusų kalboje, yra mūsų pagrindinė užduotis šiuo metu.

Kaip žinoma, dažnai skirtinguose žodynų šaltiniuose daugiareikšmiams žodžiams suteikiama skirtinga reikšmių rinkinys, išryškinami reikšmės atspalviai, o tos pačios rūšies polisemiją galima skirtingai apibūdinti skirtingiems žodžiams net ir tame pačiame žodyne. Todėl užduotis nuosekliai ir reprezentatyviai apibūdinti leksemų reikšmes yra svarbi užduotis bet kurio žodyno šaltinio kūrėjams.

Tačiau jei išteklius yra skirtas automatiniam apdorojimui, subalansuoto vertybių aprašymo uždavinys tampa daug svarbesnis. Dėl pernelyg didelės vertės infliacijos kompiuterinė sistema gali nesugebėti pasirinkti norimos reikšmės, o tai savo ruožtu žymiai sumažina automatinio teksto apdorojimo sistemos našumą. Taigi, vienas iš WordNet šaltinio, kaip automatinio teksto apdorojimo šaltinio, trūkumų yra per didelis kai kurių žodžių reikšmių skaičius (WordNet 1.6 versijoje: 53 reikšmės paleisti, 47 už žaisti ir tt). Šias reikšmes sunku atskirti net žmogui semantiškai anotuojant tekstus. Akivaizdu, kad kompiuterinė sistema taip pat negali susidoroti su tinkamos vertės parinkimu. Todėl skirtingi autoriai siūlo skirtingus būdus, kaip derinti vertybes, kad pagerintų apdorojimo kokybę.

Tuo pačiu metu veikia priešingas veiksnys: jei reikšmės tikrai skiriasi savo žodyno jungčių rinkiniu (mūsų atveju, tezauro jungtys) - jie negali būti sulipdyti į vieną vienetą (vieną sąvoką) - tai taip pat sukels pablogėjimą. automatinio apdorojimo kokybė.

Paimkime žodžių pavyzdį mokykla Ir bažnyčia, kurių kiekvieną galima laikyti organizacija ir pastatu.

Kiekviena mokyklos organizacija turi pastatą (dažniausiai vieną). Visos mokyklos pastato dalys (klasės, lentos) yra susijusios su mokykla kaip į organizaciją. Konkrečių mokyklų pastatų tipų nėra. Todėl aprašymas mokyklos Kaip pastatus, jų atskirti į atskirą sąvoką netikslinga. Tačiau tokios kolektyvinės sąvokos aprašymas MOKYKLA kaip organizacija ir kaip pastatas turi turėti specialiai sukurtą ryšį su koncepcija PASTATAS. Apibūdinant tokius ryšius tezaure, naudojamas ryšio ženklas - modifikatorius „A“ („aspektas“; atliekant automatinę analizę, norint atsižvelgti į šį ryšį, reikia „patvirtinti“ kitomis sąvokomis).

MOKYKLA

AUKŠČIAU MOKYMO ĮSTAIGA

Aukščiau A VIEŠAS PASTATAS

Atitinkamos žodžio reikšmės bažnyčia ne taip arti. Bažnyčios Kaip organizacija, ji gali turėti daugybę bažnyčios pastatų įvairiose vietose, taip pat turi daug kitų pastatų. Bažnyčios statyba yra glaudžiai susijęs su religija ir konfesija, tačiau gali pakeisti priklausomybę bažnytinės organizacijos. Bažnyčia-organizacija Ir bažnyčios pastatas turi skirtingus porūšius. Štai kodėl BAŽNYČIA (ORGANIZACIJA) Ir BAŽNYČIA (PASTATAS) RuTez pateikiamos kaip skirtingos sąvokos.

Reikšmingas tezauro sąsajų skirtumas įdomiai koreliuoja su reikšmes atitinkančių denotacijų galimybe egzistuoti atskirai vienas nuo kito. Taigi bažnyčios pastatas nenustoja egzistavęs ir netgi vadinasi bažnyčia net pasikeitus jo paskirčiai, skirtingai nei mokyklos pastatas.

Vertybių vaizdavimo tezaure tikrinimo procesas nuolat vyksta, pradedant nuo dažniausiai pasitaikančių lemų. Prie kiekvienos dažninės leksemos tikrinama, kaip jos reikšmės aprašomos aiškinamuosiuose žodynuose, kokios reikšmės vartojamos rinkinyje ir kaip jos pateikiamos Tezaure. Dėl to dabar yra suformuotas 10 000 leksemų sąrašas, kurio dviprasmiškumas dar reikalauja arba papildomos analizės, arba papildomo aprašymo. Sąrašas gautas remiantis 30 tūkst. dažniausiai pasitaikančių lemų.

Pažymėtina, kad Tezaure polisemijos problema iš dalies pašalinta dėl to, kad tezauro sąsajas galima apibūdinti tarp skirtingų žodžio reikšmių, todėl pagal nutylėjimą galima pasirinkti aukščiausią hierarchijos sąvoką. Tai tikrai buvo aptarta tekste. Pavyzdžiui, žodis nuotrauka turi tris reikšmes: fotografija kaip veiklos sritis, fotografija kaip fotografinis vaizdas, fotografija kaip fotostudija:

FOTOGRAFIJA(fotografuojant, nuotraukų verslas, ..., nuotrauka )

DALIS FOTOGRAFINIS VAIZDAS

(nuotrauka, nuotrauka, nuotrauka )

DALIS FOTO STUDIJA (nuotrauka ).

Taigi, jei nebuvo įmanoma išsiaiškinti, kokia buvo žodžio reikšmė nuotrauka, pagal nutylėjimą daroma prielaida, kad buvo padaryta nuotrauka (proceso, rezultato ar vietos), o to pakanka daugeliui automatinio teksto apdorojimo programų.

  1. „RuTez“ tezauro taikymas

automatiniam teksto apdorojimui

Nuo 1995 m. socialinė-politinė terminija RuTez (socialinis-politinis tezauras) aktyviai ir sėkmingai naudojama įvairioms automatinio teksto apdorojimo programoms, tokioms kaip automatinis konceptualus indeksavimas, automatinis rubrikavimas naudojant keletą rubrikų, automatinis tekstų anotavimas, įskaitant anglų kalbą. vienus. Socialinis-politinis tezauras (27 tūkst. sąvokų, 62 tūkst. teksto įrašų) yra pagrindinis paieškos įrankis UIS RUSSIA paieškos sistemoje (www.cir.ru).

Visas RuTez tezauro žodynas naudojamas automatinio tekstų skirstymo į kategorijas naudojant sudėtingas hierarchines rubrikas procedūras. Esamoje technologijoje kiekviena kategorija apibūdinama kaip Būlio terminų išraiška, po kurios pradinė formulė išplečiama pagal tezauro hierarchiją. Gautoje Būlio išraiškoje jau gali būti šimtai ir tūkstančiai jungtukų ir disjunkcijų.

Kaip pavyzdį pateikiame SOFIST 2 rubrikos rubrikos „Moters įvaizdis“ aprašo fragmentą, naudojant tezauro sąvokas (ir lingvistines išraiškas išplėtus formulę), kurią VTsIOM naudojo viešosios nuomonės apklausos anketoms klasifikuoti:

(MOTERIS[N]

|| MERGAITĖ[N]

|| GIMINIS [L] (močiutė, anūkė, pusseserė,

dukra, svainė, mama, pamotė, marti, podukra, ...))

(CHARAKTERIO BRUOŽAS[L] (taupus, beširdis, užmaršus,

lengvabūdiškas, pašaipiai, netolerantiškas, bendraujantis,...)

|| VAIZDAS [E] (pateikimas, išvaizda, išvaizda,

išvaizda, išvaizda, vaizdas, išvaizda)

|| MALONU [L] (..., įdomu, gražu, miela,

patrauklus, mielas, patrauklus...)

|| NEMALUS[L] (nesimpatiškas, grubus, bjaurus,...)

|| VERTINTI[L] (gerbti, dievinti, dievinti,

garbinti, garbinti,...)

|| PASIRINKTI[N]

Simbolis „E“ reiškia visišką plėtimąsi tezauro hierarchijoje, simbolis „L“ – pagal rūšių ryšius („ŽEMIAUS“), simbolis „N“ – nesiplečia.

Vykdomi tyrimai siekiant sukurti kombinuotą automatinio teksto skirstymo į kategorijas technologiją, jungiančią tezauro žinias ir mašininio mokymosi procedūras.

Nagrinėjami tezauro panaudojimo natūralia kalba suformuluotai užklausai išplėsti klausimai (šiuo metu UIS RUSSIA informacijos paieškos sistemoje terminologinei užklausai išplėsti naudojama tik socialinė-politinė tezauro dalis), ieškoma atsakymai į klausimus dideliuose tekstų rinkiniuose.

7. Išvada

Straipsnyje pateikiami pagrindiniai lingvistinių išteklių automatinio didelių tekstų rinkinių apdorojimo kūrimo principai. Sukurtas kalbinis išteklius - Rusų kalbos tezauras RuTez - skirtas naudoti tokiose automatinio teksto apdorojimo programose kaip konceptualus dokumentų indeksavimas, automatinis rubrikavimas naudojant sudėtingus hierarchinius rubrikus, automatinis natūralios kalbos užklausų išplėtimas.

Šis darbas iš dalies remiamas Rusijos humanitarinio fondo dotacijos Nr. 00-04-00272a.

Literatūra

  1. Lukashevich N.V., Saliy A.D., Žinių vaizdavimas automatinio teksto apdorojimo sistemoje //NTI, Ser.2. 1997. Nr. 3. P. 1-6.
  2. Zhuravlev S.V., Yudina T.N., Informacinė sistema RUSIJA //NTI, Ser.2. 1995. Nr. 3. P. 18-20.
  3. Winston M., Chaffin R., Herman D., Dalies ir visumos santykių taksonomija // Kognityvinis mokslas. 1987. Nr. 11. P. 417-444.
  4. Priss U.E., „WordNet“ formalizavimas reliacinės koncepcijos analizės metodais // WordNet. Elektroninė leksikos duomenų bazė / Red. pateikė C. Fellbaum. Kembridžas, Masačusetsas, Londonas, Anglija.: The MIT Press, 1998. P. 179–196.
  5. Guarino N., Welty C., Oficiali savybių ontologija // ECAI-00 seminaro apie ontologijų taikymą ir problemų sprendimo metodus medžiaga. Berlynas: 2000. P. 121-128. (http://citeseer.nj.nec.com/guarino00formal.html).

Kai kurie ontologiniai aukščiausio lygio leksinių išteklių projektavimo principai // First Int. Konf. apie kalbos išteklius ir vertinimą. 1998 m.

  1. Lukaševičius N.V., Dobrovas B.V., Koncepcinių santykių modifikatoriai automatinio indeksavimo tezauruose // NTI, Ser.2. 2000, Nr.4, 21-28 p.
  2. Didelis aiškinamasis rusų kalbos žodynas / Red. S.A. Kuznecova. Sankt Peterburgas: Norint, 1998 m.
  3. Ozhegov S.I., Shvedova N.Yu., Aiškinamasis rusų kalbos žodynas - 3 leidimas. M.: Az, 1996 m.
  4. Apresyan Yu.D., Rinktiniai kūriniai, I tomas. Leksinė semantika: 2 leidimas. M.: Mokykla „Rusų kultūros kalbos“, red. Firmos „Rytietiška literatūra“ RAS, 1995 m.
  5. G. Miller, R. Beckwith, C. Fellbaum, D. Grossas ir K. Miller, Penki straipsniai apie WordNet, CSL ataskaita 43. Kognityvinių mokslų laboratorija, Prinstono universitetas, 1990 m.
  6. Chugur, J. Gonzalo ir F. Verdjeo, Jausmų skirtumai NLP programose // „OntoLex-2000“ darbai: ontologijos ir leksikos žinių bazės. Sofija: OntoTextLab. 2000 m.
  7. Loukachevitch N., Dobrov B., Struktūrinė teminė santrauka daugiakalbėse informacinėse sistemose tezaurais // Mašininio vertimo apžvalga. 2000. Nr. 11. P. 10-20. (http://www.bcs.org.uk/siggroup/nalatran/mtreview/mtr-11/mtr-11-8.htm).

Rusų kalbos tezauras natūralios kalbos apdorojimui

didelių tekstų rinkinių

Natalija V. Loukachevič, Borisas V. Dobrovas

Raktiniai žodžiai: tezauras, natūralios kalbos apdorojimas, informacijos paieška

Savo pristatyme aptariame pagrindinius leksinių išteklių, skirtų didelių tekstų rinkinių automatiniam apdorojimui, kūrimo principus ir aprašome rusų kalbos tezauro, kuriamo nuo 1997 metų specialiai kaip automatinio teksto apdorojimo įrankis, struktūrą. Dabar tezauras yra hierarchinis 42 tūkstančių sąvokų tinklas. Aprašome dabartinį Tezauro kūrimo etapą, palyginti su 100 000 dažniausiai pasitaikančių Universiteto informacinės sistemos RUSIJA (www.cir.ru) tekstų rinkinio lemų, įskaitant 400 tūkstančių dokumentų. Taip pat svarstome tezauro naudojimą įvairiose automatinio teksto apdorojimo programose.

Skyrius labai paprasta naudoti. Tiesiog įveskite norimą žodį į pateiktą lauką, ir mes pateiksime jums jo reikšmių sąrašą. Noriu pastebėti, kad mūsų svetainėje pateikiami duomenys iš įvairių šaltinių – enciklopedinių, aiškinamųjų, žodžių darybos žodynų. Čia taip pat galite pamatyti įvesto žodžio vartojimo pavyzdžius.

Žodžio tezauras reikšmė

tezauras kryžiažodžių žodyne

Aiškinamasis rusų kalbos žodynas. S.I.Ožegovas, N.Ju.Švedova.

tezauras

[te], -a, m (specialusis).

    Kalbos žodynas, kuriame nustatyta užduotis visiškai atspindėti visą jos žodyną.

    Žodynas arba duomenų rinkinys, visiškai apimantis tam tikrus terminus ir sąvokas. specialus laukas.

    adj. tezauras, -aya, -oe.

Naujas aiškinamasis rusų kalbos žodynas, T. F. Efremova.

tezauras

    Kažkoks žodynas kalba, reprezentuojanti visą jos žodyną.

    Visas susistemintas duomenų apie kažką rinkinys. žinių sritis, leidžianti žmogui ar kompiuteriui joje naršyti (informatikos srityje).

Enciklopedinis žodynas, 1998 m

tezauras

TESAURAS (iš graikų kalbos tezaurai - lobis)

    žodynas, kuriame kalbos žodžiai pateikiami kuo išsamiau su jų vartojimo tekste pavyzdžiais (visiškai įmanoma tik mirusioms kalboms).

    Žodynas, kuriame temiškai išdėstyti žodžiai, susiję su bet kuria žinių sritimi, rodomi semantiniai ryšiai (gentis-rūšis, sinonimai ir kt.) tarp leksinių vienetų. Informacijos paieškos tezauruose leksiniai teksto vienetai pakeičiami deskriptoriais.

Tezauras

(iš graik. thesaurós ≈ lobis, lobis), kalbos semantinių vienetų rinkinys su joje nurodyta semantinių (žr. Semantika) ryšių sistema. T. faktiškai nustato kalbos (nacionalinės kalbos, konkretaus mokslo kalbos arba formalizuotos kalbos automatizuotai valdymo sistemai) semantiką. Iš pradžių T. buvo laikomas vienakalbiu žodynu, kuriame semantiniai santykiai nustatomi grupuojant žodžius į temines antraštes. Pavyzdžiui, angliškame T. (aut. P. M. Roget), išleistame 1962 m. (1-asis leidimas 1852 m.), yra 1040 antraščių, į kurias paskirstyta apie 240 000 žodžių. Šio T. rodyklėje (rakte) yra abėcėlinis žodžių sąrašas, nurodantis antraštes ir paantraštes, kurioms priklauso kiekvienas žodis. Yra tradiciniai bendrieji kalbiniai tekstai (atskirų kalbų semantinių sistemų aprašymai) anglų, prancūzų ir ispanų kalboms. Vienakalbiai žodynai, nurodantys kiekvieno žodžio pagrindinių semantinių parametrų išraiškas, yra labai artimi T., pavyzdžiui, S. I. Ožegovo rusų kalbos žodynas.

70-aisiais 20 a Plačiai paplito informacijos paieškos sistemos Šiose sistemose identifikuojami specialūs leksiniai vienetai – deskriptoriai, kuriais galima automatiškai ieškoti dokumentinės informacijos. Kiekvienas tokio T. žodis siejamas su sinoniminiu deskriptoriumi (žr. Sinonimai), o semantiniai ryšiai yra aiškiai nurodyti deskriptoriams: gentis ≈ rūšis, dalis ≈ visa, tikslas ≈ reiškia ir tt Paprastai įprasta atskirti genčiai būdingi (hierarchiniai) ir asociatyviniai ryšiai. Taigi 1973 m. SSRS išleistame „Informacijos paieškos tezaure informatikos moksle“ kiekvienam deskriptoriui pateikiamas žodyno įrašas, kuriame atskirai nurodomi sinoniminiai raktiniai žodžiai, bendriniai, specifiniai ir asociatyvūs aprašai. Siekiant geriau orientuotis į asociatyvius ryšius tarp deskriptorių, prie šio T pridedami semantiniai teminių klasių žemėlapiai. Automatizuoto informacijos gavimo metu ieškoma dokumentų, kurių indekse yra ne tik užklausos deskriptoriai, bet ir tie deskriptoriai, kurie yra su jais tam tikruose semantiniuose ryšiuose. Kartais pravartu žodyne išskirti konkrečius asociatyvinius ryšius, būdingus konkrečiai teminei sričiai: liga ≈ sukėlėjas, prietaisas ≈ paskirtis (arba išmatuota vertė) ir tt Leksinio vieneto (žodžio, frazės) padėtis žodyne apibūdina jo reikšmę kalboje ; semantinių santykių sistemos, į kurią patenka duotas žodis (įskaitant kategorijas, į kurias jis įtrauktas), žinios leidžia spręsti apie šio žodžio reikšmę.

Plačiąja prasme T. aiškinamas kaip atskiro informacijos nešėjo ar nešėjų grupės turimos žinių apie tikrovę sistemos aprašymas. Ši laikmena gali atlikti papildomos informacijos imtuvo funkcijas, dėl to jos T taip pat keičiasi Pirminis T nulemia imtuvo galimybes priimant semantinę informaciją. Psichologijoje ir tiriant sistemas su dirbtiniu intelektu atsižvelgiama į individų savybes, kurios pasireiškia informacijos suvokime ir supratimu. Sociologijoje ir komunikacijos teorijoje tiria individų ir grupių bendravimo ypatybes, kurios užtikrina tarpusavio supratimo galimybę, pagrįstą bendravimo bendrumu. Šiose situacijose komunikacija turi apimti sudėtingus teiginius ir jų semantinius ryšius, kurie lemia atsargą sudėtingai sistemai prieinamos informacijos. T. faktiškai yra ne tik informacija apie tikrovę, bet ir metainformacija (informacija apie informaciją), kuri leidžia gauti naujus pranešimus.

Lit.: Cherny A.I., Bendroji tezaurų konstravimo metodika, „Mokslinė ir techninė informacija. Ser. 2", 1968, ╧5; Varga D., Informacinių tezaurų rengimo metodika, vert. [iš vengrų], M., 1970; Shreider Yu A., Tezaurai kompiuterių moksle ir teorinėje semantikoje, „Mokslinė ir techninė informacija. Ser. 2“, 1971 m., ╧ Z.

Yu A. Schrader.

Vikipedija

Tezauras

Tezauras, bendrąja prasme – specialioji terminija, griežčiau ir konkrečiau – žodynas, informacijos rinkinys, korpusas ar kodas, visiškai apimantis konkrečios žinių srities ar veiklos srities sąvokas, apibrėžimus ir terminus, kurie turėtų prisidėti prie teisingos leksikos, įmonių komunikacija; šiuolaikinėje kalbotyroje – specialus žodyno tipas, nurodantis semantinius ryšius (sinonimus, antonimus, paronimus, hiponimus, hiperonimus ir kt.) tarp leksinių vienetų. Tezaurai yra viena iš efektyviausių priemonių atskiroms dalykinėms sritims apibūdinti.

Skirtingai nei aiškinamasis žodynas, tezauras leidžia identifikuoti reikšmę ne tik per apibrėžimą, bet ir susiejant žodį su kitomis sąvokomis bei jų grupėmis, dėl ko jis gali būti panaudotas dirbtinio intelekto sistemų žinių bazėms užpildyti.

Praeityje terminas tezauras Daugiausia buvo skiriami žodynai, maksimaliai išbaigti reprezentuojantys kalbos žodyną su jo vartojimo tekstuose pavyzdžiais.

Taip pat terminas tezauras naudojamas informacijos teorijoje visos subjekto turimos informacijos visumai žymėti.

Psichologijoje individo tezauras pasižymi informacijos suvokimu ir supratimu. Komunikacijos teorijoje taip pat atsižvelgiama į bendrą sudėtingos sistemos tezaurą, per kurią jos elementai sąveikauja.

Tezauras (nurodymas)

Tezauras:

  • Tezauras yra žodynas, informacijos rinkinys, apimantis specialios žinių ar veiklos srities sąvokas, apibrėžimus ir terminus.
  • Roger's Thesaurus yra vienas pirmųjų istorijoje ir šiandien garsiausių ideografinių žodynų.

Žodžio tezauras vartojimo literatūroje pavyzdžiai.

Suvokimui ir bendrai kūrybai tam tikras optimalus tezauras, ne mažas, bet ir ne per didelis.

Su neribotu gaunamos informacijos kiekiu, gerokai viršijančiu tezauras, jo vertė nepriklauso nuo šio kiekio ir yra visiškai nustatyta tezauras ohm

Meno universalumas ir sistemingumas lemia nevienodą kūrinio kaip visumos suvokimą: kai kurių eilėraščio aspektų suvokimui. tezauras optimalus, kitiems jis yra nepakankamas arba per didelis.

Nes tezauras auga ir keičiasi, pakartotinis susipažinimas su darbu gali reikšti naujos vertingos informacijos įgijimą.

Suprantamas vaiko noras daug kartų perskaityti savo mėgstamą pasaką: jis tezauras sparčiai auga, o jo bendros kūrybos ir asociatyvios fantazijos gebėjimai yra ypač puikūs.

Šis dalyko aspektas yra labiau kintantis ir subjektyvus nei tezauras, o ieškant objektyvaus estetinio kūrinio įvertinimo jį reikėtų sumažinti iki minimumo.

Jis prasiskverbia tezauras poetas ir kreipiasi į vertimą tezauras iš užsienio kalbos skaitytojo.

Svarbiausia nustatyti, kokio dydžio jūsų tezauras, T.

Ne, tiesiog jo paties bagažas menkas, jis neišsivystęs, jo tezauras yra pradiniame etape ir jei jis to nesupranta tezauras turėtų būti padidintas, tada bet kuriuo atveju šiai moteriai bus sunku su juo.

Turtingas tezauras, paremtas tikromis žiniomis, leidžia žmogui bendraudamas su kitu asmeniu, įskaitant ir artimiausią bendravimą su artimiausiu žmogumi, teisingai reaguoti į tai, kas atsitiktų.

Akivaizdu, kad informacijos vertės kritimas didėja tezauras turi priklausyti nuo santykių tezauras prie gautos informacijos kiekio.

Akivaizdu, kad optimali meninės informacijos vertė atitinka artumą tezauras skaitytojas ir tezauras poetas.

Galima sakyti, kad bendrai kūrybai, kaip ir kūrybai, reikalingas įkvėpimas, tai yra įtraukimas tezauras plačiąja to žodžio prasme.

Toks vidinis ryškių vaizdų ir ryškaus garso kartojimas, išliekant esamo rėmuose tezauras, praturtina jį tuo pačiu estetiniu pasikartojimo momentu.

Šiuo metu tezauras Nabokovas ir Prišvinas turėtų būti laikomi Platonovo antipodais, o Marina Cvetaeva – panaši į jį.

, antonimai, paronimai, hiponimai, hipernimai ir kt.) tarp leksinių vienetų. Tezaurai yra viena iš efektyviausių priemonių atskiroms dalykinėms sritims apibūdinti.

Praeityje terminas tezauras Daugiausia buvo skiriami žodynai, maksimaliai išbaigti reprezentuojantys kalbos žodyną su jo vartojimo tekstuose pavyzdžiais.

Taip pat terminas tezauras naudojamas informacijos teorijoje visos subjekto turimos informacijos visumai žymėti.

Psichologijoje individo tezauras pasižymi informacijos suvokimu ir supratimu. Komunikacijos teorijoje taip pat atsižvelgiama į bendrą sudėtingos sistemos tezaurą, per kurią jos elementai sąveikauja.

Istorija

Vieną pirmųjų tezaurų Filonas iš Byblo pavadino „Sinonimų žodynu“. Tikslesnis termino atitikimas yra Amara-kosha, parašyta sanskrito kalba poetine forma VI amžiuje. Pirmąjį šiuolaikinį anglų kalbos tezaurą sukūrė Peteris Markas Rogeris 1805 m. Jis buvo išleistas 1852 m. ir nuo tada buvo naudojamas be perspausdinimo.

Aštuntajame dešimtmetyje tezaurai buvo pradėti aktyviai naudoti informacijos paieškos užduotims atlikti. Tokiuose tezauruose žodžiai susieti su deskriptoriais, per kuriuos užmezgami semantiniai ryšiai.

Tezaurai

Taip pat žr

Parašykite apžvalgą apie straipsnį "Tezauras"

Pastabos

Tezaurą apibūdinanti ištrauka

- Koks tu šiandien dendis! – tarė Nesvitskis, žiūrėdamas į savo naują mantiją ir balno pagalvėlę.
Denisovas nusišypsojo, iš savo vežimėlio ištraukė kvepalais kvepiančią nosinę ir įsmeigė Nesvitskiui į nosį.
- Aš negaliu, aš einu dirbti! Išlipau, išsivaliau dantis ir pasidėjau kvepalų.
Ori Nesvitskio figūra, lydima kazoko, ir Denisovo ryžtas, mojuojantis kardu ir beviltiškai šaukiantis, padarė tokį poveikį, kad jie įsiveržė į kitą tilto pusę ir sustabdė pėstininkus. Nesvitskis prie išėjimo rado pulkininką, kuriam reikėjo perduoti įsakymą, ir, įvykdęs jo nurodymus, grįžo atgal.
Išvalęs kelią Denisovas sustojo prie įėjimo į tiltą. Atsainiai sulaikydamas prie savųjų besiveržiantį eržilą ir spardydamas, pažvelgė į jo link judančią eskadrilę.
Palei tilto lentas pasigirdo skaidrūs kanopų garsai, tarsi šliaužiotų keli arkliai, o eskadrilė su karininkais priekyje, keturiais iš eilės, išsitiesė palei tiltą ir ėmė kilti iš kitos pusės.
Sustabdyti pėstininkai, besigrūdantys tryptame purve prie tilto, su tuo ypatingu nedraugišku susvetimėjimo ir pajuokos jausmu, su kuriuo dažniausiai susiduria įvairios kariuomenės šakos, žiūrėjo į tvarkingai pro juos žygiuojančius švarius, žvalius husarus.
- Protingi vaikinai! Jei tik tai būtų Podnovinskoje!
- Kuo jie naudingi? Jie tiesiog važiuoja parodyti! - pasakė kitas.
- Pėstininkai, nedulkėkite! - juokavo husaras, po kuriuo arklys, žaisdamas, purvu aptaškė pėstininką.
„Jei būčiau tave varęs per du žygius su tavo kuprine, raišteliai būtų susidėvėję“, – sakė pėstininkas, rankove šluostydamas purvą nuo veido; - kitaip sėdi ne žmogus, o paukštis!
„Jei galėčiau tave pasodinti ant žirgo, Zikinai, jei būtum judrus“, – juokavo kapralas apie liekną kareivį, pasilenkusį nuo kuprinės svorio.
„Paimk pagalį tarp kojų ir turėsi arklį“, - atsakė husaras.

Likusi pėstininkų dalis nuskubėjo per tiltą, prie įėjimo suformuodama piltuvą. Pagaliau visi vežimai pravažiavo, gniuždymo sumažėjo ir paskutinis batalionas įžengė į tiltą. Kitoje tilto pusėje prieš priešą liko tik Denisovo eskadrilės husarai. Priešas, matomas tolumoje nuo priešingo kalno, iš apačios, nuo tilto, dar nebuvo matomas, nes nuo daubos, kuria tekėjo upė, horizontas baigėsi priešingame aukštyje ne daugiau kaip už pusės mylios. Priekyje buvo dykuma, kuria šen bei ten judėjo mūsų keliaujančių kazokų grupės. Staiga priešingoje kelio kalvoje pasirodė kariai mėlynais gaubtais ir artilerija. Tai buvo prancūzai. Kazokų patrulis nuskrido žemyn. Visi Denisovo eskadrilės karininkai ir vyrai, nors ir bandė kalbėti apie pašalinius asmenis ir apsidairyti, nenustojo galvoti tik apie tai, kas ten ant kalno, ir nuolat žvelgė į horizonto vietas, kurias atpažino kaip priešo kariuomenę. Po pietų oras vėl pragiedrėjo, saulė skaisčiai leidosi virš Dunojaus ir jį supančių tamsių kalnų. Buvo tylu, o nuo to kalno retkarčiais pasigirsdavo ragų garsai ir priešo riksmai. Tarp eskadrilės ir priešų nebuvo nieko, išskyrus smulkius patrulius. Juos nuo jo skyrė tuščia erdvė, trys šimtai gylių. Priešas nustojo šaudyti, o kas aiškiau pajuto tą griežtą, grėsmingą, neįveikiamą ir nepagaunamą liniją, skiriančią dvi priešo kariuomenes.
„Žingsnis už šios linijos, primenančios liniją, skiriančią gyvuosius nuo mirusiųjų, ir – kančios ir mirties nežinomybę. Taigi kas ten? kas ten? ten, anapus šio lauko, ir medis, ir saulės apšviestas stogas? Niekas nežino, o aš noriu žinoti; ir baisu peržengti šią liniją, o norisi ją peržengti; ir tu žinai, kad anksčiau ar vėliau teks ją kirsti ir išsiaiškinti, kas yra kitoje linijos pusėje, kaip ir neišvengiama sužinoti, kas yra kitoje mirties pusėje. O jis pats stiprus, sveikas, linksmas ir susierzinęs, apsuptas tokių sveikų ir irzliai linksmų žmonių. Taigi, net ir nemąsto, kiekvienas priešo akiratyje atsidūręs žmogus tai jaučia, o šis jausmas viskam, kas vyksta šiomis minutėmis, suteikia ypatingo spindesio ir džiaugsmingo įspūdžių aštrumo.
Ant priešo kalvos pasirodė šūvio dūmai, o patrankos sviedinys švilpdamas praskriejo virš husarų eskadrilės galvų. Kartu stovėję pareigūnai nuėjo į savo vietas. Husarai atsargiai ėmė tiesinti arklius. Eskadrilėje viskas nutilo. Visi žiūrėjo į priekį ir į priešą, ir į eskadrilės vadą, laukdami komandos. Praskriejo kitas, trečias patrankos sviedinys. Akivaizdu, kad jie šaudė į husarus; bet patrankos sviedinys, tolygiai greitai švilpdamas, praskriejo virš husarų galvų ir pataikė kažkur už nugaros. Husarai neatsigręžė, bet nuo kiekvieno skrendančio patrankos sviedinio skambesio, tarsi pagal komandą, visa eskadrilė monotoniškai įvairiapusiškais veidais, sulaikiusi kvėpavimą patrankos sviediniui skrendant, pakilo į balnakilpus ir vėl nukrito. Kareiviai, nesukdami galvų, žvilgtelėjo vienas į kitą šonu, smalsiai ieškodami savo bendražygio įspūdžio. Kiekviename veide, nuo Denisovo iki plėšiko, prie lūpų ir smakro atsirado vienas bendras kovos, susierzinimo ir susijaudinimo bruožas. Seržantas suraukė antakius, apsidairė į kareivius, tarsi grasindamas bausme. Junkeris Mironovas pasilenkė su kiekvienu patrankos sviedinio perdavimu. Rostovas, stovintis kairiajame krašte ant kojos paliesto, bet matomo Gračiko, atrodė laimingas kaip studentas, iškviestas prieš didelę auditoriją į egzaminą, kuriame jis buvo įsitikinęs, kad jam pasiseks. Jis aiškiai ir ryškiai žiūrėjo į visus, tarsi prašydamas atkreipti dėmesį į tai, kaip ramiai jis stovėjo po patrankos sviediniais. Bet ir jo veide, prieš jo valią, prie burnos išryškėjo tas pats kažko naujo ir griežto bruožas.
-Kas ten lenkiasi? Yunkeg "Mig" ons! Hexog, pažiūrėk į mane! - sušuko Denisovas, negalėdamas stovėti vietoje ir sukdamasis ant žirgo priešais eskadrilę.
Sunkus nosis ir juodaplaukis Vaskos Denisovo veidas ir visa jo maža, daužyta, raumeninga (trumpais plaukais aptrauktais pirštais) ranka, kurioje jis laikė užtraukto kardo rankeną, buvo lygiai toks pat, kaip visada. ypač vakare, išgėrus du butelius. Jis buvo tik labiau raudonas nei įprastai ir, pakėlęs gauruotą galvą į viršų, kaip paukščiai geria, negailestingai spaudė spyglius į gerojo beduino šonus savo mažomis kojomis, jis, tarsi krisdamas atbulas, nušoko į kitą šoną. eskadrilę ir užkimusiu balsu šaukė, kad būtų apžiūrimi pistoletai. Jis nuvažiavo pas Kirsteną. Štabo kapitonas ant plačios ir ramios kumelės nužingsniavo Denisovo link. Štabo kapitonas ilgais ūsais buvo rimtas, kaip visada, tik akys spindėjo labiau nei įprastai.
- Ką? - pasakė jis Denisovui, - į muštynes ​​nebus. Pamatysi, grįšim.
„Kas žino, ką jie daro“, – sumurmėjo Denisovas „Ak! - sušuko kariūnui, pastebėjęs linksmą jo veidą. - Na, aš laukiau.
Ir jis pritariamai nusišypsojo, matyt, džiaugdamasis kariūnu.
Rostovas jautėsi visiškai laimingas. Tuo metu ant tilto pasirodė viršininkas. Denisovas šuoliavo link jo.
- Jūsų Ekscelencija, aš juos užpulsiu!
- Kokie čia išpuoliai, - nuobodžiu balsu tarė viršininkas, susiraukšlėjęs tarsi nuo įkyrios musės. - O kodėl tu čia stovi? Matote, flankeriai traukiasi. Vesk eskadrilę atgal.
Eskadrilė perėjo tiltą ir išvengė šūvių nepraradusi nė vieno žmogaus. Paskui jį perėjo antroji eskadrilė, kuri buvo grandinėje, o paskutiniai kazokai išvalė tą pusę.
Dvi eskadrilės Pavlogrado gyventojų, perėję tiltą, viena po kitos grįžo į kalną. Pulko vadas Karlas Bogdanovičius Schubertas privažiavo prie Denisovo eskadrilės ir jojo žingsniu netoli Rostovo, nekreipdamas į jį jokio dėmesio, nepaisant to, kad po ankstesnio susirėmimo dėl Telianino jie dabar pirmą kartą pamatė vienas kitą. Rostovas, jausdamasis priekyje žmogaus, prieš kurį dabar laikė save kaltu, valdžioje, nenuleido akių nuo atletiškos pulko vado nugaros, šviesaus pakaušio ir raudono kaklo. Rostovui atrodė, kad Bogdaničius tik apsimeta nedėmesingu, o visas jo tikslas dabar yra išbandyti kariūno drąsą, jis atsitiesė ir linksmai apsidairė; tada jam atrodė, kad Bogdaničius tyčia jojo arti, kad parodytų Rostovui savo drąsą. Tada jis manė, kad dabar jo priešas sąmoningai pasiųs eskadrilę į beviltišką puolimą, kad nubaustų jį, Rostovą. Buvo manoma, kad po išpuolio jis prieis prie jo ir dosniai išties jam, sužeistajam, susitaikymo ranką.



Ar jums patiko straipsnis? Pasidalinkite su draugais!