Тезаури. Тезаурус үүсгэх хэл шинжлэлийн зарчим Өгөгдсөн сэдвээр тезаурус үүсгэх

Доод тезаурусЭнэ нь толь бичгийн төрөл бүрийн нийлмэл бүрэлдэхүүн хэсэг гэж ойлгогддог бөгөөд энэ нь толь бичгийн бүх утга нь тайлбарласан мэдлэгийн талбар дахь ойлголтуудын үндсэн харилцааг тусгасан семантик харилцаагаар харилцан уялдаатай байдаг. Эрт дээр үед "Тезаурус" гэдэг нэр томьёо нь тухайн хэлний үгсийн санг эх бичвэрт ашигласан жишээнүүдийн хамт хамгийн бүрэн дүүрэн харуулсан толь бичгүүдийг илэрхийлдэг байв.

Тезаурус орно лексемүүд, ярианы дөрвөн хэсэгтэй холбоотой: нэр үг, нэр үг, үйл үг, үйл үг. Ярианы хэсэг бүрт тохирсон тайлбарууд нь өөр өөр бүтэцтэй байдаг.

Тезаурусын үндсэн харилцаа нь:

  • синоним- ярианы ижил хэсгийн үгсийн хоорондын холбоо, дуу авиа, үсгийн хувьд өөр, гэхдээ ижил буюу маш төстэй лексик утгатай, жишээлбэл: морин цэрэг - морин цэрэг, зоригтой - зоригтой;
  • эсрэг утгатай- ярианы нэг хэсгийн үгсийн хоорондын холбоо, дуу авиагаараа ялгаатай, шууд эсрэг утгатай: үнэн - худал, сайн - муу;
  • гипоном/гипероним. Гиперним- ерөнхий, ерөнхий ойлголтыг илэрхийлдэг илүү өргөн утгатай үг, объектын (шинж чанар, шинж чанар) ангиллын нэр. Гипоним– ангийн (иж бүрдэл) элемент болгон объектыг (өмч, шинж чанар) нэрлэсэн нарийн утгатай үг. Эдгээр харилцаа нь шилжилт, тэгш хэмт бус байдаг. Гипоним нь гипернмийн бүх шинж чанарыг өвлөн авдаг. Эдгээр нь нэр үгийг дүрслэх гол харилцаа юм;
  • нэр томъёо/партономи– “ХЭСЭГ-БҮХЭН” харилцаа. Энэ хамаарлын хүрээнд “элемент байх”, “хийсэн байх” гэсэн харилцаанууд ялгардаг. Харилцаа нь зөвхөн нэр үгийн хувьд тодорхойлогддог;
  • үр дагавар (энэ харилцаа нь үйл үгсийг холбодог);
  • шалтгаан (мөн үйл үгийн хувьд тодорхойлогддог).

Тезаурусын жишээ:

Овоохой - модон тариачны байшин [гипероним]: орон сууцны барилга [мероним]: хөдөөгийн суурин [ижил нэр]: байшин

Бүх харилцаа нь ойлголтуудын нарийн төвөгтэй шаталсан сүлжээг бий болгодог бөгөөд энэ сүлжээнд ямар нэг ойлголт хаана байрлаж байгааг мэдэх нь тухайн ойлголтын талаар мэдэх чухал хэсэг юм. Ярианы янз бүрийн хэсгийг дүрслэхдээ харилцааны шинж чанарууд өөр өөр байдаг.

Төрөл бүрийн системд тезаурус өөр өөр функцийг гүйцэтгэж болно:

  • нарийн буюу өргөн хүрээний сэдвийн хүрээнд тусгай мэдлэгийн эх сурвалж, тухайн сэдвийн нэр томьёог тайлбарлах, цэгцлэх арга зам;
  • мэдээлэл хайх систем дэх хайлтын хэрэгсэл;
  • мэдээлэл хайх систем дэх баримт бичгийг гараар индексжүүлэх хэрэгсэл (хяналтын толь бичиг гэж нэрлэгддэг);
  • автомат текст индексжүүлэх хэрэгсэл.

Концепцийн толь бичиг болох тезаурусууд нь англи хэлний үгсийн санг бүлэг болгон системчилсэн Рожер (эсвэл Английн физикч Рожет)-аас эхэлсэн. Бүлэг бүрийг үзэл баримтлалын нэрээр төлөөлдөг ("Ангилал", тэдгээрийн эхний мянга нь байсан; эдгээр нь цагаан толгойн үсгийн дарааллаар байрласан энгийн үгс, жишээлбэл БАТЛАХ ... АГЕНТЛАГА ...), дараа нь ижил утгатай үгсээр илэрхийлэгддэг. ярианы хэсэг (нэр үг, үйл үг, нэр үг, үйл үг), антоним, дараа нь холбогдох үгсийн жагсаалт (тэдгээрийн олон байдаг, зарим нь бусад ангиллын нэрсийн лавлагаа байдаг бөгөөд толь бичгийн жагсаалтад "алс холын хамаатан" гэсэн жагсаалт байдаг. үргэлжлүүлж болно, жишээ нь, АГЕНТЛАГА-аас... БИЗНЕС-ийг үзнэ үү). 1852 онд Рожерын тезаурус хэвлэгдсэнээс хойш. мөн түүний дахин хэвлэлтүүд өөр өөр хэлбэрээр үргэлжилсээр байгаа бөгөөд өөр өөр хэрэглэгчдийн хувьд тезаурус нь шинэ үгсийн сан, холболтоор байнга шинэчлэгдэж байдаг боловч эхний хувилбарыг бүтээгчийн нэр бүх сонголтуудын ард үлддэг. Энэхүү тезаурусын үнэ цэнэ нь байгалийн жам ёсны шинж чанартай бөгөөд энэ нь зөвхөн нэр томьёо төдийгүй хэлний бүх үгсийн сангийн тайлбар бөгөөд мэдээлэл хайх системд ашиглах боломжийг нэмэгдүүлэх явдал юм. системийн семантик хүч.

Тезаурус нь хүний ​​ойлголтод тохирсон, тухайн сэдвийн талаархи мэдлэгийг дүрслэх хамгийн хүлээн зөвшөөрөгдсөн хэлбэр хэвээр байна. Орчин үеийн гадаад тезауригийн жишээ бол WordNet болон EuroWordNet юм.

WordNet англи хэлний тезаурус 1990 онд гарч ирэв. мөн автомат текст боловсруулах янз бүрийн салбарт идэвхтэй оролцож эхэлсэн. WordNet нь 70,000 ойлголтоор зохион байгуулагдсан 100 мянга орчим өөр өөр нэгжийг (тэдгээрийн бараг тал нь хэллэг) хамардаг.

EuroWordNet-ийн олон хэл дээрх тезаурусыг одоогоор боловсруулж байна. Эхлээд дөрвөн хэлний (Дани, Итали, Испани, Америкийн англи хэл) хувьд утгын холбоогоор холбогдсон үгийн утгын сүлжээг боловсруулж, өөр өөр хэл дээрх ижил утгатай үгсийг олох боломжийг олгодог. Англи хэлний лексик ба концепцийн системийг тайлбарлах зорилгоор бүтээгдсэн Рожерын тезаурус ба WordNet сүлжээнээс ялгаатай нь EuroWordNet нь үндсэндээ их хэмжээний текстийг автоматаар боловсруулах практик асуудлыг шийдвэрлэхэд зориулагдсан юм. Энэхүү тезаурусын тусламжтайгаар шийдвэрлэх ёстой хамгийн чухал ажлууд нь дараахь зүйлүүд юм.

  • олон хэлээр мэдээлэл олж авах боломжийг олгох;
  • мэдээлэл олж авах бүрэн байдлыг нэмэгдүүлэх;
  • байгалийн хэлээр хүсэлт гаргах;
  • баримт бичгийн семантик индексжүүлэлт гэх мэт.

Эдгээр харилцаанаас гадна нэг субьектийн үзэл баримтлалыг холбосон сэдэвчилсэн харилцааг нэвтрүүлсэн. Мөн үзэл баримтлалын хоорондын хамаарлын талаар тусгай тэмдэглэл оруулахыг санал болгож байна, энэ нь харилцааны салгах эсвэл холболтыг илэрхийлдэг. Хэрэв сүлжээн дэх тодорхой ойлголт нь ижил нэртэй хэд хэдэн харилцаатай бол тэдгээр нь салангид байж болно, өөрөөр хэлбэл эдгээр харилцааны аль нэг нь бодитоор хэрэгждэг, эсвэл коньюнктив, өөрөөр хэлбэл эдгээр бүх харилцаа нь тухайн ойлголтод хүчинтэй байдаг.

Дотоодын хүрээлэнгүүд энэ төрлийн толь бичгийн улсын тодорхой стандартад нийцсэн зуу гаруй салбарын тусгай тезаури бүтээжээ. Тэдгээрийг - IRT - мэдээлэл олж авах тезаурус гэж нэрлэдэг. Үзэл баримтлал хоорондын бүх боломжит семантик харилцаанаас гурвыг нь тогтоодог: ижил утгатай, ерөнхий (ихэвчлэн "ХЭСЭГ-БҮХЭЛ" харилцааг агуулдаг) ба "бусад бүх" гэж бас ассоциатив гэж нэрлэдэг.

Стандарт IPT нь үндсэндээ баримт бичгийг гараар индексжүүлэх, хайлтын явцад асуулга боловсруулах, өөрчлөхөд зориулагдсан. Мэдлэгийн тодорхой салбарт нэр томъёог сонгон системчлэх зорилтыг тавьсан стандарт бус тезаурусууд байдаг - энэ нь ялангуяа шинэ сэдвүүдийн хувьд үнэн юм. Тезауриаг нэр томьёоны тодорхойлолтоор баяжуулах хандлага нэмэгдэж байгаа нь нэр томьёоны хоёрдмол утгатай байдлыг ялгахад чухал ач холбогдолтой, ялангуяа холбогдох салбаруудын хувьд, нарийн сэдвийн хүрээнээс хэтэрсэн тохиолдолд чухал юм.

3.1. Тезаурусын тухай ойлголт

Тезаурус (Грек хэлнээс θήσαϋροξ - эрдэнэс, нөөц) эсвэл үзэл суртлын толь бичиг (Грекээс санаа - ойлголт, дүрслэл, санаа ба grapho - бичих, дүрслэх) - орчин үеийн хэл шинжлэлд: 1) ерөнхий эсвэл тусгай үгсийн сангийн тусгай төрөл, лексик нэгж хоорондын семантик харилцааг агуулсан; 2) бусад үгтэй утгын холбоогоор үг хайхад зориулсан толь бичиг; 3) толь бичигт үгсийг цэгцлэх (зохицуулах) тодорхой арга зам; 4) эдийн засгийн хувьд "дэлхийг загварчлах" боломжийг олгодог толь бичгийн бүтцийг зохион байгуулах арга.

Эхний, анхны утгаараа - агуулах, эрдэнэс, тезаурус гэсэн нэр томъёог Л.В. Щерба "Ерөнхий толь бичгийн туршлага" нийтлэлд (гурав дахь эсэргүүцэл: тезаурус - ердийн (тайлбар эсвэл орчуулга) толь бичиг). Эрдэмтэн бичжээ: "Тэд тезаурус гэж хэлэхэд өнөөдөр бид ихэвчлэн "Thesaurus linguae latinae" буюу Германы таван академийн 1900 онд эхэлж, өнөөг хүртэл зөвхөн М үсгийг орхигдуулж ирсэн "Thesaurus linguae latinae" гэж ойлгодог. Энэ төрлийн толь бичгийн онцлог Энэ нь тухайн хэл дээр дор хаяж нэг удаа гарч буй бүх үгсийг агуулсан байх ёстой бөгөөд үг бүрийн доор тухайн хэл дээрх текстээс иш татсан болно. Дээрх эсрэг тэсрэг үг хэллэгийн үндэс болох "Тезаурус" - энгийн (тайлбар эсвэл орчуулга) толь бичиг нь "хэл шинжлэлийн материал" ба "хэл шинжлэлийн систем" гэсэн ойлголтуудын эсрэг байр суурь юм. Хэл шинжлэлийн туршилтын талаар."

Энэ нэр томъёоны хоёр дахь утга нь П.М. Рожер (Англи хэлний үг хэллэгийн Рогетын тезаурус, 1852) ба түүний үргэлжлэл, О.В.Барановын толь бичиг.

Энэхүү тайлбарт "Тезаурус" гэсэн нэр томъёо нь толь бичигт лексик найрлагыг зохион байгуулах, цэгцлэх тодорхой арга замыг илэрхийлдэг (нэр томъёоны гурав дахь утгыг үзнэ үү).

"Тезаурус" гэсэн нэр томъёоны дөрөв дэх утга нь "дэлхий ертөнцийг загварчлах" боломжийг олгодог толь бичгийн бүтцийг зохион байгуулах энэхүү аргыг бүх нийтээр хүлээн зөвшөөрсөнтэй холбоотой юм. Энэ үүднээс авч үзвэл, тезаурусын толь гэдэг нь "ямар ч шинжлэх ухаан, техникийн салбарын үгсийн санг системтэй эрэмбэлэх, хамгийн ерөнхий хэлбэрээр - ерөнхий утга зохиолын үгсийн сан, түүнчлэн тухайн хэлний бүхэл бүтэн үгсийн сан" юм.

Ю.Н. Караулов, ерөнхий хэлний тезаурус нь түүний гарчиг, хэсэг, бүс, талбаруудын бүтэц, харилцаа холбоонд санаа бодлыг амаар бус холбох өргөн боломжуудыг тогтоож, хүний ​​үнэ цэнийн талаархи ойлголтыг баталгаажуулдаг.

А.Н. Баранов, Д.О. Добровольский "Орчин үеийн орос хэлц үгсийн толь бичиг-тезаурус"-ын "Редакторуудаас" гэсэн оршилд "Орчин үеийн орос хэлц үгсийн толь бичиг" гэсэн үгэнд дараахь тодорхойлолтыг өгсөн - энэ нь бусдаас ялгаатай (ялангуяа тайлбар, хоёр хэлтэй гэх мэт) толь бичгийн тусгай төрөл юм. хэл шинжлэлийн материалыг зохион байгуулах. Тэмдэглэлд хэлний нэгжийг ердийн толь бичигт байгаа шиг цагаан толгойн үсгийн дарааллаар оруулдаггүй, харин утгыг нь харгалзан бүлэглэдэг.

Л.П. Крисин тезаурусыг (идеографийн толь бичиг) тусгай төрлийн тайлбар толь бичиг, "эсрэгээр нь" толь бичиг гэж нэрлэдэг. “Тайлбар толь бичигт эрдэмтэн бичдэг бол толь бичгийн “оруулга” нь үг, толь бичгийн оруулгын агуулга нь энэ үгийн утгыг тайлбарлаж байгаа бол үзэл суртлын толь бичигт “оруулга” гэж бичдэг. утга, санаа (иймээс энэ төрлийн толь бичгийн нэр - идеографи), толь бичгийн оруулгын агуулга нь тухайн утгыг илэрхийлсэн үгсийн жагсаалт юм. Хэрэв тайлбар толь бичиг нь текстийг ойлгоход зайлшгүй шаардлагатай хэрэгсэл бол идеографийн толь бичгийг текст үүсгэхэд ашиглаж болно: ихэнхдээ хүн тодорхой бодлоо илэрхийлэхийг хүсдэг боловч түүнд тохирох үгсийг олж чаддаггүй; ideographic толь бичиг нь эдгээр хайлтыг хөнгөвчилдөг. Тезаури хоёр үндсэн төрөл байдаг:

хэл шинжлэлийн тезаурус - эх бичвэрт утга учиртай дүн шинжилгээ хийсний үр дүнд сонгосон, хүлээн зөвшөөрөгдсөн ангиллын системийн дагуу системчилсэн байгалийн хэлний үгсийн жагсаалтыг агуулсан толь бичиг;

статистикийн тезаурус - тодорхой сэдвээр бичсэн бичвэрүүдэд статистик дүн шинжилгээ хийсний үр дүнд сонгосон үгсийн жагсаалтыг агуулсан мэдээлэл хайх толь бичиг бөгөөд эдгээр үгсийг ижил бичвэрт хавсарч тохиолдох давтамж дээр үндэслэн толь бичгийн бичилтүүдэд бүлэглэсэн.

Мэдээлэл хайх тезаури (IRT) нь мэдээллийг автоматаар боловсруулах явцад хайлтыг хөнгөвчилдөг. IPT нь лексик нэгжүүдийн хоорондын утгын харилцааг дээд зэргээр илчилдэг. IPT-ийн ГОСТ-д заасны дагуу "Мэдээллийн нэг хэлээр олж авах тезаурус нь нэг хэлний үгийн санд суурилсан, лексик нэгжүүдийн хоорондын утгын харилцааг харуулсан, мэдээлэл боловсруулах, хайхад зориулагдсан толь бичгийн нэгжүүдийн хяналттай, өөрчлөгддөг толь бичиг юм."

IPT-ийн үндсэн нэгж нь тодорхойлогч нэр томъёо юм. IPT-ийн цагаан толгойн үсгийн, лексик-семантик хэсэг нь тодорхойлогч өгүүллүүдийн багц юм.

Тайлбар толь бичиг нь тодорхой нутаг дэвсгэрийн үгсийн санг бүрэн дүрсэлж, бүх хэрэглээг бүртгэх зорилготой; тэд холбогдох бүх тохиолдлыг бүртгэдэг. Тайлбар толь бичгийн ердийн жишээ бол В.И. Даль (дөрвөн боть анхны хэвлэл нь 1863-1866 онд хэвлэгдсэн). Бүтээгчийн зорилго нь хэлийг стандартчилах биш, харин Оросын агуу ярианы олон янз байдал, түүний дотор ардын хэлний аялгуу хэлбэрийг бүрэн дүрслэх явдал байв.

Тодорхойлогч толь бичгийн оруулга бүр тодорхойлогчоос эхэлдэг бөгөөд энэ тодорхойлогчийн синонимууд, түүнчлэн төрөл зүйл, ассоциатив харилцаагаар үндсэн тодорхойлогчтой холбоотой бусад лексик нэгжүүдийг ГОСТ-ийн нийтлэлд доор өгсөн болно.

Тиймээс тезаури, ялангуяа цахим формат нь бие даасан сэдвийг дүрслэх үр дүнтэй хэрэгслүүдийн нэг юм.

Тезаурус нь цэвэр хэлбэрээр нь ховор байдаг. Бодит тезаурид анхны санаа нь хялбаршуулсан эсвэл гадуурх боловч шаардлагатай байж болзошгүй мэдээллийг хэрэглэгчдэд нэмж өгдөг. Өнөөдөр хамгийн алдартай нь Ю.Н.-ийн "Оросын семантик толь бичиг" юм. Караулова, "Ижил нэрсийн толь бичиг" Н.Ю. Шведова, "Орос хэлний сэдэвчилсэн толь бичиг" Л.Г. Смехова болон бусад.

Үргэлжлэл. Тезаурусын нэр томъёо L.V. Щерба үүнийг толь бичигт ашигласан бөгөөд хэрэв боломжтой бол тухайн үг тохиолдох бүх контекстийг тэмдэглэсэн байдаг. Тезаурусын онцлог шинж чанар нь тухайн хэл дээр гарч буй бүх үгсийг дор хаяж нэг удаа жагсаан бичдэг бөгөөд үг бүрийн доор тухайн хэл дээрх текстээс иш татсан болно. Тезаурусын толь бичгийн агуулга нь хэлний материал, ердийн толь бичиг нь хэлний материал ба хэлний систем (Л.В. Щербагийн нэр томъёо) юм.

Энэ шинж чанарыг янз бүрийн төрлийн хөндлөн холболтоор нөхдөг - ихэвчлэн парадигматик (синоним эсвэл антоним) нь утгын нийтлэг эсвэл эсрэг тэсрэг байдлыг илэрхийлдэг. Үүнээс гадна янз бүрийн төрлийн холбоодууд. холболтууд (жишээ нь синтагмын холболтууд).

Тиймээс, тезаурусын ажил (идеографийн толь бичиг) нь үндсэн семантик талбарууд, тэдгээрийн дотоод бүтэц, гадаад холболтыг харуулсан хэл шинжлэлийн материалын тодорхой хөндлөн огтлолын семантик зохион байгуулалтын талаархи ойлголтыг өгөх явдал юм. Тезаурус нь тухайн хэлний системчилсэн шинж чанарыг тодорхой харуулсан бөгөөд хэл шинжлэлийн бие даасан нэгж, нэгжийн бүлгүүдийг холбосон олон төрлийн харилцааг олж харах боломжийг олгодог.

3.2. Дэлхий ертөнцийн тухай ойлголтын мэдлэгийг тезаурус хэлбэрээр илэрхийлсэн түүх

Үгсийг утгынх нь ижил төстэй байдал, уялдаа холбоо, зүйрлэлээр нь цэгцлэх хэрэгцээ нь хүн төрөлхтний сэтгэлгээний ажиглаж болох түүхийн туршид мэдрэгдэж ирсэн.

Дэлхий ертөнцийн талаарх ойлголтын мэдлэгийг тезаурус хэлбэрээр илэрхийлэх санааны гарал үүслийг судлахын тулд тезаури (идеографийн толь бичиг) эмхэтгэсэн түүх рүү хандах нь бидэнд туслах болно.

Ийнхүү соёл иргэншлийн эхэн үед хүмүүс үзэл бодлоо зөвхөн идеограмм, тэмдэгтийн тусламжтайгаар бичгээр илэрхийлж чаддаг байсан үед үгсийг сэдэвчилсэн бүлэгт хуваасан цорын ганц боломжит толь бичиг байж магадгүй юм. Тухайн үед үг хэллэг зүйч хүнд бодит байдал дээр байгаа харилцаанаас өөр үгсийг ангилах өөр шалгуур олоход хэцүү байсан.

Харамсалтай нь үзэл суртлын бичиг хэрэглэж байсан ард түмэн үнэхээр ийм толь бичигтэй байсан эсэхийг нотлох баримт бидэнд алга. Бидэнд мэдэгдэж байсан үзэл суртлын ангиллын хамгийн эртний оролдлогуудын нэг бол Грекийн хэл зүйч, Александрийн номын сангийн захирал, Византийн Аристофан (МЭӨ 180 онд нас барсан) Аттикаи Лексис юм.

II зуунд. n. д. Египетийн Наукратис хотын уугуул, толь бичигч, софист Юлий Поллюкс (жинхэнэ нэр Полидеук) Грек хэл дээрх материал дээр эмхэтгэсэн "Ономастикон" хэмээх томоохон бүтээл гарч ирэв. Ю.Поллюкс хэд хэдэн бүтээл бичсэн боловч зөвхөн “Ономастикон” л бидэнд хүрчээ (Поллюкс Ю.Ономастикон. М., 1956).


Onomasticon нь 10 номноос бүрддэг. Номууд нь үндсэндээ тусдаа зохиол бөгөөд тодорхой сэдэвтэй холбоотой хамгийн чухал үгсийг агуулдаг. Тиймээс эхний номонд бурхад, хаадын тухай өгүүлдэг; хоёрдугаарт - хүмүүс, тэдний амьдрал, физиологийн бүтцийн тухай; гуравдугаарт - ураг төрлийн болон иргэний харилцааны тухай гэх мэт Толь бичигт орсон үгсийг товч тайлбарын хамт дагалддаг. Орчин үед уг толь бичгийг анх 1502 онд Венецид хэвлүүлжээ.

2-3-р зууны хооронд. n. д. Санскрит хэлний гайхамшигт толь бичиг “Амаракоша” (Амаракоша. Парис, 1839) хэвлэгджээ. Зохиогч нь эртний Энэтхэгийн яруу найрагч, хэл зүйч, үг зүйч Амара Сина бөгөөд түүнийг "Викрамадитьягийн хаан ширээг чимдэг есөн сувдны нэг" гэж нэрлэдэг байв. Амаракоша гэдэг нь орос хэл рүү орчуулбал Амараагийн эрдэнэ гэсэн үг. Уг толь бичигт 10 мянган үг багтсан байна. Үгсийн утгын тайлбарыг илүү сайн санахын тулд толь бичгийн оруулгуудыг шүлэг хэлбэрээр бүтээдэг. Бүх толь бичгийн материалыг 3 номонд хуваадаг. Ном бүр хэд хэдэн бүлгийг багтаасан бөгөөд шаардлагатай бол бүлэг нь ээлжлэн хэд хэдэн хэсэгт хуваагдана. Эхний ном нь тэнгэр, бурхад, тэдэнтэй шууд холбоотой бүх зүйлд зориулагдсан. Хоёрдахь номонд дэлхий, суурин газар, ургамал, амьтан, хүнтэй холбоотой үгс багтсан (эхлээд хүнийг амьд амьтан гэж үздэг, дараа нь нийгмийн амьтан гэж үздэг; зохиолчийн орчин үеийн нийгмийн бүх кастын бүтэц бидний нүдэн дээр харагдана; тахилч нар , Бурханы итгэмжлэгдсэн хүмүүсийн хувьд хамгийн дээд талд, доор нь цэргийн хүмүүс, хаадууд, үүнээс ч доогуур нь газрын эзэд, хамгийн доод талд нь гар урчууд, жонглёрууд, зарц нар гэх мэт). Гурав дахь ном нь хэл шинжлэлийн чанартай бөгөөд зургаан бүлгийн гарчгаас тодорхой харагдаж байна.

Энэхүү толь бичиг нь 18-р зууны сүүлчээр буюу 1798 онд Ромд анхны хэсэг нь хэвлэгдэн гарах үед л Европын эрдэмтэдэд танигджээ. Үүнийг 1808 онд Английн санскрит судлаач Г.Т. Колебрук (Н.Т. Колебрук). 1839 онд түүний франц хэл дээрх орчуулгыг А.Л. Делоншамп (A.L. Deslongchamps). Тайлбар толь бичгийн семантик ангиллын санааг цаашид хөгжүүлэх нь дэлхийн хэл гэж нэрлэгддэг асуудалтай холбоотой юм.

Үргэлжлэл. Энэ нь хамгийн ерөнхий утгаараа үгийн сангийн үзэл суртлын ангиллын уламжлалыг хөгжүүлэх эхний шат юм. Энэ үе шатыг үзэл суртлын толь бичгүүдийн өмнөх үе гэж нэрлэж болно. Одоо тезаурусын толь бичгийн орчин үеийн ангилалд хандахыг зөвлөж байна.

Тайлбарласан бүтээлүүд нь цагаан толгойн үсгийн толь бичгүүдээс ямар ялгаатай болохыг харахад хялбар байдаг. Хэрэв цагаан толгойн толь бичигт үгсийн танилцуулгыг цагаан толгой гэх мэт ердийн, маш төвийг сахисан хэрэглүүрээр зохицуулдаг бол үзэл суртлын толь бичиг зохиохдоо толь бичигч өөрөө ертөнцийг үзэх үзэл нь шийдвэрлэх үүрэг гүйцэтгэдэг.

3.3. Толь бичиг-тезаурусын ангиллын зарчим

Дээр дурдсанчлан тезаврын ангиллыг эмхэтгэх асуудал шинэ зүйл биш бөгөөд хэдэн арван жилийн турш олон тооны дотоод, гадаадын хэл судлаачдын анхаарлыг татсаар ирсэн (C. Marello, V.V. Morkovkin, L.P. Stupin, V.V. Dubichinsky гэх мэт). ). Энэ чиглэлээр хийсэн судалгааны үр дүн нь эдгээр толь бичгийн бүтээлүүдийн өөр ангиллыг бий болгосон явдал юм. Хамгийн сүүлийн үеийн ангиллын нэг нь дараах шалгуурт суурилдаг: а) үгсийн сангийн нэгжүүдийн хоорондын утгын холболтын төрөл; 2) үгсийн сангийн хэмжээ; 3) үгсийн санг нэгтгэх; 4) лексемийн утгыг хөгжүүлэх; 5) лексемийн дүрмийн болон стилист шинж чанар; 6) лексемийн үйл ажиллагааг харуулах; 7) илэрхийлсэн хэлний тоо; 8) лексемийн утгыг илэрхийлэхэд ашигладаг семиотик хэрэгслийн төрөл. Энэ ангиллыг өмнө нь үүсгэсэн О.М. Карпова, И.Бурханов (Бурчанов И. Үг зүйн утгын стилист болон прагматик хамааралтай талуудын үзэл суртлын тайлбарын тухай. Лондон, 1996); ангилалд ашигласан нэр томъёог үг зүйн аппаратад нэвтрүүлсэн


V.V. Морковкин, Ю.Н. Караулов, К.Марелло. Ангиллын шалгуурыг О.М. Карпова. Үүний зэрэгцээ К.Марелло 3 төрлийн тезауриг ялгадаг.

утгыг тодорхойлохгүйгээр үгсийн бүлэглэл болох хуримтлагдсан;

тодорхой, бүлэг үгсийн лексик нэгж бүрийг тайлбарлах;

аялагчдад зориулсан хоёр ба олон хэлний тезаури (Marello C. TheThesaurus//W.D.D. 1990. V. 2. P. 1083).

Хуримтлагдсан тезаурусууд нь тодорхой семантик талбарт байгаа нөхцөлд илүү ойлгомжтой, үнэн зөв, стилистийн хувьд зөв үгийг олох боломжийг олгодог төдийгүй компьютерийн сэдэвчилсэн мэдээллийн санг бүрдүүлэх үндэс суурь болдог.

Тодорхой тезаурид утгын тодорхойлолт, этимологийн мэдээлэл, утга зохиолын бүтээлээс иш татсан эшлэлүүд багтаж болох бөгөөд энэ төрлийн тезаурусын шууд нэвтэрхий толь бичгийн чиг баримжааг харуулдаг. Нэмж дурдахад энэ төрлийн толь бичгүүд нь хэрэглэгчдэд шаардлагатай ойлголтын системтэй танилцуулж, ойлголтын мөн чанар, ижил төстэй байдал, ялгаа, тэдгээрийн парадигматик ба синтагматик холболтыг тайлбарлаж, заримдаа үг хэллэг, үг хэллэг, дуудлага, хэл найруулга болон бусад боломжуудын талаар мэдээлэл өгдөг. эдгээр ойлголтыг илэрхийлдэг лексик нэгжүүд.

Аялагчдад зориулсан хоёр болон олон хэлтэй тезаури нь ихэвчлэн сэдэвчилсэн хэсгүүдийн дагуу бүтээгддэг: тоо, хоол, тээвэр, зочид буудал гэх мэт. хоёр ба түүнээс дээш хэлний орчуулгатай дүйцэхүйц орчуулгатай.

Одоо байгаа тезаурусын толь бичгүүдийн төрлийг аль болох бүрэн харуулахын тулд олон түвшний ангиллыг бий болгодог. Нэгдүгээрт, үгсийн сангийн нэгжүүдийн хоорондын семантик холболтын төрлөөс хамааран тезаури нь гурван том ангилалд хуваагдана.

1. Ассоциатив тезаурус (Ю.Н. Карауловын нэр томъёо

2. Аналог тезаурус (V.V. Morkovkin-ийн нэр томъёо

3. Үзэл суртлын (үзэл суртлын) үг хэллэг (Л.В.Щерба, В.В. Морковкин нарын нэр томьёо. Дээрх гурван төрлийн тезаури нь лексемийн дараах төрлийн утгын холболтыг тусгана.

1. Утга зүйн синтаксийн холбоо, үүнд үндэслэсэн
үгсийг бүлэг эсвэл хос болгон нэгтгэж, тэдгээрийн үүсэх, оршин тогтнох байдлаараа давхар холболтоор тодорхойлогддог: семантик ба синтакс. Үгсийн хоорондох утгын холбоо нь өгүүлбэрт урьдчилан таамаглах үүрэг гүйцэтгэдэг үйл үг, нэр үг, жишээлбэл:

а) үйлдэл ба түүнийг гүйцэтгэж буй эрхтэн (хэрэгсэл) хооронд: атгах - гар, харах - нүд, усанд сэлэх - завь гэх мэт;

б) нэг субьект ба субьектийг шаарддаг үйлдлийн үйл үгсийн хооронд: хуцах - нохой, neigh - морь гэх мэт; в) үйл үг ба тодорхой дүрмийн нэмэлтүүдийн хооронд, эхнийх нь шаарддаг: цавчих - мод, идэх - хоол гэх мэт.

Эндээс ассоциатив хэллэг гэдэг нь үгийн сангийн нэгжүүдийг хооронд нь байгаа утга, найруулга зүйн холбоонд тулгуурлан цэгцэлж, төв үгийн график хэлбэрт тохируулан бүлгүүдийг цэгцлэх толь бичиг юм.

2. Лексик-семантик холбоо. Энэ төрлийн холболтыг бүлэглэх нь үгсийн үндсэн шинж чанар болох лексик утгын дагуу явагддаг. Үүний зэрэгцээ үгсийн бие даасан утгыг хэрэгжүүлэх хэлбэрээр лексико-грамматик холболтыг харгалзан үздэг.

Тиймээс аналоги тезаурус нь лексикографийн лавлах ном бөгөөд макро бүтцийн гол нэгж нь лексик-семантик бүлэг юм; бүлгүүдийг семантик давамгайлсан цагаан толгойн дарааллаар системчилсэн болно.

3. Объект, үйл явцын үйл ажиллагааны ижил төстэй байдал эсвэл нийтлэг байдлаас шалтгаалан үгсийг нэг бүлэгт нэгтгэх сэдэв буюу сэдэвчилсэн холболтууд: объектууд
гэр ахуйн эд зүйлс, биеийн хэсгүүд, хувцасны төрөл, барилга байгууламж гэх мэт.

Иймээс үзэл суртлын тезаурус нь лексикийн нэгжүүдийг субьект (сэдэвчилсэн) бүлгүүдийн нэг хэсэг болгон төлөөлж, тэдгээрийг ертөнцийн талаарх ойлголттой мэдлэгийг төлөөлөх зорилготой шаталсан бүтэц болгон зохион байгуулдаг лексикографийн бүтээл юм.

Ижил шалгуурын хүрээнд бид төрлүүдийг цааш нь хуваадаг. Иймээс идеографийн тезаурусыг дараах 4 төрлөөр төлөөлдөг.


Үнэндээ үзэл суртлын тезаурус.

Сэдэвчилсэн толь бичиг.

Системчилсэн толь бичиг.

Сэдэвчилсэн-системийн толь бичиг


Идеографийн тезаурус нь идеографийн толь бичгийн тусгай төрөл бөгөөд макро бүтэц нь тухайн хэлний үгийн бүтцэд шингэсэн априори синоптик газрын зургийн дагуу зохион байгуулагдсан байдаг. Бусад төрлийн үзэл суртлын толь бичгээс ялгаатай нь үзэл суртлын үг хэллэг нь өөрөө ерөнхий үгсийн сан нь лексикографийн тайлбарт хамаарах байсан ч шинжлэх ухааны ангиллын үндсэн дээр бий болсон логик, хатуу эмх цэгцтэй ангиллын бүтцээр тодорхойлогддог (New Webster "Thesaurus. Landoll, 1991).

Сэдэвчилсэн толь бичиг нь макро бүтцийн үндсэн нэгж нь сэдэвчилсэн бүлэг, түүний дотор лексемүүд бөгөөд тэдгээрийн тэмдэглэгээний (ишлэл) ангиллын үндсэн дээр нэгтгэгдсэн, холбогдох ойлголтын үүднээс авч үздэг үзэл санааны үг хэллэгийн тусгай төрөл юм. тодорхой сэдэв.

Системчилсэн толь бичиг нь хэлний лексик нэгжүүдийн хоорондын бодит утгын харилцааг илэрхийлэхэд зориулагдсан, ангиллын бүтэцтэй ideographic тезаурусын тусгай төрөл юм. Ангилалын бүтэц нь үндсэндээ үгсийн сангийн лексик-дүрмийн ангилал, өөрөөр хэлбэл түүний захирагдах байдал, найрлагын үүднээс тодорхойлсон парадигматик бүтцийг илэрхийлдэг.

Сэдэвчилсэн-системчилсэн толь бичиг нь сэдэвчилсэн болон системчилсэн толь бичгийн нэгдэл бүхий үзэл суртлын толь бичгийн тусгай төрөл юм.

Үргэлжлэл. Хэл шинжлэлийн тезаврийн авч үзсэн ангилалд дараахь төрлийн толь бичгүүд орно: аналоги тезаурус (В.В. Морковкины нэр томъёо); үзэл суртлын (үзэл суртлын) тезаурус (L.V. Щерба, В.В. Морковкин нарын нэр томъёо); асс. тезаурус (Ю.Н. Карауловын нэр томъёо). Дараа нь поп үзүүлбэр үзүүлэх болно. Тезаури болон тэдгээрийн онцлогийг харуулсан.

3.4. Алдартай тезаури ба тэдгээрийн онцлог

Энэ нэр томъёо нь оршин тогтнох ёстой хамгийн алдартай толь бичиг-тезаурусыг англи хэлний материал дээр бүтээсэн; Энэ бол П.М.-ийн байнга дахин хэвлэгддэг тезаурус юм. Рожер Рожетын англи үг, хэллэгийн тезаурус (1852).

Англи үг, илэрхийллийн тезаурусын зохиогч тухайн үеийн туршлагыг бүрэн ашигласан гэдгийг тэмдэглэх нь зүйтэй. "Үг ангилахдаа намайг удирдаж байсан зарчим" гэж П.М. Рожер бол байгалийн түүхийн янз бүрийн салбарт хувь хүмүүсийг ангилахад ашигладаг ижил зүйл юм. Тиймээс миний онцолсон хэсгүүд нь ургамал судлал, амьтан судлалын байгалийн бүлгүүдтэй нийцэж байгаа бөгөөд үгсийн цуваа нь ургамал, амьтдын байгалийн цувралыг нэгтгэдэг ижил харилцаагаар бэхлэгддэг."

P.M. Рожер эдгээр үгс гэж нэрлэгддэг бодит байдлын объектуудыг зохих ёсоор судалж, цэгцлэх хүртэл үгсийг утгын дагуу үнэмшилтэй ангилах боломжгүй гэж үздэг. Тиймээс тэрээр англи хэлний үзэл баримтлалын талбарыг хийсвэр харилцаа, орон зай, матери, сүнс (оюун ухаан, хүсэл, мэдрэмж) гэсэн дөрвөн том ангилалд хувааснаар ажлаа эхэлдэг. Эдгээр ангиуд нь хэд хэдэн төрөлд хуваагддаг бөгөөд тэдгээр нь эргээд тодорхой тооны төрөл зүйлд хуваагддаг.

П.М.-ийн үзэл суртлын толь бичгийн дутагдалтай талуудын дунд. Эрдэмтэд Рожерийг дараахь зүйлийг холбон тайлбарлаж байна: 1) үндсэн ойлголтын ангиудын бүрэн итгэл үнэмшилгүй нэршил; 2) үгсийн байгалийн холболтоос хийсвэр логик давамгайлдаг; 3) ашиглалтын харьцангуй тохиромжгүй байдал (энэ дутагдал нь дараагийн хэвлэлүүдэд ихээхэн засварлагдсан).

Орчин үеийн Оросын толь бичигт толь бичиг-тезаурус (идеографийн толь бичиг) гэж ангилах ёстой хэд хэдэн толь бичиг байдаг. Үүнийг жишээ нь Ю.Н.-ийн удирдлаган дор бүтээжээ. Караулова “Орос хэлний семантик толь бичиг”, “Орос семантик толь бичиг” Н.Ю. Шведова, "Орос хэлний сэдэвчилсэн толь бичиг" Л.Г. Саяхова, Д.М. Хасанова, В.В. Морковкина, "Орос хэлний үйл үгийн лексик-семантик бүлгүүдийн толь бичиг", ред. Э.В. Кузнецова, "Орос хэлний үзэл суртлын толь бичиг" O.S. Баранова, "Орос хэл дээрх хүний ​​дотоод ертөнцийн тухай ойлголт" В.И. Убийко, В.В.-ийн удирдлаган дор "Орос хэлний лексик үндэс" боловсролын цогц толь бичиг. Морковкина.

Тэдний заримтай нь танилцацгаая.

Орчин үеийн орос хэлц үгсийн толь бичиг-тезаурус" -ын засварласан A.N. Баранова, Д.О. Добровольский дөрвөн үндсэн хэсгийг агуулдаг: 1) хураангуй; 2) домог; 3) толь бичиг-Тезаурусын үндсэн хэсэг; 4) заагч. Синопсисын зорилго нь Тезаурусын үндсэн хэсгийн бүтцийн талаар ерөнхий ойлголт өгөх явдал юм. Үүнд дэд такса болон харгалзах парадигматик лавлагаа бүхий бүх таксуудыг жагсаав. "Тезаурус толь бичгийн" үндсэн хэсэг нь толь бичгүүдийн түүвэр бөгөөд тэдгээрт дүрслэгдсэн хэлц үгсийн утгын дагуу бүлэг (такс) болон дэд бүлэг (дэд бүлгүүд) гэж ангилсан байдаг. Нийтлэл бүр нь хэлц үг, орчин үеийн орос хэл дээр ашиглах жишээг агуулдаг. Конспект, Домог, Индексүүд нь дээр дурдсан толь бичиг-тезаурусын үйлчилгээний хэсэг бөгөөд хэрэглэгчийг хурдан бөгөөд үр дүнтэй ажиллах боломжийг олгодог. Домог нь хэлц үгсийн хэрэглээний жишээ шаардлагагүй тохиолдолд хэрэглэгддэг, учир нь Энэ нь жишээнээс бусад бүх мэдээллийг хуулбарладаг. Үнэндээ энэ бол толь бичгийн үгийн сан юм. Үгсийн сангийн нэгжүүд нь лемма юм. Энэ тохиолдолд лемма нь хэлц үгийг анхны (толь бичгийн) хэлбэрээр илэрхийлдэг бөгөөд боломжтой бол түүний бүх чухал хувилбаруудыг агуулдаг. Жишээ нь: stand still гэсэн хэлц үг нь цаг хугацаа, зогсох, гулсах lemma тэмдгийн нэг хэсэг юм.

Уг толь бичигт хоёр заалт орсон. Номын төгсгөлд энэхүү төслийн шинжлэх ухааны онцлогийг нарийвчлан шинжилсэн "Орчин үеийн Оросын үзэл суртлын толь бичиг-Тезаурусын онолын үзэл баримтлал" гэсэн өгүүлэл байна.

Ю.Н.-ийн удирдлаган дор бүтээсэн "Оросын семантик толь бичиг". Караулова нь 1600 ойлголтын бүлэгт хуваагддаг 10 мянган орос үгсийг агуулдаг. Бүлгүүдийг сонгохдоо тайлбар толь бичигт үгийн тайлбарын элементүүдийг давтахад үндэслэдэг: жишээлбэл, "үйлдэл", "өмч", "хэрэгсэл" гэх мэт.

Академич Н.Ю.-гийн удирдлаган дор бүтээгдсэн “Орос хэлний семантик толь бичиг”. Шведова нь үзэл суртлын болон тайлбар толь бичгийг эмхэтгэх шинж чанартай арай өөр зарчим дээр суурилдаг. Нэгдүгээрт, хэлний бүх үгсийг дөрвөн ангилалд хуваадаг: 1) заагч нэгж (төлөөний үг), 2) нэрлэх (үндсэн үг), 3) бодит холбогч (холбогч, угтвар үг, үйл үг холбох), 4) ангилах (модаль үгс). , бөөмс, завсарлага). Хоёрдугаарт, анги бүрт бүх үгсийг ярианы хэсгүүдийн дагуу хуваарилдаг. Гуравдугаарт, ярианы хэсэг бүрт сэдэвчилсэн ойролцоо, эсвэл эсрэгээр үгийн утгыг эсэргүүцэх үндсэн дээр багц ба дэд бүлгүүдийг тодорхойлдог.

DUDEN бол зүүн талдаа зураг (зураг) бүхий ном юм (өөр өөр програм хангамжийн дагуу) дугаарласан хэсгүүдтэй (хамгийн жижиг хүртэл). Баруун талд энэ дугаарласан жагсаалтыг гарчиг (хоёр хэл дээр ч гэсэн) дагалддаг. Тухайлбал, төмөр замын техник, өртөө, зам зэргийг бүхэл бүтэн хуудсан дээр зурсан. Баруун талд сум, семафор, суга таяг гэх мэт нэрс байдаг.

"Орос хэлний сэдэвчилсэн толь бичиг" Л.Г. Саяхова, Д.М. Хасанова, В.В. Морковкина нь "Хүн", "Нийгэм", "Байгаль" гэсэн гурван том ангилалд хуваагдсан 25 мянган лексик нэгжийг агуулдаг бөгөөд эдгээр нь аажмаар жижиг дэд ангиудад хуваагддаг. Тухайлбал, “Хүн” ангид “Хүний бие ба организм”, “Хүний амьдрал”, “Хүний дүр төрх, дүр төрх”, “Хүний сэтгэл хөдлөлийн дүр төрх” гэх мэт дэд ангиуд байдаг. бүр илүү тодорхой болгон хуваадаг: " Хүний сэтгэл хөдлөлийн ертөнц" - "Хүний сэтгэцийн шинж чанар" - "Темперамент", "Зан чанар" - "Ерөнхий зан чанар" гэх мэт. Анги тус бүрт хамаарах үгсийн утга, хэрэглээг хамгийн түгээмэл хэллэгээр дүрсэлсэн болно. Жишээлбэл, "Эр" ангийн "мэдрэмж, сэтгэл хөдлөлийн илэрхийлэл" дэд бүлэгт багтдаг "инээх" гэдэг үг нь хөгжилтэй инээд, баяр баясгалантай инээд, хүүхдийн инээд, тэсрэлт зэрэг энэ үгтэй хослуулсан шинж тэмдэг дагалддаг. инээх гэх мэт.

Үргэлжлэл. Бие даасан сэдвүүдийг, ялангуяа цахим хэлбэрээр дүрслэх үр дүнтэй хэрэгслүүдийн нэг бол тезаури юм.

"Тезаурус" гэсэн нэр томъёо нь хэл шинжлэлд "дэлхийн дүр төрх", "дэлхийн хэл шинжлэлийн загвар" (Ю.Н. Карауловын хэлснээр) тодорхой хэмжээгээр толь бичгийн тусгай төрлийг тодорхойлоход өргөн хэрэглэгддэг. Тезаурус нь "эрдэнэсийн сан" болох утгын цар хүрээгээ тэлж, шинэ утгыг олж авав. Тэд үүнийг хэлний бүх үгийн баялгийг өөртөө шингээж аваад зогсохгүй тодорхой логик-системийн дагуу цэгцэлсэн толь бичиг гэж нэрлэх болсон. Тезаурусын толь бичигт үгсийг бүлэг болгон нэгтгэдэг бөгөөд энэ нь тухайн үгийн тодорхой ойлголтыг илэрхийлэх чадварын үндсэн дээр үүсдэг.

Тезаурусын толь бичиг нь хэл шинжлэлд дэлхийн талаарх хамтын (тодорхой нийгэмд) мэдлэгийг аман хэлбэрээр хадгалах боломжийг олгодог бүх нийтийн систем гэж үргэлж үздэг. Бусад толь бичгүүдээс ялгаатай нь энэ мэдлэг нь "дэлхийн бүтэц"-ийн талаарх бидний санааг тусгасан бүтэцлэгдсэн хэлбэрээр хадгалагддаг.

Одоогийн байдлаар хамгийн алдартай, алдартай тезаури бол Английн Рожерийн Тезаурус, Орос хэлний үзэл суртлын толь бичиг юм. Баранова, Оросын семантик толь бичиг Ю.Н. Караулова, академич Н.Ю.-ийн орос хэлний семантик толь бичиг. Шведова, DUDEN, Орос хэлний сэдэвчилсэн толь бичиг L.G. Саяхова, Д.М. Хасанова, В.В. Морковкина.

Н.В.Лукашевич

[имэйлээр хамгаалагдсан]

B.V. Добров

Москвагийн Улсын Их Сургуулийн Судалгааны тооцооллын төв. М.В.Ломоносов;

ANO мэдээллийн судалгааны төв

[имэйлээр хамгаалагдсан]

Түлхүүр үгс:тезаурус, мэдээлэл хайх, автомат текст боловсруулах,

Том хэмжээний текстийн цуглуулгатай ажилладаг технологийн дийлэнх нь статистик болон магадлалын аргууд дээр суурилдаг. Энэ нь хэл шинжлэлийн аргыг ашиглан текстийн цуглуулгыг боловсруулахад ашиглаж болох лексик нөөцүүд нь хэдэн арван мянган толь бичгийн оруулгатай байх ёстой бөгөөд нөөцийг боловсруулахдаа тусгайлан хянах шаардлагатай хэд хэдэн чухал шинж чанартай байх ёстой. Илтгэлд бид 1997 онд бүтээсэн RuTez компьютерийн текст боловсруулах орос хэлний тезаурусын жишээг ашиглан том хэмжээний текстийн цуглуулгыг автоматаар боловсруулах лексик нөөцийг боловсруулах үндсэн зарчмуудыг судалж үзсэн бөгөөд энэ нь одоогоор 42 мянга гаруй ойлголтыг шаталсан сүлжээ юм. . Бид 400 мянган баримт бичиг - ОХУ-ын их сургуулийн мэдээллийн систем (www.cir.ru) -ийн лексик найрлага, текстийн корпусын харьцуулалт дээр үндэслэн тезаурусын өнөөгийн байдлыг тайлбарлав. Төрөл бүрийн автомат үг боловсруулах программ дахь тезаурусын хэрэглээний жишээг авч үзнэ.

  1. Танилцуулга

Одоогийн байдлаар олон сая баримт бичгийг цахим хэлбэрээр ашиглах боломжтой болж, олон мянган мэдээллийн систем, цахим номын сангууд бий болсон. Үүний зэрэгцээ хайлт хийхэд лексик болон нэр томьёоны нөөцийг ашигладаг мэдээллийн системийг хувийн фракцаар тооцдог. Энэ нь орчин үеийн цахим баримт бичгийн цуглуулгыг автоматаар боловсруулах хэл шинжлэлийн ийм нөөцийг бий болгоход ноцтой сорилтуудтай холбоотой юм.

Нэгдүгээрт, эдгээр цуглуулгууд нь ихэвчлэн маш том байдаг бөгөөд энэ нь олон мянган үг, нэр томъёоны тайлбарыг агуулсан байх ёстой. Хоёрдугаарт, цуглуулга гэдэг нь янз бүрийн синтаксийн бүтэцтэй өөр өөр бүтэцтэй баримт бичгийн багц бөгөөд энэ нь текст өгүүлбэрийг автоматаар боловсруулахад хүндрэл учруулдаг. Нэмж дурдахад чухал мэдээлэл нь ихэвчлэн текстийн өөр өөр өгүүлбэрүүдийн хооронд хуваарилагддаг.

Энэ бүхэн нь нэг талаас цахим цуглуулгад автоматаар боловсруулалт хийх, хайхад хэрэг болох, нөгөө талаас ойрын хугацаанд бүтээгдэж, харьцангуй бага зарцуулалттай хадгалагдах хэл шинжлэлийн нөөц гэж юу байх ёстой вэ гэсэн асуултыг хурцаар тавьж байна. хүчин чармайлт.

Энэ нийтлэлд бид том хэмжээний текстийн цуглуулгыг автоматаар боловсруулах лексик нөөцийг боловсруулах үндсэн зарчмуудыг авч үзэх болно. Эдгээр зарчмуудыг ANO Мэдээллийн судалгааны төвөөс 1997 оноос хойш RuTez-ийн компьютерийн текст боловсруулалтад зориулан бүтээсэн орос хэлний тезаурусын жишээн дээр авч үзэх болно. RuTez нь одоогийн байдлаар 42 мянга гаруй ойлголтоос бүрдсэн шаталсан сүлжээ бөгөөд үүнд 95 мянга гаруй орос үг, хэллэг, нэр томъёо багтдаг. Бид Москвагийн Улсын Их Сургуулийн Судалгааны Тооцооллын Төвөөс дэмжигдсэн ОХУ-ын Их Сургуулийн Мэдээллийн Системийн текстийн корпусын үгсийн сан, үгийн сангийн харьцуулалт дээр үндэслэн тезаурусын өнөөгийн байдлыг тайлбарлах болно. М.В.Ломоносов ба ANO TSII. UIS RUSSIA (www.cir.ru) нь нийгэм-улс төрийн сэдвээр 400 мянган баримт бичгийг (ойролцоогоор 3 ГБ текст, 200 сая үг) агуулдаг. Энэхүү нийтлэлд мөн янз бүрийн автомат үг боловсруулах програмуудад тезаурус ашиглах жишээг авч үзэх болно.

  1. Хэл шинжлэлийн нөөцийг хөгжүүлэх зарчим

мэдээлэл хайх ажилд зориулагдсан

Цахим баримт бичгийг үр дүнтэй автоматаар боловсруулах (автоматаар индексжүүлэх, ангилах, баримт бичгийг харьцуулах) хангахын тулд тэдгээрийг харьцуулах үндэслэлийг бий болгох шаардлагатай - баримт бичигт дурдсан зүйлсийн жагсаалт. Ийм индекс нь үгийн индексээс илүү үр дүнтэй байхын тулд текстийн лексик олон янз байдлыг даван туулах шаардлагатай: синоним, полисеми, ярианы хэсэг, стилистик, үүнийг өөрчлөн хувиргах үзэл баримтлал болгон бууруулах шаардлагатай. өөр өөр текстийг харьцуулах үндэс. Тиймээс хэл шинжлэлийн нөөцийн үндэс нь ойлголт байх ёстой бөгөөд хэл шинжлэлийн илэрхийлэл: үг, нэр томьёо нь зөвхөн харгалзах ухагдахууныг эхлүүлдэг текстийн оролт болно.

Өөр өөр боловч ижил төстэй ойлголтуудыг харьцуулах чадвартай байхын тулд тэдгээрийн хооронд харилцаа холбоо тогтоох ёстой. Уламжлал ёсоор, байгалийн хэл дээрх текстийг автоматаар боловсруулахад хэлний нөөц нь тодорхой утгын харилцааны багцыг ашигладаг. хэсэг, эх сурвалж, шалтгаангэх мэт. Гэсэн хэдий ч том, нэг төрлийн бус текстийн цуглуулгатай ажиллахдаа текст боловсруулах технологийн өнөөгийн байдалд компьютерийн систем нь бидний холбоотой байсан процедурыг гүйцэтгэхийн тулд текст дэх эдгээр харилцааг найдвартай илрүүлэх боломжгүй гэдгийг бид ойлгох ёстой. эдгээр болон бусад харилцаа. Тиймээс үзэл баримтлал хоорондын харилцаа нь юуны өмнө тухайн ойлголтыг дурдсан текстийн сэдвээс үл хамаарах эсвэл сул хамааралтай тодорхой өөрчлөн бус шинж чанарыг тодорхойлох ёстой.

Энэ харилцааны гол үүрэг нь дараахь асуултанд хариулах явдал юм.

Хэрэв текст нь С1-ийг хэлэлцэхэд зориулагдсан бөгөөд С2 нь холбоотой гэдгийг мэддэг бол

хандлагаРС1-тэй бол бид текстийн сэдэв гэж хэлж болох уу(*)

C2-тэй холбоотой юу?

Автомат боловсруулалтын хэл шинжлэлийн нөөцийг бий болгохдоо C1 ба C2 ойлголтуудын аль шинж чанар нь тэдгээрийн хооронд зөв (*) харилцаа тогтоох боломжийг бидэнд олгодог болохыг тодорхойлох нь чухал юм.

Тиймээс, жишээ нь, ямар ч бичвэр бичсэн байсан хамаагүй хус,Эдгээр дууны үг юуны тухай болохыг бид үргэлж хэлж чадна мод.Гэсэн хэдий ч алдартай, харилцааны талаар байнга ярилцдаг модхэсэг болгон ой мод, модны тухай маш цөөхөн бичвэрүүд ойн тухай бичвэрүүд байдаг. Асуудал нь харилцааны нэртэй холбоогүй гэдгийг анхаарна уу. Тэгэхээр цэвэрлэгээ нь ойн нэг хэсэг юм, мөн цэвэрлэгээний тухай бичвэрүүд нь ойн тухай бичвэрүүд юм.

Сэдвийн талбар дахь текстийн боломжит сэдвүүдийн спектртэй харьцуулахад харилцааны өөрчлөгдөөгүй байдал нь харилцааны нэрээр тусгагдсанаас илүү гүнзгий шинж чанар, тухайлбал түүний тоон үзүүлэлт ба экзистенциал шинж чанаруудаар тодорхойлогддог. Тиймээс харилцааны тоон үзүүлэлтүүд нь тухайн ойлголтын бүх жишээнүүд өгөгдсөн хамааралтай эсэх, энэ хамаарал нь жишээний бүх амьдралын мөчлөгийн туршид хэвээр байгаа эсэхийг тодорхойлдог. Харилцаа ашиглахтай холбоотой асуудал модойЭнэ нь тодорхой мод бүр ойд байдаггүйтэй холбоотой боловч ойгоос гадуур цэвэрлэгээ хийх боломжгүй байдаг.

Харилцааны оршихуйн шинж чанаруудын тайлбарын жишээ - энэ нь C1 үзэл баримтлалаас C2 үзэл баримтлал оршин тогтнож байгааг илтгэж байна уу (жишээлбэл, үзэл баримтлалын оршин тогтнол). ГАРАЖүзэл баримтлал байхыг шаарддаг МАШИН) эсвэл C1 жишээнүүд байгаа эсэх нь C2 жишээнүүд байгаа эсэхээс хамаарна (маш тодорхой ҮЕРтодорхой жишээнээс салшгүй ГОЛУУД). С2 хамааралтай концепцийн текст дэх хэлэлцүүлэг, ялангуяа жишээнээс хамааралтай нь текст нь С1 үндсэн ойлголттой холбоотой болохыг харуулж байна.

Үзэл баримтлал хоорондын хамаарлыг авч үзье ОЙ, МОДилүү дэлгэрэнгүй. Үнэн хэрэгтээ үзэл баримтлалын нэг хэсэг ОЙбайна ОЙ ДАХЬ МОД, байгаа үед ЧӨЛӨӨТЭЙ МОД,ЦЭЦЭРЛЭГИЙН МОДгэх мэт ямар ч тохиолдолд үзэл баримтлалд захирагдах харилцааг таслах хэрэгтэй МОДүзэл баримтлал ОЙ.

Нөгөө талаас, ОЙтөрөл зүйл юм МОДНЫ ЦУГЛУУЛГА, модгүйгээр байхгүй (түүнчлэн ЦЭЦЭРЛЭГ). Тиймээс үзэл баримтлал ОЙүзэл баримтлалтай холбоотой байх ёстой МОД. Хэрэглээний тодорхой асуудлуудын хэрэгцээнд дүн шинжилгээ хийж эхэлснээр бид өмнө нь хэл шинжлэлийн нөөцөд маш бага тусгагдсан боловч автомат боловсруулалтын ажилд нэн чухал ач холбогдолтой харилцааны гүн шинж чанарыг тайлбарлах нь чухал гэсэн дүгнэлтэд хүрсэн. том текстийн цуглуулга, магадгүй бусад олон ажлуудад зориулагдсан.

Одоо бид ойлголтын тоон болон экзистенциал шинж чанаруудын тайлбарыг ДЭЭД-ДОО (бүх харилцааны 66%), ХЭСЭГ-БҮХЭЛ (харилцааны 30%), ХОЛБОО (4%) зэрэг уламжлалт тезаурусын харилцааны багцаар загварчилж байна. нэмэлт хувиргагчийн тодорхой багц (харилцааны 20% -ийг тэмдэглэсэн). ХЭСЭГ-БҮХЭН болон ХОЛБООНЫ харилцааг (*) дүрмийг харгалзан тайлбарлаж байгааг анхаарна уу. Нийтдээ 160 мянга орчим ойлголт хоорондын шууд холболтыг дүрсэлсэн бөгөөд энэ нь харилцааны шилжилтийг харгалзан үзэхэд 1350 мянга гаруй холболтын нийт тоог өгдөг, өөрөөр хэлбэл ойлголт бүр дунджаар 30 өөр холболттой байдаг. .

  1. RuTez Thesaurus: ерөнхий бүтэц

RuTez тезаурус нь бие даасан үг, текстийн илэрхийлэл эсвэл ижил утгатай цувралын утгад тохирсон ойлголтуудын шаталсан сүлжээ юм. Иймд үг хэллэгийн үндсэн элементүүд нь ухагдахуун, хэл шинжлэлийн илэрхийлэл, хэл шинжлэлийн илэрхийлэл ба ухагдахуун хоорондын харилцаа, ойлголт хоорондын харилцаа юм.

Тезаурус нь хэл шинжлэлийн мэдлэгийг нэг системд нэгтгэдэг - лексем, хэлц үг, тэдгээрийн холболтын тайлбар, лексик, семантик мэдлэгтэй уламжлалт байдлаар холбоотой, мөн нэр томьёо судлаачдын үйл ажиллагааны талбарт уламжлалт байдлаар холбоотой сэдвийн хүрээнд хамаарах нэр томьёо, харилцааны талаархи мэдлэг. мэдээлэл олж авах тезаури . Сэдвийн дэд салбаруудын хувьд тезаурус нь хүний ​​өдөр тутмын амьдралд маш чухал ач холбогдолтой эдийн засаг, хууль тогтоомж, санхүү, олон улсын харилцаа зэрэг сэдвүүдийг тайлбарладаг бөгөөд тэдгээр нь уламжлалт тайлбар толь бичгүүдэд лексик хэлбэрээр чухал ач холбогдолтой байдаг. Тэдгээрийн дотор лексик ба нэр томьёо нь хоорондоо нягт холбоотой бөгөөд бие биетэйгээ хүчтэй харьцдаг.

Хэл шинжлэлийн илэрхийлэл нь бие даасан лексем (нэр, нэр, үйл үг), нэрлэсэн болон үгийн бүлгүүд юм. Иймээс уг тезаурус нь одоогийн байдлаар нэмэлт үг, үйл ажиллагааны үгсийг хэл шинжлэлийн илэрхийлэл болгон оруулаагүй болно. Олон үгийн бүлгүүдэд нэр томьёо, хэлц үг, үг хэллэгийн функц ( нөлөө e).

Хэл шинжлэлийн илэрхийлэл бүрийн хувьд дараахь зүйлийг тайлбарлав.

Түүний полисеми нь нэг буюу хэд хэдэн ойлголттой холбоотой байдаг бөгөөд энэ нь тухайн хэл шинжлэлийн илэрхийлэл нь энэ ойлголтын текстэн илэрхийлэл болж чадна гэсэн үг юм. Хэл шинжлэлийн илэрхийлэлийг өөр өөр ойлголтуудад хамааруулах нь мөн түүний полисемийн далд шинж тэмдэг юм;

Түүний морфологийн найрлага (ярианы хэсэг, тоо, тохиолдол);

Бичих онцлог (жишээлбэл, том үсгээр) гэх мэт.

Тезаурусын ойлголт бүр өвөрмөц нэртэй, энэ ойлголтыг текстэд илэрхийлж болох хэл шинжлэлийн хэллэгүүдийн жагсаалт, бусад ойлголттой харилцах харилцааны жагсаалттай байдаг.

Түүний хоёрдмол утгагүй текстийн нэг илэрхийлэл нь ихэвчлэн үзэл баримтлалын өвөрмөц нэрээр сонгогддог. Гэхдээ үзэл баримтлалын нэрийг түүний хоёрдмол утгатай текстийн хос илэрхийлэл - синонимууд, таслалаар тусгаарлаж, хоёрдмол утгагүйгээр тодорхойлж болно (жишээлбэл, ойлголт. ЗУЗААН). Үзэл баримтлалын нэрний хоёрдмол утгатай текстийн илэрхийлэлийг тэмдэглэгээ эсвэл тайлбарын товчилсон хэсэг, жишээлбэл, үзэл баримтлалаар өгч болно. ОЛОН (ХҮМҮҮСИЙН БҮЛЭГ).

  1. Жишээ толь бичгийн оруулга

Бид жишээ болгон уг ойлголтын толь бичгийн оруулгыг сонгосон ОЙ, үгийн аль нэгэнд тохирсон утгатай ой. Энэхүү толь бичгийн бичилт нь уламжлалт байдлаар лексик (семантик) мэдлэг, нэвтэрхий толь бичгийн мэдлэг (сэдвийн хүрээний тухай мэдлэг, нэр томъёо) гэж ангилдаг өөр өөр төрлийн мэдлэгийг багтаасан тул сонирхолтой юм.

Үзэл баримтлалын синонимууд ОЙ(нийт 13):

ой (М), ойн бүс, ойн орчин,

ой, ойн хороолол, ойн ландшафт,

ойн талбай, ой мод, ойн талбай,

ойн нөөцийн бүс, жижиг ой,

ой модны массив.

Синоним бүхий доорх ойлголтууд:

ЖУНГЛ(ширэнгэн ой);

ОЙН ПАРК(хотын цэцэрлэгт хүрээлэн, ногоон байгууламж,

ногоон байгууламж, ойн цэцэрлэгт хүрээлэн,

ойн менежмент, ойн цэцэрлэгт хүрээлэн

бүс, цэцэрлэгт хүрээлэн(М), цэцэрлэгт хүрээлэнгийн талбай);

ОЙ АЖ АХУЙ;

НАВЦСАН ОЙ(зөөлөн навчит ой, хатуу навчит

ой);

ГРУВ(царс төгөл);

шилмүүст ой (шилмүүст ой, харанхуй шилмүүст ой)

Үзэл баримтлал - ижил утгатай хэсгүүд:

WINDBREAK(салхи, гэнэтийн);

ЗУРАХ(зүсэх талбай);

ОЙН СОЁЛ(ойн төрөл зүйл, ойн аж ахуй

соёл);

ОЙН ГАЗАР (ойн сан бүхий газар; бүрхсэн газар

ой; ойн сан бүхий газар, ойн сан бүхий газар;

ой модтой газар, ой модтой

талбай);

ОЙН ТАРЬАЛТ(ой мод, ойн тариалалт,

ойжуулалт);

ОЙН ЗАМ(ирмэг, ирмэг);

ДООР ЦЭЦЭГ(Доор ургамлууд);

ПРОСЕКА;

ХУУРАЙ МОД(үхсэн мод).

Энд тэмдэглэгээ (M) нь текст оруулах тодорхой бус байдлын талаархи тэмдэглэлийг тусгасан болно.

Үзэл баримтлал ОЙЭнэ нь мөн хамааралтай хамаарал гэж нэрлэгддэг бусад харилцаатай байдаг (орчин үеийн хувилбарт тэдгээрийг ASC 2 - тэгш бус холбоо гэж нэрлэдэг): ОЙН ТҮЙМЭР(ойн түймэр, ойн түймэр; ОЙН АШИГЛАЛТ (ойн ашиглалт, ойн сангийн талбайн ашиглалт); ОЙ АЖ АХУЙ; ОЙН ШИНЖЛЭХ УХААН (ойн шинжлэх ухаан). 2-р зүйлд дурьдсанчлан ОЙ гэсэн ойлголт нь МОД гэсэн ойлголтоос хамаардаг бөгөөд үүнийг тезаурусын ASC 1 харьцаагаар тэмдэглэсэн байдаг.

Нийт ойлголт ОЙхарилцааны шилжилтийг харгалзан бусад 28 ойлголттой шууд холбогддог - 235 ойлголттой (нийтдээ 650 гаруй текст оруулга).

  1. Одоогийн байдлын үнэлгээ

Орос хэлний тезаурус RuTez

5.1. Лексик найрлага

Одоогийн байдлаар тезаурусын сүлжээнд 95 мянга гаруй хэл шинжлэлийн хэллэг багтсан бөгөөд үүний 61 мянга нь нэг үгтэй байна.

Энэхүү бүтээл нь биднийг Тезаурусын тайлбарт ямар үг, хэл шинжлэлийн хэллэгийг оруулах шаардлагатайг шийдэхэд хүргэсэн. Байгалийн хүсэл нь орос хэл дээрх хамгийн түгээмэл үгсийг тезаурус дээр хэрхэн төлөөлдөгийг харах явдал байв. Энэ зорилгоор ОХУ-ын их сургуулийн мэдээллийн системийн текстийн цуглуулга (400 мянган баримт бичиг) ашигласан. Энэхүү цуглуулгад ОХУ-ын янз бүрийн байгууллагуудын албан ёсны баримт бичиг (1992 оноос хойш 55 мянган баримт бичиг), мөн 1999 оноос хойшхи хэвлэлийн материал (Известия, Независимая газета, Комсомольская правда, Аргументы и факты, Эксперт сэтгүүл болон бусад сонинууд), шинжлэх ухааны материалууд багтсан болно. сэтгүүл ("Москвагийн их сургуулийн мэдээллийн товхимол", "Социологийн сэтгүүл"). Тезаурус дахь леммын жагсаалт ба текстийн цуглуулгад хамгийн их тохиолддог 100,000 леммын жагсаалт (давтамж 25-аас дээш) хооронд харьцуулалтыг хийсэн.

Жагсаалтын полексемийн тэмдэглэгээ нь эдгээр зуун мянган леммагийн 35 мянга нь РуТез-д дүрслэгдсэн, зөвхөн 7 мянга орчим лексемийг тезауруст оруулах ёстой, үлдсэн нь янз бүрийн зөв нэрсийн лемматик хувилбарууд болохыг харуулж байна. Тиймээс нөхөн сэргээх нь нэн тэргүүний зорилт байхаа больж, хамгийн түгээмэл үгсээс эхлээд аажмаар хийгддэг. Энэ жагсаалт бараг дуусмагц мэдээллийн системийн текстийн массивтай дахин харьцуулалт хийж, 25-аас дээш давтамжтай шинэ лексемүүдийг сонгох болно гэж үзэж байна . Текстийн цуглуулгад олон тооны текстийн жишээнүүд байгаа нь "тайлбар зүйн шинэлэг зүйл" -д хурдан хариу өгөх боломжийг олгодог (жишээлбэл, суурилуулалт,блокбастер, Beau Monde, триллер) ба тэдгээрийг Тезаурусын шатлалын системийн зохих газруудад оруулна.

Одоогийн текстийн цуглуулгатай тогтмол ажиллах нь толь бичигт санал болгож буй лексик тайлбарын ач холбогдол, чанарыг шалгах онцгой боломжийг олгодог. Жишээлбэл, энэ үгийг ашиглах ер бусын өндөр давтамж Ээж үзнэ үү(400 гаруй удаа). Массивыг шалгаж үзэхэд энэ үгийг ихэвчлэн тухайн үгийн синоним болгон ашигладаг болохыг харуулсан Москва, харин тайлбар толь бичгүүдэд энэ үгийг ихэвчлэн хуучирсан гэж тэмдэглэдэг. Толь бичгүүдэд хуучирсан гэж тэмдэглэсэн байнга хэрэглэгддэг үгийг (300 гаруй удаа) харуулсан өөр нэг жишээ бол үг юм. аз жаргалтай.

5.2 Үгийн утгын тайлбар

Текстийн цуглуулгатай харьцуулах нь массив дахь олон давтамжтай үгсийг дор хаяж нэг (ихэвчлэн үндсэн) утгаараа Thesaurus-д сайн төлөөлдөг болохыг харуулж байна. Тезаурус нь орос хэл дээрх полисмантик үгсийн утгын хүрээг хэр зэрэг илэрхийлж байгааг олж мэдэх нь өнөөгийн бидний үндсэн ажил юм.

Мэдэгдэж байгаагаар, янз бүрийн толь бичгийн эх сурвалжууд нь олон утгатай үгсийн өөр өөр утгыг өгдөг, утгын сүүдэрийг тодруулж, ижил төрлийн полисемийг нэг толь бичигт өөр өөр үгсийн хувьд өөр өөрөөр тайлбарлаж болно. Иймээс лексемийн утгыг тууштай, төлөөлүүлэн тайлбарлах нь аливаа үгийн сангийн эх сурвалжийг бүтээгчдийн хувьд чухал ажил юм.

Гэсэн хэдий ч хэрэв нөөцийг автоматаар боловсруулахад зориулагдсан бол үнэт зүйлсийг тэнцвэртэй тайлбарлах ажил илүү чухал болно. Хэт их үнийн хөөрөгдөл нь компьютерийн систем хүссэн утгыг сонгох чадваргүй болоход хүргэдэг бөгөөд энэ нь автомат текст боловсруулах системийн гүйцэтгэлийг мэдэгдэхүйц бууруулахад хүргэдэг. Тиймээс WordNet-ийн эх сурвалжийн нэг сул тал бол автоматаар үг боловсруулах эх сурвалж болох зарим үгийн утгын хэт их тоо юм (WordNet 1.6-д: 53 утгатай). гүйх, 47 хувьд тоглохгэх мэт). Эдгээр утгыг текстийг утгын тайлбар хийх үед хүмүүст хүртэл ялгахад хэцүү байдаг. Компьютерийн систем нь тохирох утгыг сонгох боломжгүй гэдэг нь тодорхой байна. Тиймээс янз бүрийн зохиогчид боловсруулалтын чанарыг сайжруулахын тулд үнэт зүйлсийг нэгтгэх янз бүрийн аргыг санал болгодог.

Үүний зэрэгцээ эсрэг хүчин зүйл үйлчилдэг: хэрэв утгууд нь толь бичгийн холболтын багцаараа үнэхээр ялгаатай бол (манай тохиолдолд тезаурусын холболт) - тэдгээрийг нэг нэгжид (нэг ойлголт) нааж болохгүй - энэ нь мөн чанар муудахад хүргэнэ. автомат боловсруулалтын чанар.

Үгсийн жишээг авч үзье сургуульТэгээд сүм, тус бүрийг байгууллага, барилга байгууламж гэж үзэж болно.

Сургуулийн байгууллага бүр барилга байгууламжтай байдаг (ихэнхдээ нэг). Сургуулийн барилгын бүх хэсгүүд (анги танхим, самбар) холбоотой сургуульбайгууллагад яаж. Сургуулийн барилгуудын тодорхой төрлүүд байдаггүй. Тиймээс тайлбар сургуулиудБарилга байгууламжийн хувьд тэдгээрийг тусдаа ойлголт болгон салгах нь зохисгүй юм. Гэсэн хэдий ч ийм хамтын үзэл баримтлалын тодорхойлолт СУРГУУЛЬбайгууллага болон барилга байгууламжийн хувьд үзэл баримтлалтай тусгайлан боловсруулсан харилцаатай байх ёстой БАРИЛГА. Тезаурус дахь ийм харилцааг тайлбарлахдаа харилцааны тэмдэглэгээг ашигладаг - "А" өөрчлөгч ("аспект"; автомат дүн шинжилгээ хийх үед энэ харилцааг харгалзан үзэхийн тулд бусад ойлголтоор "баталгаажуулах" шаардлагатай).

СУРГУУЛЬ

ДЭЭД БОЛОВСРОЛЫН БАЙГУУЛЛАГА

ДЭЭД А НИЙТИЙН БАЙГУУЛЛАГА

Үгийн холбогдох утга сүмтийм ч ойрхон биш. Сүм хийдүүдБайгууллагын хувьд өөр өөр газар олон тооны сүм хийдтэй байж болох ба бусад олон барилга байгууламжтай. Сүмийн барилгашашин шүтлэг, шашин шүтлэгтэй нягт холбоотой боловч харьяаллыг өөрчлөх боломжтой сүмийн байгууллагууд. Сүмийн байгууллагаТэгээд сүмийн барилгаөөр өөр дэд зүйлтэй. Тийм ч учраас СҮМ (Байгууллага) Мөн СҮМ (БАРИЛГА) RuTez-д өөр өөр ухагдахуун болгон танилцуулсан.

Тезаурусын холболтын мэдэгдэхүйц ялгаа нь утгад тохирсон тэмдэглэгээг бие биенээсээ тусад нь байх чадвартай холбоотой сонирхолтой холбоотой юм. Тиймээс сүмийн барилга нь сургуулийн барилгаас ялгаатай нь ашиглалт нь өөрчлөгдсөн ч гэсэн оршин тогтнохоо больдоггүй бөгөөд бүр сүм гэж нэрлэгддэг.

Тезаурус дахь үнэт зүйлсийн төлөөллийг баталгаажуулах үйл явц нь хамгийн түгээмэл леммуудаас эхлээд байнга явагддаг. Давтамжийн лексем бүрийн хувьд түүний утгыг тайлбар толь бичигт хэрхэн дүрсэлсэн, цуглуулгад ямар утгыг ашигласан, Тезаурус дээр хэрхэн илэрхийлэгдсэнийг шалгадаг. Үүний үр дүнд одоо 10,000 лексемийн жагсаалт үүссэн бөгөөд тэдгээрийн хоёрдмол байдал нь нэмэлт дүн шинжилгээ эсвэл нэмэлт тайлбарыг шаарддаг. Жагсаалтыг хамгийн их тохиолддог 30 мянган лемма дээр үндэслэн гаргажээ.

Тезаурусын үгийн өөр өөр утгын хооронд тезаурусын холболтыг дүрсэлж болох тул шатлалын хамгийн дээд ойлголтыг анхдагчаар сонгож болох тул полисемийн асуудлыг хэсэгчлэн арилгасан гэдгийг тэмдэглэх нь зүйтэй. Текст дээр энэ талаар ярилцсан нь гарцаагүй. Жишээлбэл, үг гэрэл зурагГэрэл зураг нь үйл ажиллагааны талбар, гэрэл зураг нь гэрэл зургийн дүрс, гэрэл зураг нь гэрэл зургийн студи гэсэн гурван утгатай.

ГЭРЭЛ ЗУРГИЙГ(гэрэл зураг авах, гэрэл зургийн бизнес, ..., гэрэл зураг )

ХЭСЭГ ГЭРЭЛ ЗУРГИЙН ЗУРАГ

(гэрэл зураг, гэрэл зураг, гэрэл зураг )

ХЭСЭГ ГЭРЭЛ ЗУРГИЙН СТУДО (гэрэл зураг ).

Тиймээс, хэрэв энэ үг ямар утгатай болохыг олж мэдэх боломжгүй байсан гэрэл зураг, өгөгдмөл нь зураг (үйл явц, үр дүн эсвэл байршлын) авсан гэж үзэх бөгөөд энэ нь олон автомат текст боловсруулах програмуудад хангалттай.

  1. RuTez тезаурусын хэрэглээ

автомат текст боловсруулахад зориулагдсан

1995 оноос хойш нийгэм-улс төрийн нэр томьёо RuTez (нийгэм-улс төрийн тезаурус) нь автомат концепцийн индексжүүлэлт, хэд хэдэн rubricator ашиглан автомат rubrication, текстийн автомат тайлбар, түүний дотор англи хэл зэрэг автомат текст боловсруулах янз бүрийн хэрэглээнд идэвхтэй бөгөөд амжилттай ашиглагдаж байна. нэг. Нийгэм-улс төрийн тезаурус (27 мянган ойлголт, 62 мянган текст оруулга) нь UIS RUSSIA хайлтын системийн (www.cir.ru) үндсэн хайлтын хэрэгсэл юм.

RuTez тезаурусын бүх үгсийн санг нарийн төвөгтэй шаталсан rubricators ашиглан текстийг автоматаар ангилах журамд ашигладаг. Одоо байгаа технологид категори бүрийг нэр томьёоны Булийн илэрхийлэл гэж тодорхойлсон бөгөөд үүний дараа анхны томъёог тезаурусын шатлалын дагуу өргөжүүлдэг. Үүссэн Булийн илэрхийлэл нь аль хэдийн хэдэн зуу, мянгаараа холбогч, салангид үгсийг агуулж болно.

VTsIOM-аас олон нийтийн санал асуулгын хуудсыг ангилахад ашигладаг SOFIST 2 rubricator-ийн "Эмэгтэй хүний ​​дүр төрх" бүлгийн тезаурусын ойлголтыг (болон томьёог өргөжүүлсний дараа хэл шинжлэлийн хэллэг) ашиглан тайлбарын хэсгийг жишээ болгон өгье.

(ЭМЭГТЭЙ[N]

|| ОХИН[N]

|| ХАМААН [L] (эмээ, ач охин, үеэл,

охин, бэр эгч, ээж, хойд эх, бэр, дагавар охин, ...))

(ЗҮРХИЙН ШИНЖ[L] (арвич хямгач, сэтгэлгүй, мартамхай,

хөнгөмсөг, шоолонгуй, үл тэвчих, нийтэч, ...)

|| ЗУРАГ [E] (танилцуулга, дүр төрх, дүр төрх,

гадаад төрх, дүр төрх, дүр төрх, дүр төрх)

|| ТААЛАГТАЙ [L] (..., сонирхолтой, үзэсгэлэнтэй, хөөрхөн,

дур булаам, хөөрхөн, сэтгэл татам, ...)

|| ТААЛАМГҮЙ[L] (өрөвч сэтгэлгүй, бүдүүлэг, муухай, ...)

|| БАЯРЛАХ[L] (хүндэтгэх, бишрэх, бишрэх,

шүтэх, бишрэх, ...)

|| ДАГУУЛАХ[N]

"E" тэмдэг нь тезаурусын шатлалын дагуу бүрэн тэлэлтийг илэрхийлдэг бол "L" тэмдэг нь зүйлийн харилцааны дагуу ("ДОР"), "N" тэмдэг нь тэлэхгүй.

Тезаурусын мэдлэг, машин сургалтын процедурыг хослуулсан текстийг автоматаар ангилах хосолсон технологийг хөгжүүлэх судалгаа хийгдэж байна.

Байгалийн хэлээр томъёолсон асуулгыг өргөжүүлэхийн тулд тезаурус ашиглах асуудлыг судалж байна (одоогийн байдлаар ОХУ-ын UIS-ийн мэдээлэл хайх систем дэх нэр томъёоны асуулгыг өргөжүүлэхэд зөвхөн нийгэм-улс төрийн хэсгийг ашигладаг), мөн хайлт хийж байна. том текстийн цуглуулгад байгаа асуултуудын хариулт.

7. Дүгнэлт

Энэхүү нийтлэлд том хэмжээний текстийн цуглуулгыг автоматаар боловсруулах хэлний нөөцийг боловсруулах үндсэн зарчмуудыг тусгасан болно. Үүсгэсэн хэл шинжлэлийн эх сурвалж - Орос хэлний тезаурус RuTez нь баримт бичгийн концепцийн индексжүүлэлт, нарийн төвөгтэй шаталсан рубрикаторуудыг ашиглан автомат rubrication, байгалийн хэлний асуулгыг автоматаар өргөтгөх зэрэг автомат текст боловсруулах програмуудад ашиглах зориулалттай.

Энэ ажлыг Оросын хүмүүнлэгийн сангийн 00-04-00272а тоот буцалтгүй тусламжаар хэсэгчлэн дэмжиж байна.

Уран зохиол

  1. Лукашевич Н.В., Салий А.Д., Автомат текст боловсруулах систем дэх мэдлэгийн төлөөлөл // NTI, Сер.2. 1997. No 3. P. 1‑6.
  2. Журавлев С.В., Юдина Т.Н., Мэдээллийн систем ОРОС //НТИ, Сер.2. 1995. No 3. P. 18‑20.
  3. Уинстон М., Чаффин Р., Херман Д., Хэсэгчилсэн харилцааны таксономи // Танин мэдэхүйн шинжлэх ухаан. 1987. Үгүй. 11. P. 417-444.
  4. Priss U.E., WordNet-ийг харилцааны үзэл баримтлалын шинжилгээний аргуудаар албан ёсны болгох нь // WordNet. Цахим лексик мэдээллийн сан/ed. C. Fellbaum. Кембридж, Массачусетс, Лондон, Англи.: MIT хэвлэл 1998. P. 179-196.
  5. Гуарино Н., Велти С., Өмч хөрөнгийн албан ёсны онтологи // Онтологийн хэрэглээ ба асуудал шийдвэрлэх аргын талаархи ECAI-00 семинарын эмхэтгэл. Берлин: 2000. P. 121-128. (http://citeseer.nj.nec.com/guarino00formal.html).

Дээд түвшний лексик нөөцийг зохиох зарим онтологийн зарчмууд // First Int. Conf. Хэлний нөөц ба үнэлгээний тухай. 1998 он.

  1. Лукашевич Н.В., Добров Б.В., Автомат индексжүүлэлт хийх тезаурусын концепцийн харилцааны хувиргагчид // NTI, Ser.2. 2000, №4, 21-28-р тал.
  2. Орос хэлний том тайлбар толь бичиг / Ed. С.А. Кузнецова. Санкт-Петербург: Норинт, 1998.
  3. Ожегов С.И., Шведова Н.Ю., Орос хэлний тайлбар толь бичиг - 3-р хэвлэл. М.: Аз, 1996 он.
  4. Апресян Ю.Д., Сонгосон бүтээл, 1-р боть. Лексик семантик: 2-р хэвлэл. М.: "Оросын соёлын хэл" сургууль, Эд. "Дорно дахины уран зохиол" фирм RAS, 1995 он.
  5. Г.Миллер, Р.Беквит, К.Феллбаум, Д.Гросс, К.Миллер, WordNet дээрх таван нийтлэл, CSL тайлан 43. Танин мэдэхүйн шинжлэх ухааны лаборатори, Принстоны их сургууль, 1990.
  6. Чугур, Ж.Гонзало, Ф.Вержео, NLP программ дахь мэдрэхүйн ялгаа // “OntoLex-2000” сэтгүүл: Онтологи ба лексик мэдлэгийн үндэс. София: OntoTextLab. 2000.
  7. Лоукачевич Н., Добров Б., Олон хэлний мэдээллийн систем дэх тезаурус дээр суурилсан бүтцийн сэдэвчилсэн хураангуй // Машины орчуулгын тойм. 2000. Үгүй. 11. P. 10-20. (http://www.bcs.org.uk/siggroup/nalatran/mtreview/mtr-11/mtr-11-8.htm).

Байгалийн хэлээр боловсруулах орос хэлний тезаурус

том текстийн цуглуулга

Наталья В.Лукачевич, Борис В.Добров

Түлхүүр үг:тезаурус, байгалийн хэлний боловсруулалт, мэдээллийн хайлт

Бидний танилцуулгад бид том хэмжээний текстийн цуглуулгыг автоматаар боловсруулах лексик нөөцийг боловсруулах үндсэн зарчмуудыг авч үзэж, 1997 оноос хойш тусгайлан боловсруулсан текстийг автоматаар боловсруулах хэрэгсэл болгон боловсруулсан Орос хэлний тезаурусын бүтцийг тайлбарлав. Одоо Thesaurus нь 42 мянган ойлголтын шаталсан сүлжээ юм. ОХУ-ын их сургуулийн мэдээллийн системийн (www.cir.ru) 100,000 хамгийн түгээмэл текстийн цуглуулга, түүний дотор 400 мянган баримт бичигтэй харьцуулахад Тезаурусын өнөөгийн үе шатыг бид тайлбарлав. Мөн бид автомат текст боловсруулах янз бүрийн хэрэглээнд тезаурус ашиглахыг авч үздэг.

Хэсгийг ашиглахад тун хялбар. Хүссэн үгээ өгөгдсөн талбарт оруулна уу, бид танд түүний утгын жагсаалтыг өгөх болно. Манай сайт нэвтэрхий толь бичиг, тайлбар толь бичиг, үг бүтээх толь бичгүүдээс янз бүрийн эх сурвалжаас мэдээлэл өгдөг гэдгийг тэмдэглэхийг хүсч байна. Эндээс та оруулсан үгийнхээ хэрэглээний жишээг харж болно.

Тезаурус гэдэг үгийн утга

кроссворд толь бичиг дэх тезаурус

Орос хэлний тайлбар толь бичиг. С.И.Ожегов, Н.Ю.Шведова.

тезаурус

[te], -a, m (тусгай).

    Бүх үгийн санг бүрэн тусгах зорилготой хэлний толь бичиг.

    Зарим төрлийн нэр томьёо, ойлголтыг бүрэн багтаасан толь бичиг эсвэл өгөгдлийн багц. тусгай талбар.

    adj. тезаурус, -ая, -ое.

Орос хэлний шинэ тайлбар толь бичиг, Т.Ф.Ефремова.

тезаурус

    Зарим төрлийн толь бичиг хэл, түүний үгсийн санг бүрэн төлөөлдөг.

    Аливаа зүйлийн талаархи бүрэн системчилсэн мэдээллийн багц. хүн эсвэл компьютер түүнийг удирдах боломжийг олгодог мэдлэгийн талбар (компьютерийн шинжлэх ухаанд).

Нэвтэрхий толь бичиг, 1998 он

тезаурус

ТЕЗАВРУС (Грек хэлнээс - эрдэнэс)

    тухайн хэлний үгсийг текстэд ашигласан жишээнүүдийн хамт аль болох бүрэн харуулсан толь бичиг (энэ нь зөвхөн үхсэн хэл дээр бүрэн хэрэгжих боломжтой).

    Аливаа мэдлэгийн салбартай холбоотой үгсийг сэдэвчилсэн зарчмын дагуу цэгцэлж, үгийн нэгж хоорондын утгын холбоог (төрөл-төрөл, ижил утгатай гэх мэт) харуулсан толь бичиг. Мэдээлэл хайх тезаурид текстийн лексик нэгжийг тодорхойлогчоор сольдог.

Тезаурус

(Грек хэлнээс thesaurós ≈ эрдэнэс, сан хөмрөг), түүнд заасан семантик харилцааны систем бүхий хэлний семантик нэгжийн багц (Семантикийг үзнэ үү). T. нь үнэндээ хэлний семантикийг (үндэсний хэл, тодорхой шинжлэх ухааны хэл эсвэл автоматжуулсан удирдлагын системд зориулсан албан ёсны хэл) тодорхойлдог. Эхэндээ Т.-ийг нэг хэлний толь бичиг гэж үздэг байсан бөгөөд энэ нь үгсийг сэдэвчилсэн гарчиг болгон бүлэглэн утгын харилцааг тодорхойлдог. Жишээлбэл, 1962 онд хэвлэгдсэн (1852 оны 1-р хэвлэл) англи хэлний T. (зохиогч P. M. Roget) нь 1040 гарчигтай бөгөөд үүнд 240,000 орчим үг тараагдсан байдаг. Энэ T.-ийн индекс (түлхүүр) нь үг бүрд хамаарах гарчиг, дэд гарчгийг харуулсан үсгийн үсгийн жагсаалтыг агуулна. Англи, франц, испани хэлэнд зориулсан уламжлалт ерөнхий хэл шинжлэлийн бичвэрүүд (бие даасан хэлний семантик системийн тайлбар) байдаг. Үг бүрийн үндсэн семантик параметрийн илэрхийлэлийг тодорхойлсон нэг хэлний толь бичгүүд нь Т.-тэй маш ойрхон байдаг, жишээлбэл, С.И.Ожеговын орос хэлний толь бичиг.

70-аад онд 20-р зуун Мэдээлэл хайх системүүд нь эдгээр системүүдэд тусгай лексик нэгжүүдийг тодорхойлсон байдаг - тодорхойлогч, тэдгээр нь баримтат мэдээллийг автоматаар хайх боломжтой. Ийм T.-ийн үг бүр ижил утгатай тодорхойлогчтой холбоотой байдаг (Синонимыг үзнэ үү) бөгөөд тодорхойлогчдын хувьд утгын харилцааг тодорхой зааж өгдөг: төрөл ≈ зүйл, хэсэг ≈ бүхэл, зорилго ≈ гэсэн үг гэх мэт. төрөл зүйлийн өвөрмөц (шаталсан) болон ассоциатив харилцаа. Тиймээс, 1973 онд ЗХУ-д хэвлэгдсэн "Компьютерийн шинжлэх ухааны мэдээллийн хайгуулын тезаурус" нь тодорхойлогч бүрийн хувьд толь бичгийн оруулгатай бөгөөд ижил утгатай түлхүүр үгс, ерөнхий, тодорхой, ассоциатив тайлбарлагчийг тусад нь зааж өгсөн болно. Тодорхойлогчдын хоорондох ассоциатив холболтыг илүү сайн чиглүүлэхийн тулд сэдэвчилсэн ангиудын семантик газрын зургийг энэ Т-д хавсаргав. Мэдээллийг автоматжуулсан хайлт хийх явцад индекс нь зөвхөн асуулгын тодорхойлогч төдийгүй тэдгээртэй тодорхой семантик харилцаатай байгаа тодорхойлогчдыг агуулсан баримт бичгүүдийг хайдаг. Заримдаа тухайн сэдэвчилсэн хэсэгт хамаарах үгсийн сан дахь тодорхой ассоциатив харилцааг тодруулах нь ашигтай байдаг: өвчин ≈ эмгэг төрүүлэгч, төхөөрөмж ≈ зорилго (эсвэл хэмжсэн үнэ цэнэ) гэх мэт. Тайлбар толь дахь үг хэллэгийн нэгж (үг, хэллэг) -ийн байрлал. түүний хэл дээрх утгыг тодорхойлдог; Тухайн үг орж буй семантик харилцааны тогтолцооны талаархи мэдлэг (үүнд багтсан категориуд орно) нь энэ үгийн утгыг дүгнэх боломжийг олгодог.

Өргөн утгаараа Т.-ийг мэдээлэл дамжуулагч хувь хүн эсвэл бүлэг тээвэрлэгчдийн эзэмшдэг бодит байдлын талаархи мэдлэгийн тогтолцооны тайлбар гэж тайлбарладаг. Энэхүү зөөвөрлөгч нь нэмэлт мэдээлэл хүлээн авагчийн үүргийг гүйцэтгэж чаддаг бөгөөд үүний үр дүнд түүний T нь мөн семантик мэдээллийг хүлээн авахдаа хүлээн авагчийн чадварыг тодорхойлдог. Сэтгэл судлал, хиймэл оюун ухаантай системийг судлахдаа мэдээллийг хүлээн авах, ойлгоход илэрдэг хувь хүмүүсийн шинж чанарыг авч үздэг. Социологи, харилцааны онолд тэд хувь хүн, бүлгүүдийн харилцааны шинж чанарыг судалдаг бөгөөд энэ нь харилцааны нийтлэг байдалд үндэслэн харилцан ойлголцох боломжийг олгодог нарийн төвөгтэй системд ашиглах боломжтой мэдээллийн . T. үнэндээ бодит байдлын тухай мэдээлэл төдийгүй мета-мэдээлэл (мэдээллийн талаархи мэдээлэл) агуулдаг бөгөөд энэ нь шинэ мессежийг хүлээн авах боломжтой болгодог.

Лит.: Черный А.И., Тезаурус бүтээх ерөнхий арга зүй, "Шинжлэх ухаан, техникийн мэдээлэл. Сэр. 2", 1968, ╧5; Варга Д., Мэдээллийн тезаурус бэлтгэх арга зүй, орчуул. [Унгар хэлнээс], М., 1970; Шрейдер А., Компьютерийн шинжлэх ухаан, онолын семантик дахь тезаурус, “Шинжлэх ухаан, техникийн мэдээлэл. Сэр. 2", 1971, ╧ З.

Ю.А.Шрадер.

Википедиа

Тезаурус

Тезаурус, ерөнхий утгаараа - тусгай нэр томьёо, илүү нарийн, тодорхой - толь бичиг, мэдээллийн цуглуулга, корпус эсвэл код, тусгай мэдлэг, үйл ажиллагааны чиглэлийн ойлголт, тодорхойлолт, нэр томьёог бүрэн багтаасан бөгөөд энэ нь үг хэллэгийг зөв бичихэд хувь нэмэр оруулах ёстой. корпорацийн харилцаа холбоо; орчин үеийн хэл шинжлэлд - лексик нэгж хоорондын утгын холбоог (синоним, антоним, пароним, гипоним, гипероним гэх мэт) заадаг толь бичгийн тусгай төрөл. Тезаури бол бие даасан сэдвүүдийг тайлбарлах хамгийн үр дүнтэй хэрэгслүүдийн нэг юм.

Тайлбар толь бичгээс ялгаатай нь тезаурус нь зөвхөн тодорхойлолтоор дамжуулан утгыг тодорхойлох боломжийг олгодог төдийгүй үгийг бусад ойлголт, тэдгээрийн бүлгүүдтэй уялдуулах замаар хиймэл оюун ухааны системийн мэдлэгийн санг дүүргэхэд ашиглаж болно.

Өнгөрсөн хугацаанд нэр томъёо тезаурусГолдуу хэлний толь бичгүүдийг текстэд ашиглах жишээнүүдийн хамт хамгийн бүрэн дүүрэн илэрхийлсэн толь бичгүүдийг томилсон.

Мөн нэр томъёо тезаурусМэдээллийн онолд тухайн субьектийн эзэмшсэн бүх мэдээллийн нийлбэрийг илэрхийлэхэд ашигладаг.

Сэтгэл судлалд хувь хүний ​​үг хэллэг нь мэдээллийн талаарх ойлголт, ойлголтоор тодорхойлогддог. Харилцаа холбооны онол нь түүний элементүүд харилцан үйлчлэлцдэг цогц системийн ерөнхий үг хэллэгийг авч үздэг.

Тезаурус (тодорхойлолт)

Тезаурус:

  • Тезаурус бол тусгай мэдлэг, үйл ажиллагааны чиглэлийн ойлголт, тодорхойлолт, нэр томъёог багтаасан мэдээллийн цуглуулга, толь бичиг юм.
  • Рожерын Тезаурус бол түүхэн дэх анхны толь бичгийн нэг бөгөөд өнөөгийн хамгийн алдартай үзэл суртлын толь бичгүүдийн нэг юм.

Уран зохиол дахь тезаурус үгийн хэрэглээний жишээ.

Ойлголт, хамтын бүтээлийн хувьд тодорхой оновчтой тезаурус, жижиг биш, гэхдээ хэтэрхий том биш.

Хязгааргүй тооны ирж буй мэдээлэлтэй, мэдэгдэхүйц давсан тезаурус, түүний үнэ цэнэ нь энэ тоо хэмжээнээс хамаардаггүй бөгөөд бүхэлдээ тодорхойлогддог тезаурусом

Урлагийн олон талт байдал, системчилсэн шинж чанар нь бүтээлийг бүхэлд нь жигд бус ойлгоход хүргэдэг: шүлгийн зарим талыг ойлгоход хүргэдэг. тезаурусоновчтой, бусад хүмүүсийн хувьд энэ нь хангалтгүй эсвэл хэт том байна.

Учир нь тезаурусөсөн нэмэгдэж, өөрчлөгдөж, ажилтай дахин танилцах нь шинэ үнэ цэнэтэй мэдээлэл олж авах гэсэн үг юм.

Хүүхдийн дуртай үлгэрээ олон удаа унших хүсэл нь ойлгомжтой: тэр тезаурусхурдацтай хөгжиж байгаа бөгөөд түүний хамтран бүтээх чадвар, ассоциатив уран зөгнөл нь ялангуяа гайхалтай юм.

Асуудлын энэ тал нь илүү өөрчлөгдөж, субъектив юм тезаурус, мөн бүтээлийн бодит гоо зүйн үнэлгээг хайж олохын тулд үүнийг хамгийн бага хэмжээнд хүртэл бууруулах хэрэгтэй.

Тэр нэвтэрдэг тезаурусяруу найрагч бөгөөд орчуулгад ханддаг тезаурусгадаад хэл уншигчаас.

Хамгийн гол нь таны хэр том болохыг тодорхойлох явдал юм тезаурус, Т.

Үгүй ээ, зүгээр л түүний ачаа тээш бага, тэр хөгжөөгүй, түүнийх тезауруснялх шатандаа байгаа бөгөөд хэрэв тэр үүнийг ойлгохгүй байвал тезауруснэмэгдүүлэх ёстой, тэгвэл ямар ч тохиолдолд энэ эмэгтэй түүнд хэцүү байх болно.

Баян тезаурус, жинхэнэ мэдлэг дээр үндэслэн хүн өөр хүнтэй харилцахдаа, тэр дундаа хамгийн ойр дотны хүнтэйгээ харилцахдаа юу ч тохиолдсонд зөв хариу үйлдэл үзүүлэх боломжийг олгодог.

Мэдээллийн үнэ цэнэ өсөх тусам буурч байгаа нь илт байна тезаурусхарилцаанаас хамаарах ёстой тезаурусхүлээн авсан мэдээллийн хэмжээгээр.

Уран сайхны мэдээллийн оновчтой үнэ цэнэ нь ойр байх нь ойлгомжтой тезаурусуншигч ба тезаурусяруу найрагч.

Бүтээлч байдлын нэгэн адил хамтын бүтээл нь урам зориг, өөрөөр хэлбэл оролцоо шаарддаг гэж бид хэлж чадна. тезаурусүгийн өргөн утгаараа.

Ийм дотоод давталт нь тод дүр төрх, тод дуу чимээтэй байхын зэрэгцээ одоо байгаа зүйлийн хүрээнд үлддэг тезаурус, дахин давтагдах ижил гоо зүйн мөчөөр баяжуулдаг.

Энэ үед тезаурусНабоков, Пришвин хоёрыг Платоновын эсрэг, харин Марина Цветаеватай адилхан гэж үзэж болно.

, антоним, пароним, гипоним, гиперним гэх мэт) лексик нэгжийн хооронд. Тезаури бол бие даасан сэдвийг дүрслэх хамгийн үр дүнтэй хэрэгслүүдийн нэг юм.

Өнгөрсөн хугацаанд нэр томъёо тезаурусГолдуу хэлний толь бичгүүдийг текстэд ашиглах жишээнүүдийн хамт хамгийн бүрэн дүүрэн илэрхийлсэн толь бичгүүдийг томилсон.

Мөн нэр томъёо тезаурусМэдээллийн онолд тухайн субьектийн эзэмшсэн бүх мэдээллийн нийлбэрийг илэрхийлэхэд ашигладаг.

Сэтгэл судлалд хувь хүний ​​үг хэллэг нь мэдээллийн талаарх ойлголт, ойлголтоор тодорхойлогддог. Харилцааны онол нь түүний элементүүд харилцан үйлчлэлцдэг цогц системийн ерөнхий үг хэллэгийг авч үздэг.

Өгүүллэг

Анхны тезаврийн нэгийг Фило Библосын бичсэн "Синонимын толь бичиг" гэж нэрлэдэг. Энэ нэр томьёотой илүү нарийн тохирч байгаа нь 6-р зуунд яруу найргийн хэлбэрээр санскрит хэл дээр бичсэн Амара-коша юм. Орчин үеийн англи хэлний анхны тезаурусыг 1805 онд Питер Марк Рожер бүтээжээ. Энэ нь 1852 онд хэвлэгдсэн бөгөөд түүнээс хойш дахин хэвлэгдэхгүйгээр ашиглагдаж байна.

1970-аад онд тезаури нь мэдээлэл хайх ажилд идэвхтэй ашиглагдаж эхэлсэн. Ийм тезаурид үгсийг тодорхойлогчдод буулгаж, тэдгээрийн тусламжтайгаар утгын холбоо тогтоодог.

Тезаурус

Мөн үзнэ үү

"Тезаурус" нийтлэлийн талаар сэтгэгдэл бичээрэй

Тэмдэглэл

Тезаурусыг тодорхойлсон ишлэл

-Чи өнөөдөр ямар тэнэг юм бэ! - Несвицкий шинэ нөмрөг, эмээлийн дэвсгэрээ хараад хэлэв.
Денисов инээмсэглэн, тэрэгнээсээ сүрчиг үнэртсэн алчуур гаргаж ирээд Несвицкийн хамар руу наав.
- Би чадахгүй, би ажиллах гэж байна! Би гараад шүдээ угааж, үнэртэй ус түрхлээ.
Несвицкийн нэр хүндтэй дүр, казак дагалдаж байсан Денисовын шийдэмгий байдал, сэлмээ даллаж, цөхрөнгөө баран хашгирч байсан нь тэд гүүрний нөгөө талд шахагдаж, явган цэргүүдийг зогсоов. Несвицкий гарцан дээр тушаал өгөх шаардлагатай хурандааг олж, түүний зааврыг биелүүлээд буцаж ирэв.
Замаа цэвэрлээд Денисов гүүрний үүдэнд зогсов. Өөрийнх нь зүг давхиж, өшиглөж буй азаргыг санамсаргүйгээр бариад түүн рүү явж буй эскадрилийг харав.
Гүүрний банзны дагуу туурайны тунгалаг чимээ сонсогдож, хэд хэдэн морь давхих мэт сонсогдож, урдаа дөрвөн офицертой эскадриль гүүрний дагуу сунаж, нөгөө талаас гарч эхлэв.
Гүүрний ойролцоо гишгэгдсэн шаварт бөөгнөрөн зогссон явган цэргийн цэргүүд армийн янз бүрийн салбаруудад ихэвчлэн дайралт, тохуурхах, харийн бусаар харьцах, тохуурхах онцгой мэдрэмжээр тэдний хажуугаар эв найртай алхаж буй цэвэрхэн, дэгжин хусаруудыг харав.
- Ухаалаг залуус аа! Хэрэв энэ нь Подновинское дээр байсан бол!
- Тэд ямар сайн юм бэ? Тэд зөвхөн шоуны төлөө л жолооддог! - гэж өөр нэг хэлэв.
- Явган цэрэг, тоос шороо битгий тоо! - гэж гуссар хошигноход морь тоглож байгаад явган цэрэг рүү шавар цацав.
"Хэрвээ би чамайг үүргэвчиндээ үүрээд хоёр марш хийхэд хүргэсэн бол хоншоор нь хуучирсан байх байсан" гэж явган цэрэг ханцуйгаараа нүүрэн дэх шороог нь арчиж хэлэв. - эс тэгвээс энэ нь хүн биш, харин шувуу сууж байна!
"Зикин, хэрвээ би чамайг мориндоо суулгаж чадахсан бол, хэрвээ чи авхаалжтай байсан бол" гэж корпорац үүргэвчиндээ тонгойж, туранхай цэргийн талаар хошигнов.
"Хөлийнхөө завсар саваа ав, тэгвэл чи морьтой болно" гэж хусар хариулав.

Үлдсэн явган цэргүүд гүүрэн дээгүүр яаран давхиж, үүдэнд юүлүүр үүсгэв. Эцэст нь бүх тэрэгнүүд өнгөрч, няцлах нь багасч, сүүлчийн батальон гүүрэн дээр оров. Дайсны эсрэг гүүрний нөгөө талд Денисовын эскадрилийн хусарууд л үлджээ. Эсрэг уулнаас, доороос, гүүрнээс алсад харагдах дайсан хараахан харагдахгүй байсан, учир нь голын урсаж буй жалгаас тэнгэрийн хаяа эсрэг талын өндөрлөгт хагас миль хүрэхгүй байв. Урд нь цөл байсан бөгөөд тэндээс манай аялагч казакуудын бүлгүүд энд тэндгүй хөдөлж байв. Гэнэт замын эсрэг талын толгод дээр цэнхэр юүдэнтэй, их буутай цэргүүд гарч ирэв. Эдгээр нь францчууд байв. Казак эргүүлүүд уруудан явав. Денисовын эскадрилийн бүх офицер, цэргүүд гадны хүмүүсийн тухай ярьж, эргэн тойрноо харахыг хичээсэн ч зөвхөн ууланд байгаа зүйлийн талаар бодохоо больсонгүй, мөн дайсны цэргүүд гэж хүлээн зөвшөөрөгдсөн тэнгэрийн хаяанд байгаа цэгүүдийг байнга ажиглаж байв. Үдээс хойш цаг агаар дахин сэргэж, Дунай мөрөн, түүнийг тойрсон харанхуй уулс дээгүүр нар жаргав. Нам гүм байсан бөгөөд тэр уулнаас эвэр дуугарах, дайсны хашгирах чимээ хааяа сонсогдоно. Эскадриль болон дайснуудын хооронд жижиг эргүүлээс өөр хэн ч байсангүй. Гурван зуун ойч хоосон зай тэднийг түүнээс тусгаарлав. Дайсан буудахаа больсон бөгөөд дайсны хоёр цэргийг тусгаарлаж буй хатуу, аюул заналхийлсэн, давшгүй, баригдашгүй шугамыг илүү тодорхой мэдэрсэн.
“Энэ шугамаас нэг алхам цааш, амьдыг үхэгсдээс тусгаарлах шугамыг санагдуулам, зовлон, үхлийн үл мэдэгдэх. Тэгэхээр тэнд юу байна? тэнд хэн байна? тэнд, энэ талбайн цаана, мөн мод, нарны гэрэлтсэн дээвэр? Хэн ч мэдэхгүй, би мэдэхийг хүсч байна; мөн энэ шугамыг давах нь аймшигтай бөгөөд та үүнийг давахыг хүсч байна; мөн та нар эрт орой хэзээ нэгэн цагт түүнийг гаталж, үхлийн нөгөө талд юу байгааг олж мэдэх нь гарцаагүй байдгийн адил шугамын нөгөө талд юу байгааг олж мэдэх хэрэгтэй болно гэдгийг та мэднэ. Тэр өөрөө ч хүчтэй, эрүүл чийрэг, хөгжилтэй, цочромтгой, эрүүл чийрэг, цочромтгой хөдөлгөөнтэй хүмүүсээр хүрээлэгдсэн байдаг." Хэдийгээр тэр бодохгүй байсан ч дайсны нүдэн дээр байгаа хүн бүр үүнийг мэдэрдэг бөгөөд энэ мэдрэмж нь эдгээр минутанд болж буй бүх зүйлд онцгой гялалзах, баяр баясгалантай хурц тод сэтгэгдэл төрүүлдэг.
Дайсны толгод дээр буун дууны утаа гарч, их бууны сум исгэрч, хусарын эскадрилийн толгой дээгүүр нисэв. Хамт зогсож байсан офицерууд газар луугаа явав. Хусарууд морьдоо болгоомжтойгоор засаж эхлэв. Эскадрилийн бүх зүйл чимээгүй болов. Бүгд дайсан руу, эскадрилийн командлагч руу харан тушаал хүлээж байв. Өөр нэг гурав дахь их бууны сум нисэв. Тэд хусар руу буудаж байсан нь илт байна; гэвч жигд хурдан исгэрэх их бууны сум хусаруудын толгой дээгүүр нисч, араас нь хаа нэгтээ цохив. Хусарууд эргэж харалгүй, их бууны сумны нисэх чимээ болгонд команд өгч байгаа мэт нэгэн хэвийн янз бүрийн царайтай бүхэл бүтэн эскадриль их бууны сум нисч байхад амьсгаагаа даран, дөрөөндөө босож дахин унав. Цэргүүд толгойгоо эргүүлэлгүйгээр бие бие рүүгээ хажуу тийш харан, нөхрийнхөө сэтгэгдлийг сониучирхан хайж байв. Денисовоос эхлээд хулгайч хүртэл бүх нүүрэн дээр уруул, эрүүний ойролцоо тэмцэл, цочромтгой байдал, сэтгэлийн хөөрлийн нийтлэг шинж тэмдэг илэрч байв. Түрүүч цэргүүд рүү харан хөмсгөө зангидан, шийтгэл хүлээж байгаа бололтой. Юнкер Миронов их бууны цохилт болгонд бөхийв. Ростов зүүн жигүүрт хөл нь хүрсэн боловч нүдэнд харагдахуйц Грачик дээр зогсож байхдаа шалгалтанд олон үзэгчдийн өмнө дуудагдсан оюутны баяр баясгалантай харцтай байсан бөгөөд түүнийг амжилттай болно гэдэгт итгэлтэй байв. Их бууны сумны доор ямар тайван зогсож байгаад анхаарлаа хандуулахыг хүссэн мэт тэр хүн бүр рүү тод, тод харав. Гэвч түүний нүүрэнд ч гэсэн өөрийнх нь хүсэл зоригоос үл хамааран шинэ, хатуу ширүүн зүйл амных нь ойролцоо гарч ирэв.
-Тэнд хэн бөхийж байгаа юм бэ? Юнкег "Миг"-үүд! Хэксог, над руу хараач! - гэж Денисов хашгирч зогсохгүй, эскадрилийн өмнө морьдоо эргэлдэж байв.
Васка Денисовын хонхойсон хамар, хар үстэй царай ба түүний шөрмөстэй (богино хуруугаараа үсээр хучигдсан) гараараа цохисон жижиг бие нь урьдынх шигээ яг адилхан байв. ялангуяа оройн цагаар хоёр шил уусны дараа. Тэр ердийнхөөсөө илүү улаан байсан бөгөөд уухад шувууд шиг сэгсгэр толгойгоо дээш өргөөд, жижиг хөлөөрөө сайн Бедуины хажуу руу өршөөлгүйгээр шахаж, арагшаа унасан мэт давхиж, нөгөө жигүүр рүү давхив. эскадриль гэж сөөнгө хоолойгоор гар бууг шалгана гэж хашгирав. Тэр машинаараа Кирстен рүү явав. Штабын ахлагч өргөн, тайван гүүгээ унаж, Денисовын зүг алхав. Урт сахалтай штабын ахлагч урьдын адил нухацтай, зөвхөн нүд нь ердийнхөөсөө илүү гялалзаж байв.
- Юу? - тэр Денисовт хэлэв, - энэ нь тулалдаанд орохгүй. Та харах болно, бид буцаж ирнэ.
"Тэд юу хийж байгааг хэн мэдэх вэ" гэж Денисов ярвайв. гэж түүний хөгжилтэй царайг анзааран курсант руу хашгирав. - За хүлээлээ.
Тэгээд тэр курсант руу баярласан бололтой сайшаан инээмсэглэв.
Ростов бүрэн аз жаргалтай байсан. Энэ үед дарга гүүрэн дээр гарч ирэв. Денисов түүн рүү давхив.
-Эрхэм дээдэс би тэднийг алах болно!
"Ямар төрлийн дайралт байгаа юм бэ" гэж дарга уйтгартай хоолойгоор хэлээд, ядаргаатай ялаанаас болсон мэт нүдээ ирмэв. -Чи яагаад энд зогсож байгаа юм бэ? Харж байна уу, фланкерууд ухарч байна. Эскадрилийг буцааж удирд.
Эскадрилийнхан гүүр давж, нэг ч хүнээ алдалгүй буун дуунаас мултарч чадсан байна. Түүний араас гинжин хэлхээнд байсан хоёрдугаар эскадрил гаталж, сүүлчийн казакууд тэр талыг цэвэрлэв.
Павлоградчуудын хоёр эскадриль гүүрээр ар араасаа гарч уул руу буцав. Рекийн командлагч Карл Богданович Шуберт Денисовын эскадрилийн зүг ирж, Ростовоос холгүй хурдтай давхиж, Телянинтай өмнөх мөргөлдөөний дараа тэд бие биенээ анх удаа харсан ч түүнд анхаарал хандуулсангүй. Ростов өөрийгөө өмнө нь өөрийгөө буруутай гэж үзсэн хүний ​​хүчээр фронтод байгааг мэдэрч, дэглэмийн командлагчийн биеийн тамирын нуруу, шаргал дагз, улаан хүзүүнээс нүдээ салгасангүй. Ростовт Богданич зүгээр л хайхрамжгүй дүр эсгэж байгаа юм шиг санагдаж, одоо түүний зорилго бол кадетийн эр зоригийг шалгах явдал байсан тул тэрээр босоод эргэн тойрноо хөгжилтэй харав; Дараа нь түүнд Богданич Ростовт эр зоригоо харуулахын тулд зориудаар ойртож байгаа юм шиг санагдав. Дараа нь тэр дайсан нь одоо Ростовыг шийтгэхийн тулд цөхрөнгөө барсан довтолгоонд зориудаар эскадриль илгээнэ гэж бодов. Довтолгооны дараа тэр түүн дээр ирж, шархадсан хүнд эвлэрэх гараа харамгүй сунгана гэж бодсон.



Танд нийтлэл таалагдсан уу? Найзуудтайгаа хуваалцаарай!