Улирал

Гэр

Зураачдын зурсан зургуудВикипедиагийн материал - үнэгүй нэвтэрхий толь Давтамжийн толь бичиг(эсвэл давтамжийн жагсаалт) - тухайн хэлний (эсвэл дэд хэлний) үгсийн багц, тэдгээрийн давтамжийн талаархи мэдээлэл. Толь бичгийг давтамж, цагаан толгойн үсгийн дарааллаар (дараа нь түүний давтамжийг үг тус бүрээр нь зааж өгнө), үгсийн бүлгээр (жишээлбэл, эхний мянган үг, дараа нь хоёр дахь гэх мэт), ердийн байдлаар (үгнүүдийг) ангилж болно. Ихэнх текстэнд хамгийн их тохиолддог) гэх мэт. Давтамжийн жагсаалтыг хэл заах, шинэ толь бичиг үүсгэх, тооцооллын хэл шинжлэлийн хэрэглээ, салбарын судалгаанд ашигладаг.

хэл шинжлэлийн типологи

, гэх мэт. Давтамжийн жагсаалт байгуулахИхэвчлэн давтамжийн толь бичгүүдийг текстийн корпусын үндсэн дээр бүтээдэг: тухайн хэлийг бүхэлд нь, тодорхой сэдвийн хүрээнд төлөөлөх текстийн багцыг авдаг.

энэ зохиолч

  • (Грибоедовын давтамжийн толь бичгийг үзнэ үү) ба үгийн хэлбэр, лемма, ярианы хэсгүүдийг үүнээс гаргаж авсан (хэрэв корпус нь морфологийн тэмдэглэгээтэй бол сүүлчийнх нь).
  • Давтамжийн жагсаалтыг гаргахад тулгардаг бэрхшээлүүд нь:
  • давтагдах чадвар (үр дүн нь өөр ижил төстэй биед ижил байх уу), бие даасан үгсийн давтамжийн огцом өсөлт (нэг текст дэх үгийн давтамж нь давтамжийн жагсаалт дахь байрлалд нөлөөлж болно),цөөн давтамжтай үгсийн байрлалыг тодорхойлоход бэрхшээлтэй байгаа нь тэдгээрийг оновчтой эрэмбэлэх боломжийг олгодоггүй; жишээ нь үг хогнь хамгийн их тохиолддог 20,000 үгэнд багтдаг бол үг

гонгинох эхний 40 мянгатын жагсаалтаас гадуур байна.Энэ бүх асуудал үүнтэй холбоотой статистик цэгБидний үзэж байгаагаар хэл нь маш олон тооны ховор тохиолдлуудыг (Зипфийн хууль) илэрхийлдэг бөгөөд үүний үр дүнд цөөн тооны үг маш олон удаа тохиолддог бөгөөд дийлэнх үгс нь маш бага давтамжтай байдаг. Үгийн давтамж Тэгээд(орос хэл дээрх хамгийн түгээмэл үг) нь үгийн давтамжаас ойролцоогоор 10 дахин их байдаг Огэх мэт энгийн үгсээс 100 дахин их тохиолддог аялал, хөгшрөлт.

эсвэл загвар ): корпус дахь хэд хэдэн бичвэрүүд хоббитуудын тухай байгаа бол энэ үгийг бараг бүх өгүүлбэрт ашиглах болно. Үүний үр дүнд эдгээр текст дэх түүний давтамжийг функциональ үгсийн давтамжтай харьцуулах боломжтой боловч ийм бичвэрүүдийг багтаасан том корпусын давтамжийн жагсаалтад энэ үг үнэмшмээргүй өндөр зэрэглэлтэй байх болно. Ийм давтамжийн тэсрэлтүүдийг вариацын коэффициент ашиглан үнэлж болно: стандарт хазайлтыг дундаж давтамжтай харьцуулсан харьцаа.

Кейс харьцуулалт

Давтамжийн толь бичиг нь хоёр корпусыг харьцуулж, тус бүрээс хамгийн онцлогтой үгсийг тодорхойлох боломжийг олгодог. Корпорацийн хэмжээ өөр байж болох тул үгийн давтамжийн илүү найдвартай тооцоолол нь тэдгээрийг fmc (сая үгийн хэлбэрт ногдох давтамж, англи. ipm, сая үг тутамд тохиолдох тохиолдол ). Үг статистик цэг 30,000 хм орчим давтамжтай, word өндөр нас- 30 орчим.

Багцыг тодорхойлохын тулд түлхүүр үгсНэг тохиолдлыг нөгөөгөөс нь ялгахын тулд та янз бүрийн статистик хэмжигдэхүүнийг ашиглаж болно: хи-квадрат, магадлалын харьцаа (eng. Магадлалын харьцааны тест ) гэх мэт.

Мөн үзнэ үү

"Давтамжийн толь бичиг" нийтлэлийн талаар сэтгэгдэл бичээрэй

Уран зохиол

  • Адам Килгарриф// Олон улсын лексикографийн сэтгүүл. - 1997. - No 10(2). - P. 135-155.
  • Ляшевская О.Н., Шаров С.А.. - М.: Азбуковник, 2009. - 1087 х. - ISBN 978-5-91172-024-7.
  • Давтамжийн толь бичиг // Зөвлөлтийн агуу нэвтэрхий толь бичиг: [30 боть] / бүлэг. ed. A. M. Прохоров. - 3 дахь хэвлэл. - М. : Зөвлөлтийн нэвтэрхий толь бичиг, 1969-1978.
  • Орос хэлний давтамжийн толь бичиг / Ed. Л.Н.Засорина. - М.: Орос хэл, 1977.
  • // Лермонтовын нэвтэрхий толь бичиг / ЗХУ-ын Шинжлэх Ухааны Академи. Орос хэлний хүрээлэн ассан. (Пушкин. Хаус); Шинжлэх ухааны ред. Хэвлэлийн газрын зөвлөл "Сов. нэвтэрхий толь." - М .: Сов. Нэвтэрхий толь., 1981. - 717-774 х.
  • Шаров С.А. .
  • Стейнфельдт Э.А.Орчин үеийн орос хэлний давтамжийн толь бичиг утга зохиолын хэл. - М., 1973.

Холбоосууд

Давтамжийн толь бичгийг тодорхойлсон ишлэл

Гүүрний ойролцоо гишгэгдсэн шаварт бөөгнөрөн зогссон явган цэргийн цэргүүд армийн янз бүрийн салбаруудад ихэвчлэн тохиолдох тийм л найрсаг бус харийн сэтгэлээр, элэг доог тохуу мэт тэдний хажуугаар эмх цэгцтэй алхаж яваа цэвэр цэмцгэр хусаруудыг харав.
- Ухаалаг залуус аа! Хэрэв энэ нь Podnovinskoe дээр байсан бол!
- Тэд ямар сайн юм бэ? Тэд зүгээр л шоу хийх гэж жолооддог! - гэж өөр нэг хэлэв.
- Явган цэрэг, тоос шороо битгий тоо! - гэж гуссар хошигноход морь тоглож байгаад явган цэрэг рүү шавар цацав.
"Хэрвээ би чамайг үүргэвчиндээ үүрээд хоёр марш хийхэд хүргэсэн бол хоншоор нь хуучирсан байх байсан" гэж явган цэрэг ханцуйгаараа нүүрэн дэх шороог нь арчиж хэлэв. - эс тэгвээс энэ нь хүн биш, харин шувуу сууж байна!
"Зикин, хэрвээ би чамайг мориндоо суулгаж чадахсан бол, хэрвээ чи авхаалжтай байсан бол" гэж корпорац үүргэвчиндээ тонгойж, туранхай цэргийн талаар хошигнов.
"Хөлийнхөө завсар саваа ав, тэгвэл чи морьтой болно" гэж хусар хариулав.

Үлдсэн явган цэргүүд гүүрэн дээгүүр яаран давхиж, үүдэнд юүлүүр үүсгэв. Эцэст нь бүх тэрэгнүүд өнгөрч, няцлах нь багасч, сүүлчийн батальон гүүрэн дээр оров. Дайсны эсрэг гүүрний нөгөө талд Денисовын эскадрилийн хусарууд л үлджээ. Эсрэг уулнаас, доороос, гүүрнээс алсад харагдах дайсан хараахан харагдахгүй байсан, учир нь голын урсаж буй жалгаас тэнгэрийн хаяа эсрэг талын өндөрлөгт хагас миль хүрэхгүй байв. Урд нь цөл байсан бөгөөд тэндээс манай аялагч казакуудын бүлгүүд энд тэндгүй хөдөлж байв. Гэнэт замын эсрэг талын толгод дээр цэнхэр юүдэнтэй, их буутай цэргүүд гарч ирэв. Эдгээр нь францчууд байв. Казак эргүүлүүд уруудан явав. Денисовын эскадрилийн бүх офицер, цэргүүд гадны хүмүүсийн тухай ярьж, эргэн тойрноо харахыг хичээсэн ч зөвхөн ууланд байгаа зүйлийн талаар бодохоо больсонгүй, мөн дайсны цэргүүд гэж хүлээн зөвшөөрөгдсөн тэнгэрийн хаяанд байгаа цэгүүдийг байнга ажиглаж байв. Үдээс хойш цаг агаар дахин сэргэж, Дунай мөрөн, түүнийг тойрсон харанхуй уулс дээгүүр нар жаргав. Нам гүм байсан бөгөөд тэр уулнаас эвэр дуугарах, дайсны хашгирах чимээ хааяа сонсогдоно. Эскадриль болон дайснуудын хооронд жижиг эргүүлээс өөр хэн ч байсангүй. Гурван зуун ойч хоосон зай тэднийг түүнээс тусгаарлав. Дайсан буудахаа больсон бөгөөд дайсны хоёр цэргийг тусгаарлаж буй хатуу, аюул заналхийлсэн, давшгүй, баригдашгүй шугамыг илүү тодорхой мэдэрсэн.
“Энэ шугамаас нэг алхам цааш, амьдыг үхэгсдээс тусгаарлах шугамыг санагдуулам, зовлон, үхлийн үл мэдэгдэх. Тэгэхээр тэнд юу байна? тэнд хэн байна? тэнд, энэ талбайн цаана, мөн мод, нарны гэрэлтсэн дээвэр? Хэн ч мэдэхгүй, би мэдэхийг хүсч байна; мөн энэ шугамыг давах нь аймшигтай бөгөөд та үүнийг давахыг хүсч байна; мөн та нар эрт орой хэзээ нэгэн цагт түүнийг гаталж, үхлийн нөгөө талд юу байгааг олж мэдэх нь гарцаагүй байдгийн адил шугамын нөгөө талд юу байгааг олж мэдэх хэрэгтэй болно гэдгийг та мэднэ. Тэр өөрөө ч хүчтэй, эрүүл чийрэг, хөгжилтэй, цочромтгой, эрүүл чийрэг, цочромтгой хөдөлгөөнтэй хүмүүсээр хүрээлэгдсэн байдаг." Хэдийгээр тэр бодохгүй байсан ч дайсны нүдэн дээр байгаа хүн бүр үүнийг мэдэрдэг бөгөөд энэ мэдрэмж нь эдгээр минутанд болж буй бүх зүйлд онцгой гялалзах, баяр баясгалантай хурц тод сэтгэгдэл төрүүлдэг.
Дайсны толгод дээр буун дууны утаа гарч, их бууны сум исгэрч, хусарын эскадрилийн толгой дээгүүр нисэв. Хамт зогсож байсан офицерууд газар луугаа явлаа. Хусарууд морьдоо болгоомжтойгоор засаж эхлэв. Эскадрилийн бүх зүйл чимээгүй болов. Бүгд дайсан руу, эскадрилийн командлагч руу харан тушаал хүлээж байв. Өөр нэг гурав дахь их бууны сум хажуугаар өнгөрөв. Тэд хусар руу буудаж байсан нь илт байна; гэвч жигд хурдан исгэрэх их бууны сум хусаруудын толгой дээгүүр нисч, араас нь хаа нэгтээ цохив. Хусарууд эргэж харалгүй, их бууны сумны нисэх чимээ болгонд команд өгч байгаа мэт нэгэн хэвийн янз бүрийн царайтай бүхэл бүтэн эскадриль их бууны сум нисч байхад амьсгаагаа даран, дөрөөндөө босож дахин унав. Цэргүүд толгойгоо эргүүлэлгүйгээр бие бие рүүгээ хажуу тийш харан, нөхрийнхөө сэтгэгдлийг сониучирхан хайж байв. Денисовоос эхлээд хулгайч хүртэл бүх нүүрэн дээр уруул, эрүүний ойролцоо тэмцэл, цочромтгой байдал, сэтгэлийн хөөрлийн нийтлэг шинж тэмдэг илэрч байв. Түрүүч цэргүүд рүү харан хөмсгөө зангидан, шийтгэл хүлээж байгаа бололтой. Юнкер Миронов их бууны цохилт болгонд бөхийв. Ростов зүүн жигүүрт хөл нь хүрсэн боловч нүдэнд харагдахуйц Грачик дээр зогсож байхдаа шалгалтанд олон үзэгчдийн өмнө дуудагдсан оюутны баяр баясгалантай харцтай байсан бөгөөд түүнийг амжилттай болно гэдэгт итгэлтэй байв. Их бууны сумны доор ямар тайван зогсож байгаад анхаарлаа хандуулахыг хүссэн мэт тэр хүн бүр рүү тод, тод харав. Гэвч түүний нүүрэнд ч гэсэн өөрийнх нь хүсэл зоригоос үл хамааран шинэ, хатуу ширүүн зүйл амных нь ойролцоо гарч ирэв.
-Тэнд хэн бөхийж байгаа юм бэ? Юнкег "Миг"-үүд! Хэксог, над руу хараач! - гэж Денисов хашгирч зогсохгүй, эскадрилийн өмнө морьдоо эргэлдэж байв.
Васка Денисовын хонхойсон хамар, хар үстэй царай ба түүний шөрмөстэй (богино хуруугаараа үсээр хучигдсан) гараараа цохисон жижиг бие нь урьдынх шигээ яг адилхан байв. ялангуяа оройн цагаар хоёр шил уусны дараа. Тэр ердийнхөөсөө илүү улаан байсан бөгөөд уухад шувууд шиг сэгсгэр толгойгоо дээш өргөөд, жижиг хөлөөрөө сайн Бедуины хажуу руу өршөөлгүйгээр шахаж, арагшаа унасан мэт давхиж, нөгөө жигүүр рүү давхив. эскадриль гэж сөөнгө хоолойгоор гар бууг шалгана гэж хашгирав. Тэр машинаараа Кирстен рүү явав. Штабын ахлагч өргөн, тайван гүүгээ унаж, Денисовын зүг алхав. Урт сахалтай штабын ахлагч урьдын адил нухацтай, зөвхөн нүд нь ердийнхөөсөө илүү гялалзаж байв.

ДАВТАТЫН ТОЛЬ
ОРОС ХЭЛНИЙ ҮНДЭСНИЙ КОРПУС: БҮТЭЭЛИЙН ҮЗЭЛЧИЛГЭЭ, ТЕХНОЛОГИ

ОРОС ҮНДЭСНИЙ КОРПУСЫН ДАВТАМЫН ТОЛЬ: ЗАРЧИМ, ТЕХНОЛОГИ

Ляшевская О.Н. ([имэйлээр хамгаалагдсан] ) , нэрэмжит Орос хэлний дээд сургууль. В.В.Виноградова, Москва
Шаров С.А.
([имэйлээр хамгаалагдсан] ), Их Британи, Лидсийн их сургууль

Энэхүү толь бичиг нь орчин үеийн орос хэлний үндсэн толь бичгийг агуулдаг (2-р хагас XX - XXI зууны эхэн үе олон зуун), ашиглалтын давтамж, текст, төрлөөр статистикийн тархалт, текстийг бүтээх цаг хугацааны талаархи мэдээллээр хангагдсан. Энэхүү толь бичгийг 100 сая үгтэй Орос хэлний үндэсний корпусын бичвэрүүд дээр үндэслэсэн болно.

1. Танилцуулга

Орос хэлний хэд хэдэн давтамжийн толь бичгийг боловсруулсан. Анхдагч нь Г.-ийн толь бичиг байсан.Йоссельсон, 1953 онд Детройт хотод хувьсгалаас өмнөх Оросын хэлний материал дээр хэвлэгдсэн. E.A-ийн толь бичгүүд. Стейнфельд (1963), Л.Н. Засорина (1977), Л.Ленгрен (1993) болон бусад зохиолуудыг харьцангуй бага хэмжээний текстийн цуглуулгад (400 мянга - 1 сая үг) үндэслэн бүтээжээ. их хэмжээгээрЗөвлөлтийн үеийн орос хэлний онцлогийг тусгасан: үгийн давтамж нөхөрТэгээд үдэшлэгТэдгээрийн дотор үйл ажиллагааны үг, үгтэй харьцуулах боломжтой самбайхгүй. Бас байдаг тусгай толь бичгүүд, ялангуяа Э.М.-ийн толь бичиг. Степанова (1976), ерөнхий шинжлэх ухааны үгсийн санд зориулагдсан. Статистикийн толь бичгүүдийн тусдаа салбар нь Пушкин, Достоевский, Грибоедов, Цветаева нарын хэлний толь бичгүүдээс бүрддэг (Виноградов 1956-1961, Шайкевич нар 2003, Поляков 1999, Белякова нар 1996). өгөгдсөн зохиолч.

Шинэ давтамжийн толь бичиг нь бүх нийтийнх юм. Түүний сүүлчийн шууд өмнөх хувилбар нь 15 жилийн өмнө (Леннгрен 1993) гарсан хэдий ч энэ хугацаанд хэл өөрөө болон давтамжийн толь бичиг бэлтгэх технологид ихээхэн өөрчлөлт орсон нь илт байна. Манай толь бичиг нь орчин үеийн үгийн хэрэглээний статистик дүр зургийг (1950-2005), ялангуяа сүүлийн хорин жилийн орон зайг нөхөх, мөн 1950 оноос хойш хэлэнд гарсан өөрчлөлтийг харуулах зорилготой юм.

Уг толь бичгийг 100 сая үгийн багцад үндэслэсэн бол өмнөх толь бичгүүдэд 400 мянгаас 1 сая хүртэлх үгийн хэрэглээний материалд тулгуурласан байдаг. Үндэсний корпус (www.ruscorpora.ru, NKRY 2005) нь текстийн тэнцвэртэй цуглуулгыг агуулдаг тул материалын хамрах хүрээний хувьд илүү төлөөлдөг. янз бүрийн төрөл, төрөл, хэв маяг, түүний дотор гадаадад Оросын улс орнуудаас ирсэн бичвэрүүд. Орчин үеийн орос хэлний дэд корпус дахь текстийн тархалт (1950 оноос хойш). функциональ хэв маяг 1-р хүснэгтэд үзүүлэв уран зохиол 50 гаруй сэдэвтэй (эдийн засаг, санхүү, хууль эрх зүй, аялал жуулчлал гэх мэт) хамаарах бөгөөд тэдгээрийн төрөл зүйл нь хууль тогтоомж, шинжлэх ухааны нийтлэлээс ярилцлага, заавар, зарлал (нийт 100 гаруй төрөл) хүртэл байдаг. Уран зохиолын зохиолд роман, тууж, богино өгүүллэг, эссэ, жүжиг, үлгэр, эссэ, уран зохиолын захидал гэх мэт орно.

Уран зохиол

Сэтгүүл зүй

Бусад уран зохиолын бус

Аман зохиол

Хүснэгт 1. Орчин үеийн орос хэлний дэд корпусын функциональ хэв маяг

Том хэмжээтэйкорпусын хэв маягийн тэнцвэрт байдал нь хамгийн түгээмэл үгсийн найдвартай статистик үр дүнг өгөх урьдчилсан нөхцөл юм: жишээлбэл, пропорцийг хадгалахын зэрэгцээ эдгээр текстийг бусадтай сольсон тохиолдолд эхний 20,000 элементийн найрлага мэдэгдэхүйц өөрчлөгдөхгүй. эсвэл корпусын хэд хэдэн дэд дээжийг харьцуулсан болно. Энэ нь Британи зэрэг бусад 100 сая үндэсний корпорацийн давтамжийн толь бичгийг эмхэтгэсэн туршлагыг харуулж байна., Чех ( Лич нар. 2001, Čermák & Křen 2004), түүнчлэн Испани хэлний корпус (Дэвис 2005) . Мэдээжийн хэрэг, NKR-ийн давтамжийн толь бичиг нь технологийн болон агуулгын хувьд олон талаараа эдгээр дээжийг удирддаг.

2. Корпусын хэмжээ ба түүвэрлэлтийн найдвартай байдал

Орос хэлний одоо байгаа давтамжийн толь бичгүүдийг харьцангуй жижиг корпус дээр барьсан: эхний үеийн компьютерууд корпустай ажиллах боломжгүй байв. илүү том хэмжээтэй. Сонирхолтой нь 1970-аад онд боловсруулсан онолын зөвлөмжүүд (Пиотровский нар 1972) хамгийн их тохиолддог 1600-1700 үгийг найдвартай дүрслэхийн тулд 400 мянган үгийн хэрэглээний корпусыг ашиглахад хангалттай гэдгийг баталсан. Энэхүү аргумент нь статистик, социологид өргөн хэрэглэгддэг итгэлцлийн интервалын тухай ойлголт дээр үндэслэсэн: хэрэв бид энэ түүвэр дэх үйл явдлын түүврийн хэмжээ, туршилтын магадлалыг (өөрөөр хэлбэл манай корпус дахь үгийн давтамж) мэддэг бол бид тооцоолж чадна итгэлийн интервалнийт хүн амд энэ үйл явдлын магадлал (өөрөөр хэлбэл хэлний бүх орон зайд ижил үгийг ашиглах давтамж).

Хүснэгт 2-т Ленгрен, Засорина, Штайнфельд нарын толь бичигт тус тусын үгсийн давтамжийг NKRY болон интернетээс цуглуулсан 150 сая хүнтэй орос хэлний корпусын давтамжтай харьцуулсан жишээг үзүүлэв (сүүлийн талаар Шарофыг үзнэ үү. 2006). Хэдийгээр үгс нь бодох, даалгавар, хайрМэдээжийн хэрэг хэлний цөмд багтдаг (тэдгээр нь жижиг корпорацуудад хамгийн их тохиолддог 200-500 леммын тоонд багтдаг, тэр ч байтугай тэдний давтамж нь нэлээд ялгаатай байдаг); Харьцангуй бага давтамжтай үгсийн давтамж ( бохирдол, судалгаа, хөөрхөн) илүү их хязгаарт хэлбэлздэг. Хэдийгээр интернетийн корпусын бүтэц нь NCR-ээс нэлээд ялгаатай (илүү олон тооны техникийн текст, форум, уран зохиол багатай) боловч тэдгээрийн хоорондох эдгээр нэгжийн давтамжийн ялгаа тийм ч их биш юм.

Лемма

Ленгрен

Зорина

Штайнф.

НКРЯ

Интернет

хүч

бод

1094

1058

бохирдол

даалгавар

сурч байна

хайр

Хөөрхөн

Хүснэгт 2: Бие даасан үгсийн давтамжийн харьцуулалт (сая тохиолдлын дундаж).

Бидний харж байгаагаар энэ тохиолдолд хангалттай хэмжээний хэргийн талаархи онолын зөвлөмжүүд тийм ч найдвартай биш юм. Үүний шалтгаан нь үгийн давтамжийн ердийн Гауссын тархалтын анхны таамаглалд оршдог бөгөөд үүний дагуу үг бүр бүх бичвэрт ижил давтамжтайгаар тохиолддог. Хэрэв текстэнд нэг үг гарч ирвэл хэвийн тархалтЭнэ нь тэнд хоёр дахь удаагаа ашиглах магадлалд нөлөөлөхгүй. Гэвч бодит байдал дээр энэ нь тийм биш юм. Текст бүр өөрийн гэсэн сэдэвтэй бөгөөд энэ текст дэх үгсийг дунджаас хамаагүй илүү ашиглах болно. Хоббитуудын тухай бичвэрт энэ үг байдаг хоббиталь болох олон удаа ашиглах болно функциональ үгс, энэ нь дор хаяж нэг ийм текстийг багтаасан корпус дахь давтамжийг ихээхэн нэмэгдүүлэх болно. Үүний үр дүнд корпусын үндсэн дээр бүтээгдсэн давтамжийн жагсаалт нь түүнийг эмхэтгэх явцад түүнд орсон текстүүдийн онцлогийг тусгасан болно.

Хүснэгт 2-т харьцангуй жижиг корпус дээр бүтээгдсэн давтамжийн толь бичгүүдийн төгс бус байдлыг харуулсан боловч корпусын хэмжээг зүгээр л нэмэгдүүлэх нь үр дүнгийн тогтвортой байдлыг баталгаажуулдаггүй. Давтамжийн толь бичгийн жагсаалтыг тайлбарлахдаа ямар ч корпус нь хичнээн том байсан ч тухайн хэл дээрх хязгааргүй олон тооны текстийн хязгаарлагдмал хэсэг гэдгийг санах хэрэгтэй. Энэ дэд бүлгийн бусад түүвэр нь арай өөр жагсаалт гаргах бөгөөд энэ нь доод давтамжийн элементүүдээр ялгаатай байх болно. Илүү том биетэй, тусгалтай илүүсэдэв, функциональ хэв маяг (BNC эсвэл NKRYA орон сууцны төрөл) нь хамгийн түгээмэл элементүүдийн найдвартай байдлыг хангадаг. Гэсэн хэдий ч текстийн хэмжээг цаашид нэмэгдүүлэх нь тэдгээрийн олон талт байдалд сөргөөр нөлөөлж байна (жишээлбэл, англи хэл дээрх Гига-корпорацыг бий болгох төслүүдийг үзнэ үү. Хятад хэлнүүдМэдээний текстийн тэрбум гаруй үгийн хэрэглээг агуулсан Cieri & Liberman 2002) нь тэдний үгсийн сан нь мэдээний үгсийн сан руу шилжсэнээс ийм байгууллагуудын давтамжийн жагсаалтын найдвартай байдал буурахад хүргэж болзошгүй юм.

Давтамжийн толь бичгийн үүрэг бол үгсийг давтамжаар нь тусад нь ангилахаас гадна хэлний үгийн цөмийг тодорхойлох явдал байдаг тул олон бичвэрт байнга тохиолддог үгсийг үг хэллэгийн зан үйл нь тодорхой болсон үгсээс салгах шаардлагатай байдаг. үгтэй төстэй Норьегагэх мэт энгийн үгсээс 100 дахин их тохиолддог хоббит, мөн давтамжийн жагсаалтад санамсаргүй байдлаар нэг эсвэл өөр байрлалд орсон. Тиймээс Чехийн Үндэсний Корпус нь дундаж бууруулсан давтамж (ARF) гэсэн ойлголтыг ашигладаг бөгөөд үгийн давтамжийг бие даасан үгийн тохиолдлын хоорондох зайгаар хэмждэг (Čermak & Křen 2005). Олон тооны давтамжийн толь бичигт (Леннгрен, Британийн үндэсний корпус, Францын бизнесийн толь бичиг) А.Жуилландын (Juilland et al. 1970) нэвтрүүлсэн D коэффициентийг ашигладаг бөгөөд энэ нь тухайн үг тохиолдох баримт бичгийн тоо болон түүний харьцангуй давтамжийг хоёуланг нь харгалзан үздэг. эдгээр баримт бичиг:


Энд μ нь бүхэл бүтэн корпус дахь үгийн дундаж давтамж, σ нь бие даасан баримт бичигт энэ давтамжийн стандарт хазайлт,n– энэ үг орсон баримт бичгийн тоо.

Ихэнх баримт бичигт гарч буй үгсийн D утга нь 100-д ​​ойрхон, цөөн тооны баримт бичигт байнга гардаг үгсийн хувьд 0-тэй ойролцоо байна. Ленгрений толь бичгийн давтамжийн жагсаалтыг бүр утгаар нь ангилсан байдаг. энэ коэффициентийн үржвэр ба үгийн дундаж давтамж. Энэхүү бүтээлийн онолын байдал тодорхойгүй байгаа тул толь бичгээ үүгээр нь ангилах нь зохимжгүй гэж үзсэн. Гэсэн хэдий ч үг бүрийн хувьд түүний заалт нь хувь хүний ​​хувьд хэр тодорхой болохыг үнэлэх боломжийг олгодог сэдвийн хэсгүүд. Жишээлбэл, Creepy, peculiar, raw гэсэн үгс нь ойролцоогоор байдаг тэнцүү давтамж(Сая үгэнд 21 тохиолдол), гэхдээ тусгай D коэффициент нь 66, raw нь 18, Creepy нь 78 гэсэн үг. сүүлчийн үголон тооны сэдвийн хүрээнд чухал ач холбогдолтой ба (бусад тэгш нөхцөл) төрөлжсөн бус толь бичигт байр олох боломж маш их байна.

3. Толь бичгийн бүтэц

Толь бичгийн тухай ойлголт нь давтамжийн толь бичгийг илүү бүрэн хэмжээгээр илэрхийлсэн "цаасан" хувилбарыг дагалдах цахим хувилбарын хамт нийтлэх явдал юм. Тайлбар толь нь дараах хэсгүүдийг агуулна.

I. Ерөнхий үгсийн сан

lemmas-ийн цагаан толгойн жагсаалт

лемма давтамжийн жагсаалт

Леммүүдийг функциональ хэв маягаар хуваарилах:

Ø уран зохиолын давтамжийн толь бичиг,

Уран зохиолын чухал үгсийн сангийн толь бичиг

Ø сэтгүүлзүйн давтамжийн толь бичиг,

чухал сонин, мэдээний үгсийн толь бичиг

Ø бусад уран зохиолын бус уран зохиолын давтамжийн толь бичиг,

утга учиртай үгсийн сангийн толь бичиг

Ø амьд аман ярианы давтамжийн толь бичиг,

утга учиртай үгсийн сангийн амьд толь бичиг аман яриа

Үгийн хэлбэрийн цагаан толгойн жагсаалт

II. Ярианы хэсгүүд

нэр үгийн давтамжийн жагсаалт

давтамж үйл үгийн жагсаалт

нэр үгийн давтамжийн жагсаалт

Дагалдах үг ба угтвар үгийн давтамжийн жагсаалт

төлөөний үгсийн давтамжийн жагсаалт (төлөөний нэр, нэр үг, үйлчлэлийн үг, угтвар үг)

лемма давтамжийн жагсаалт үйлчилгээний нэгжүүдилтгэлүүд

III. Туслах хүснэгтүүд

хэсэгчилсэн ярианы ангиудын давтамж болон бусад мэдээлэл статистик мэдээлэл

IV . Зөв нэр, товчлол

lemmas-ийн цагаан толгойн жагсаалт

Леммийн цагаан толгойн үсгийн жагсаалт нь леммийн нэр, ярианы хэсэг, леммийн нийт давтамж, үүссэн баримт бичгийн тоо, өөрчлөлтийн коэффициент D. Нийт давтамж нь нэг саяд тохиолдох тоог тодорхойлдог. корпусын үгс, эсвэл ipm (сая үг тутамд тохиолдох тохиолдол). Хэмжээ нь нэлээд ялгаатай байж болох өөр өөр корпус дахь үгийн давтамжийг харьцуулахад хялбар болгох үүднээс үүнийг хийдэг. Жишээлбэл, орчин үеийн орос хэлний 400 мянган үгтэй корпуст хүч гэдэг үг 55 удаа, нэг сая үгтэй корпуст 364 удаа, 100 сая үгтэй корпуст 40598 удаа, том корпуст 55673 удаа тохиолдвол. NKR-ийн 135 сая үг, дараа нь ipm дахь давтамж нь тус тус 137.5, 364.0, 372.06, 412.39 болно. Цахим хэвлэлийн цагаан толгойн үсгийн жагсаалтад хамгийн их тохиолддог 60,000 лемма багтсан болно.

Давтамжаар эрэмблэгдсэн леммийн жагсаалтад леммын нэр, ярианы хэсэг, нийт леммийн давтамж, баримт бичгийн тоо, D хүчин зүйл, давтамжийн тархалтыг арван жилээр харуулав. Давтамжийн жагсаалтад хамгийн их тохиолддог 20,000 лемма багтсан болно.

Функциональ хэв маягийн давтамжийн толь бичгүүдийг уран зохиол, сэтгүүл зүй, бусад уран зохиол, аман ярианы дэд корпусын үндсэн дээр эмхэтгэсэн. Жагсаалтад эдгээр дэд корпусуудын хамгийн түгээмэл 5000 лемма багтсан болно. Текстийн төрөл тус бүрийн хамгийн ердийн леммагийн жагсаалтыг ийм бичвэрүүд болон бусад корпусын леммагийн давтамжийг харьцуулж үзсэний үндсэн дээр тодорхойлсон. Харьцуулах хэмжүүрийн хувьд магадлалын харьцааны шалгуурыг (лог-магадлал) ашигласан бөгөөд дараахь матрицад үндэслэн тооцоолсон.

Дэд корпус

Бусад текстүүд

Бүх бие

Давтамж

a+ b

Хэмжээ


Энэхүү матрицаас G2 магадлалын харьцааны утгыг дараах томъёогоор тооцоолж болно (Rayson & Garside 2000):

Төрөл бүрийн функциональ хэв маягт зориулсан чухал үгсийн сангийн толь бичигт 500 лемма багтдаг.

Үгийн хэлбэрийн цагаан толгойн жагсаалтад 0.1 ipm-ээс их давтамжтай корпусын бүх үгийн хэлбэрүүд (нийт 15 мянга орчим); Үгийн хэлбэрийн ерөнхий давтамжийг өгсөн болно. Ижил утгатай үгийн хэлбэрийг *-ээр тэмдэглэнэ.

"Ярианы хэсгүүд" хэсэгт lemmas-ийн давтамжийн жагсаалтыг нэр, үйл үг, тэмдэг нэр, үйл үг, үйл үг, төлөөний үг, ярианы функциональ хэсэг гэсэн зургаан дэд жагсаалтад хуваадаг. Лемма бүрийн хувьд ерөнхий жагсаалт дахь түүний нийт давтамж, зэрэглэлийг (эргийн тоо) зааж өгсөн болно. Жагсаалт бүр нь хамгийн түгээмэл 1 мянган лемма агуулдаг.

Туслах хүснэгтэд ярианы ангиудын давтамж, дүрмийн бусад категориуд, түүнчлэн лексемийн текстийн хамрах хүрээ, үгийн дундаж урт, үгийн хэлбэр, өгүүлбэрийн талаархи мэдээлэл орно.

Толь бичиг нь зохих нэр, товчлолын цагаан толгойн жагсаалтаар төгсдөг. Зөв нэрсийг толь бичгийн үндсэн хэсгээс тусгаарласан, учир нь тэдгээр нь статистикийн хувьд бага тогтвортой бүлгийг бүрдүүлдэг бөгөөд тэдгээрийн давтамж нь корпус дахь текстийн сонголт, хронотопоос ихээхэн хамаардаг. Ленгрен 1993 он давтамжийн толь бичигт зохих нэрсийг ерөнхийд нь оруулах нь түүнийг эрт хуучирч алдахад хүргэдэг гэсэн байр суурийг илэрхийлжээ.

Корпус конкордантаас зохих нэр, товчилсон үгсийн жагсаалтыг авахын тулд бичвэр дэх зөв бичгийн дүрмийн дагуу нэр үг, товчлолыг тодорхойлсон. том үсэг 95 хувийн босгыг давсан, харна уу. ОХУ, Смирнов, Улсын цахилгаан станц, ГХЯ, Хөдөлмөрийн тухай хууль. Толь бичигт энэ жагсаалтын цөмийн хэсгийг багтаасан бөгөөд хамгийн их тохиолддог 3000 нэгжийг дугаарласан.

Энэ төрлийн хэвлэлд зориулж боловсруулсан уламжлалын дагуу "Сонирхолтой баримтууд" хэсгийг толь бичгийн хуудсан дээр толилуулж байна: янз бүрийн лексик бүлгийн хамгийн алдартай үгсийн жагсаалт (долоо хоногийн өдрүүд, цаг агаарын үзэгдэл, өнгө, үйл үг) хөдөлгөөн гэх мэт) хэвлэгдсэн, мөн хамгийн урт үгийн хэлбэрүүд, цэг таслалуудын давтамжийн жагсаалт зэрэг нийтлэгддэг.

6429

хувцас

2288

нөмрөг

4890

ачаалах

2179

банзал

3696

цув

1904

пальто

3696

цамц

1894

хувцас*

3410

хүрэм

1822

гутал

3396

cap

1668

цамц

3126

ачаалах

1633

жинсэн өмд

3041

алчуур

1585

бээлий

2962

пиджак

1522

үслэг цув

2955

өмд

1356

дүрэмт хувцас

2840

өмд

1251

cap

2686

малгай

1235

цамц

2617

берет

1134

эсгий гутал

Хүснэгт 3: Хувцас, гутлын тэмдэглэгээний давтамжийн жагсаалт.

Жишээлбэл, 3-р хүснэгтэд бид хувцас, гутал гэсэн нэр үгийн давтамжийг үзүүлэв. Таны таамаглаж байгаагаар жагсаалт нь нэг талаас хувцасны шүүгээний элементүүдийн "ердийн шинж чанарыг" тусгасан болно ( эсгий гуталЖагсаалтын ердөө 26-р байрыг эзэлдэг), нөгөө талаас хүний ​​гадаад төрхийг текстэд дүрслэхдээ тэдний "ач холбогдол" ( хувцас-аас илүү мэдрэмжтэй зүйл гутал).

4. Тайлбар толь бичгийн материал бэлтгэх

Үндсэн давтамжийн толь бичгийн жагсаалтыг корпусын метатекст болон лексик-дүрмийн тэмдэглэгээг ашиглан автоматаар авсан. Метатекст мэдээлэлд үндэслэн давтамжийн жагсаалтыг гаргаж, корпусын тусдаа дээж дээр (функциональ хэв маягаар, текст үүсгэх хугацаа) харьцуулсан. Тэмдэглэгээний өөр нэг төрөл болох лексик-грамматик нь үгийн анхны хэлбэр (лемма), ярианы хэсэг, тохиолдол, тоо, цаг гэх мэт дүрмийн шинж чанарыг тогтоох боломжийг олгодог. зөвхөн бие даасан үгийн хэлбэрүүд төдийгүй лексемийн давтамж, түүнчлэн дүрмийн зарим категорийн хэрэглээ. Энэхүү толь бичгийг бүтээхдээ морфологийн ижил төстэй байдлын автомат шийдэл бүхий корпусын лексик-грамматик тэмдэглэгээний хувилбарыг ашигласан.

Орос хэл нь үг хэллэгээр баялаг хэл тул давтамжийн толь бичиг эмхэтгэгчдэд нэмэлт бэрхшээл учруулдаг, учир нь текст дэх олон үгийн хэлбэрүүд ижил утгатай байдаг (үгсийн хэлбэрийг харна уу. ганүйл үгийн хэлбэр болгон болохболон нэр үг ган, үгийн хэлбэр сав, леммауудыг төлөөлдөг банкТэгээд сав, гэх мэт үгс итгэлТэгээд Итгэл). Гэсэн хэдий ч давтамжийн толь бичигт үгийн анхны хэлбэр буюу лемма нь ямар ч үгийн хэлбэрт хоёрдмол утгатай байх ёстой.

Өмнөх үеийн толь бичгүүдэд (Засорина 1977, Ленгрен 1993) ижил нэр томъёог гараар шийдсэн, учир нь боловсруулсан корпусын хэмжээ бага байсан. Энэ шийдэл нь 100 сая хүчтэй хэрэгт тохиромжгүй нь ойлгомжтой. Энэхүү толь бичгийг эмхэтгэхдээ морфологийн анализаторыг өөрчлөх, толь бичгийг өргөжүүлэх, гараар засварлах шаардлагатай болсон Чехийн мэргэжил нэгтнүүдийн туршлагыг харгалзан үзсэн. Эхэндээ NCRY корпусыг Mystem морфологийн анализатороор тэмдэглэсэн (Segalovich, Maslov 1998). Үг зүйн болон дүрмийн тэмдэглэгээний тодорхой бус байдлыг A.V. Сокирко, триграмм загвар болон гар аргаар устгасан ижил нэр бүхий сургалтын дэд корпусыг ашиглан (Сокирко, Толдова 2005).

Мөн толь бичигт үл хамаарах үгс нь лемматжуулалтад ихээхэн бэрхшээл учруулдаг (Lyashevskaya et al. 2007). Хэрэв үг нь морфологийн задлан шинжлэлийн дүрмийн толь бичигт байхгүй бол түүний талаархи нэг буюу хэд хэдэн таамаглалыг түүнд хуваарилдаг. анхны хэлбэрүгс ба түүний дүрмийн шинж чанарууд. Үүний үр дүнд давтамжийн толь бичигт ийм "лемма" багтсан болно талархаж байна(үзнэ үү. Үгийн хэлбэр талархал), Янсни(харьц. Жансен), Барклай(харьц. Барклай). Үүний зэрэгцээ NCRL-д толь бичгийн бус үгийн хэлбэрийн эзлэх хувь нь нийт үгийн хэрэглээний 3%, корпусын үгийн хэлбэрийн жагсаалтын 45% байна. Давтамжийн толь бичиг бус үгийн хэлбэрүүдийн хувьд бид Б.П.-ийн эмхэтгэсэн NKR-ийн морфологийн тэмдэглэгээний дараах боловсруулалтын програмуудыг ашигласан. Кобрицов ба Г.К. Бронников, түүнчлэн О.Н. Ляшевская, Д.К. Бронникова (Ляшевская 2007, Бронникова 2007). Толь бичгийн бус үгсийг лемматжуулах хоёр арга нь хамгийн үр дүнтэй болсон: лемма ба парадигмын төрлийн талаархи таамаглалыг бүлэглэх (үгийн хэлбэрийг задлан шинжлэх нь бусад үг хэллэгүүдэд бас байдаг гэж үздэг. толь бичгийн үгийн хэлбэрүүд, ингэснээр үгийн хэлбэрүүд нь урвуу парадигмд хөршүүдийг "хардаг") ба хамгийн бүтээмжтэй консолуудыг тодорхойлдог.

Автомат ижил нэр томъёог шийдвэрлэх, толь бичгийн бус хэлбэрийг тайлбарлах нь бага ч гэсэн тодорхой алдаа гаргах боломжийг олгодог тул эхний 20 мянган давтамжийн үгэнд орсон ижил утгатай үгсийг нэмэлт гарын авлагын шалгалтанд хамруулсан.

***

Зохиогчид В.А-д талархлаа илэрхийлж байна. Плунгеану, А.Я. Шайкевич, түүнчлэн Е.А. Гришина, B.P. Кобрицова, Е.В. Рахилина, Д.В. Сичинава болон толь бичиг бүтээх зарчмуудын хэлэлцүүлэгт оролцсон NCRY семинарын бусад оролцогчид. Материал цуглуулах, боловсруулахад тусалсан О.Урюпина, Д., Г.Бронниковс, Б.Кобрицов, Yandex ХХК-ийн ажилтан А.Аброскин, Н.Григорьев, А.Сокирко нарт баярлалаа.

О.Г. (комп.). Марина Цветаевагийн яруу найргийн хэлний толь бичиг. 4 боть. М: Марина Цветаевагийн байшин-музей, 1996.

Виноградов V.V. (хариуцлагатай редактор). Пушкины хэлний толь бичиг. Т. I–IV. М., 1956-1961.

Зализняк А.А. Орос хэлний дүрмийн толь бичиг: Флюс. М., 197 7 ; 4-р хэвлэл: М.: Орос хэлний толь бичиг, 2003 он.

Зорина Л.Н. (ред.). Орос хэлний давтамжийн толь бичиг.Москва: Орос хэл, 1977 .

Лённгрен Л. (ред.). Орчин үеийн орос хэлний давтамжийн толь бичиг [Л ө нгрен , Ленарт . Орчин үеийн орос хэлний давтамжийн толь бичиг. Acta Univ. Ups., Studia Slavica Upsaliensia Uppsala 32]. Уппсала, 1993.

Ляшевская O.N.. Толь бичгийн бус үгсийг лекматжуулах асуудлын тухай // Компьютерийн хэл шинжлэл ба оюуны технологи: "Диалог 2007" олон улсын бага хурлын эмхэтгэл. М, 2007.

Ляшевская О.Н., Кобрицов Б.П., Сичинава Д.В. Толь бичгийн бус үгийн хэлбэрт суурилсан толь бичгийн бүтээн байгуулалтыг автоматжуулах // Интернет математик 2007. Екатеринбург., 2007.

NKRY: Орос хэлний үндэсний корпус 2003-2005: Үр дүн ба хэтийн төлөв. М .: Индрик, 2005.

Пиотровский Р.Г., Бектаев К.Б., ПиотровскаяА.А. Математик хэл шинжлэл. М.:төгссөн сургууль, 1972.

Поляков A.E. Цахим толь бичигзохиолчийн хэл (А.С. Грибоедовын хэлний жишээг ашиглан) // Компьютерийн хэл шинжлэл ба түүний хэрэглээний талаархи олон улсын семинарын яриа хэлэлцээ-99. Таруса, 1999. М., 1999.

T. 2. хуудас 230-236. Сегалович И., Маслов М.. Толь бичигт тайлбарлаагүй үгсийн урвуу загварыг бий болгох Оросын морфологийн шинжилгээ, нийлэгжилт // Эмхэтгэлолон улсын семинар

Хэлэлцүүлэг"98 тооцооллын хэл шинжлэл ба түүний хэрэглээний тухай. Казань, 1998. Т.2. 547–552 х. Сокирко А.В., Толдова С.Ю. Орос хэлний лексик болон морфологийн тодорхой бус байдлыг арилгах хоёр аргын үр нөлөөг харьцуулах.Олон улсын хурал. , 2004.

"Корпус хэл шинжлэл 2004". С.-Пб Степанова, 1976 .

Э.М. Шинжлэх ухааны ерөнхий үгсийн сангийн давтамжийн толь бичиг. М. Шайкевич А.Я., Андрющенко В.М., Ребецкая, 2003.

Н.А. Достоевскийн хэлний статистик толь бичиг. М .: Славян соёлын хэл Стейнфельд Э.А.Орчин үеийн Оросын утга зохиолын хэлний давтамжийн толь бичиг., 1963 .

Таллин Чермак Ф., Крэн, 2004 .

M. (ред.). Frekvenční slovník češtiny (Чех хэлний давтамжийн толь бичиг). Прага: NLN Чермак Ф., Крэн М. Шинэ үеийн корпус дээр суурилсан давтамжийн толь бичгүүд:ХэрэгЧехийн //

Корпус хэл шинжлэлийн олон улсын сэтгүүл, 10, 2005, хуудас 453-467.Сүм К.В. Дасан зохицох эмпирик тооцоо: хоёр Норьегагийн боломж нь p 2-оос p/2-т ойрхон байна // 18-р нийтлэл. ХАМТ

Тооцооллын хэл шинжлэлийн бага хурал (COLING). Саарбрюккен, Герман, 2000. Боть. 1. P. 180-186.

Cieri Ch., Liberman M. Хэл шинжлэлийн өгөгдлийн консорциум дахь хэлний нөөцийг бий болгох, түгээх // LREC 02. Лас Палмас, Испани, 2002. 1327-1333 хуудас. Дэвис М., 2005.

Испани хэлний давтамжийн толь бичиг: Суралцагчдад зориулсан үндсэн толь бичиг. Лондон-Н.Ю.: Routledge Josselson H.H. Оросын стандарт утга зохиолын хэл зүйн ангиллын орос хэлний үгийн тоо, давтамжийн шинжилгээ. Детройт: Уэйн, 1953.

Их сургуулийн хэвлэл Juilland A., Brodin D., Davidovitch C. Франц үгсийн давтамжийн толь бичиг. Гааг

- Парис: Моутон, 1970.

Килгарриф А. Толь бичигт давтамж оруулах нь // Олон улсын толь бичгийн сэтгүүл, 10 (2), 1997. P. 135-155. Лич Г., Рэйсон П., Вилсон, 2001.

A. Бичгийн болон ярианы англи хэл дээрх үгийн давтамж: Британийн үндэсний корпус дээр үндэслэсэн. Лондон: Лонгман Рэйсон П., Гарсид Р. Давтамжийн профайлыг ашиглан корпусыг харьцуулах нь // ACL 2000 дахь Корпораг харьцуулах семинарын эмхтгэл.Хонг Конг

, 2000. P. 1-6.

Хэл ярианд хамгийн түгээмэл хэрэглэгддэг үгсийг сонгосон (ихэвчлэн хэдэн мянган дотор). Э.А.Стейнфельдтийн "Орчин үеийн Оросын утга зохиолын хэлний давтамжийн толь" (1963) багш нарт зориулсан гарын авлага болгон хэвлэгджээ. 2500 үг агуулсан уг толь бичигт үгсийн давтамжаар нь жагсаалт, үг хэллэгийн хэсэгчилсэн жагсаалт, зарим хэлбэрийн давтамжийг харуулсан үгсийн жагсаалт, цагаан толгойн үсгийн ерөнхий жагсаалтыг гаргажээ. 1968 онд Ардын найрамдлын их сургуулийн орос хэлний багш нарын бэлтгэсэн "Орос хэлний ярианы хамгийн түгээмэл 2380 үг" толь бичиг хэвлэгджээ. Патрис Лумумба. АНУ-д хэвлэгдсэн давтамжийн толь бичиг нь найрлагын хувьд илүү бүрэн дүүрэн байдаг. Йосселсон (1953), нийт нэг сая орчим үгтэй, 5230 үг агуулсан төрөл бүрийн материал дээр бүтээгдсэн, хоёр жагсаалтад өгөгдсөн; нэгдүгээрт, заасан тооны үгсийг хэрэглээний давтамжийг бууруулах дарааллаар зургаан бүлэгт хуваадаг, хоёрдугаарт, үгсийг дараах байдлаар байрлуулна. цагаан толгойн дараалал, эхний жагсаалтад тухайн үг орсон бүлгийн дугаарыг заана. Энэхүү толь бичгийг үнэлэх, ашиглахдаа судалж буй бичвэрүүдийн бараг тал хувь нь хувьсгалаас өмнөх үеийнх (тэдгээрийн 25% нь 1830-1900 онуудад хамаарах) тул энэ материалаас үүссэн хэл статистикийн дүгнэлтийг анхаарч үзэх хэрэгтэй. олон тохиолдол нь орчин үеийн үгийн хэрэглээг тусгадаггүй. Fr-ийн хоёр давтамжийн толь бичигт тусгай материалыг сонгох боломжтой. Малиржа. Тэдний нэг нь (1951) материал дээр бүтээгдсэн Зөвлөлтийн сонинууд 1948 оны сэтгүүл, өөр нэг (1961) нь Зөвлөлтийн сургуулийн сурагчдаас чехословакчуудад бичсэн захидлын бичвэрт дүн шинжилгээ хийсэн; хоёулаа хөөцөлдөж байна суралцах зорилго. 1970 онд Е.М.Степановагийн найруулгаар “Шинжлэх ухааны ерөнхий толь бичгийн давтамжийн толь”, 1971 онд Г.П.Полякова, Г.Я. Этимологийн толь бичиг. Тэдний гарал үүслийн тайлбар бүхий үгсийг агуулсан толь бичиг. Оросын анхны этимологийн толь бичиг нь "Орос хэлний Корнеслов, бүх гол славян аялгуу, хорин дөрвөн аялгуутай харьцуулахад" байв. гадаад хэл” f. С.Шимкевич (1842). Энэхүү толь бичигт өдөр тутмын орос хэлний үгийн 1378 үндэс агуулагддаг бөгөөд олон тохиолдолд дур зоргоороо харьцуулалт, алдаатай мэдэгдлүүд байдаг. Дараа нь он цагийн дараалалМ.Иеюмовын "Орос хэлний толь бичгийн индо-Европ хэлтэй харьцуулсан туршлага" (1880) байсан бөгөөд энэ нь бас бага түвшинд байсан. онолын түвшин. Н.В.Горяевын (1892) "Орос хэлний харьцуулсан этимологийн толь бичиг" нь буруу тайлбараас ангид боловч чанарын хувьд илүү өндөр байв. Хувьсгалын өмнөх хэвлэлүүдээс хамгийн алдартай нь А.Г.Преображенскийн "Орос хэлний этимологийн толь бичиг" юм (зохиогчийн амьд байх хугацаанд 1910-1916 онд 14 дугаар хэвлэгдэж, хоёр боть болж, эцсийн хувилбар нь 1949 онд " ЗХУ-ын Шинжлэх Ухааны Академийн Орос хэлний хүрээлэнгийн эмхэтгэл" ” толь бичгийг фотомеханик аргаар бүрэн дахин хэвлэв). Энэхүү толь бичигт түгээмэл хэрэглэгддэг олон орос үгс болон зарим зээлсэн үгсийн утгын тайлбарыг багтаасан болно. Эдгээр болон бусад аль алиныг нь анхдагч үг эсвэл язгуурын дагуу бүлэглэв. Ховор үгсийн хувьд ихэвчлэн зохиолчдын эшлэлийг өгдөг. Хэдийгээр толь бичиг нь бүрэн гүйцэд биш бөгөөд бидний цаг үед хуучирсан эсвэл зүгээр л буруу олон тайлбарыг агуулсан боловч уг гарал үүслийн талаархи чухал гарын авлага болж байна. 1961 онд С.Г.Бархударовын найруулгаар Н.М.Шанский, В.В.Иванов, Т.В.Шанская нарын “Орос хэлний товч этимологийн толь бичиг” хэвлэгджээ. Багш нарт зориулсан шинжлэх ухааны түгээмэл гарын авлага болгон хэвлүүлсэн толь бичиг ахлах сургууль, түүнд багтсан орчин үеийн Оросын утга зохиолын хэлний түгээмэл хэрэглэгддэг үгсийн этимологийн тайлбарыг агуулдаг идэвхтэй хувьцаа. Орос үгсийг тайлбарлахдаа үг үүсгэх үйл явцын дарааллыг ихэвчлэн өгдөг (хоёр дахь хэвлэл нь 1971 онд хэвлэгдсэн, гурав дахь хэвлэл нь 1975 онд засч, өргөтгөсөн). Учир нь сургуулийн дадлагаКалинин мужийн хэл шинжлэлийн багийн бүтээсэн "Сургуулийн этимологийн толь бичиг" туршилтанд зориулагдсан. сурган хүмүүжүүлэх дээд сургуульМилейковскаягийн удирдлаган дор 180 үндэс (1957), толь бичиг "Яагаад өөрөөр болохгүй гэж?" Үгсийн амьдралын тухай хөгжилтэй түүхүүдийг агуулсан Л.В.Успенский (1967). 1970 онд Киевт хэвлэгдсэн Г.П.Цыганенкогийн "Орос хэлний этимологийн толь бичиг" гарч ирэв. Энэхүү толь бичиг нь шинжлэх ухааны түгээмэл шинж чанартай бөгөөд уран зохиолын багш, ерөнхий боловсролын сургуулийн сурагчдад зориулсан лавлах хэрэгсэл болно. 1963 оноос хойш "Орос хэлний этимологийн толь бичиг" тусдаа дугаарт хэвлэгдэж эхэлсэн бөгөөд Москвагийн этимологийн албанд ажиллаж байна. улсын их сургуульН.М.Шанскийн удирдлаган дор. Мэргэшсэн филологичдод зориулсан уг толь бичгийг үндсэн найман болон нэмэлт хоёр боть хэлбэрээр хэвлүүлэхээр төлөвлөж байна. хуучирсан үгс. Этимологийн судалгааОрос хэлний чиглэлээр гадаадад ч бас явагддаг. 1950-1958 онд Гурван боть номыг Хайделбергт тус тусад нь хэвлүүлсэн. М.Васмерийн “Оросын этимологийн толь бичиг” (1964-1973 онд орчуулагч О. Н. Трубачевын нэмэлтээр “Орос хэлний этимологийн толь” нэрээр Москвад орос хэл дээр дөрвөн боть хэвлэгдсэн). Энэхүү толь бичиг нь энэ төрлийн толь бичгүүдээс хамгийн өргөн хүрээтэй нь бөгөөд үүнээс гадна агуулагддаг нийтлэг нэр үг, нэлээд олон тооны хүмүүсийн нэрс болон газарзүйн нэрс. Гэсэн хэдий ч толь бичиг нь алдаа, алдаа, үндэслэлгүй харьцуулалтаас ангид биш юм. Одоогоор “Этимологийн толь” олон боть хэвлэгдэж эхлээд байна. Славян хэлүүд. Прото-Славян үгийн санТрубачевын найруулсан ". Эхний дугаар (1974) нь прото-славян үгсийн санг сэргээн засварлах зарчмуудыг тодорхойлсон оршил, лавлагааны жагсаалт, толь бичгийг багтаасан болно. Бичих этимологийн толь бичгүүдНиконовын 4000 орчим нэрсийн гарал үүсэл, хувь заяаны талаархи мэдээллийг агуулсан "Топономикийн товч толь бичиг" -тэй зэрэгцэн оршдог. газарзүйн объектуудЗХУ ба гадаад орнууд (1966), түүнчлэн

Н.А.Петровскийн "Оросын нэрсийн толь бичиг" нь 2600 орчим хүний ​​нэрийг багтаасан бөгөөд тэдгээрийн гарал үүслийн талаархи мэдээлэл (1967), "Оршин суугчдын нэрсийн толь бичиг (РСФСР)" (А. М. Бабкин найруулсан), 6000 орчим нэр багтсан болно. оршин суугчдыг цуглуулсан суурин газруудОХУ-ын болон холбооны бүгд найрамдах улсын нийслэлүүдийн оршин суугчдын нэрс (1964), "ЗХУ-ын оршин суугчдын нэрсийн толь бичиг" (А. М. Бабкин, Е. А. Левашов нарын засварласан), хавсралтад анхны туршлагыг мөн оруулсан болно. гадаад орнуудын хотуудын оршин суугчдын нэрийг цуглуулах (1975).

Давтамжийн толь бичиг нь үгийн давтамжийн тоон шинж чанарыг агуулсан толь бичиг юм; Тэдгээрийн доторх үгс нь тодорхой урттай текст дэх үгсийн хэрэглээний давтамжаас хамааран байрладаг. Энэ бол харьцангуй юм шинэ төрөлдахь толь бичгийн нийтлэлүүд сүүлийн жилүүдэдтоль бичигт шинэ технологи нэвтрүүлсэнтэй холбогдуулан ялангуяа идэвхтэй хөгжиж эхэлсэн.

Давтамжийн толь бичгүүд нь олон тооны ерөнхий онолын болон хэрэглээний асуудлыг шийдвэрлэхэд баялаг материалаар хангадаг. хэл шинжлэлийн асуудлууд, тэдгээр нь боловсролын толь бичиг эмхэтгэх, сурах бичиг боловсруулах, текстийн хэл шинжлэл, арга зүйн дасан зохицоход зайлшгүй шаардлагатай.

Оросын хэл шинжлэлийн анхны давтамжийн толь бичиг нь Е.А. Штайнфельдт, материалаас эмхэтгэсэн орчин үеийн уран зохиол, хэвлэл мэдээллийн хэрэгсэл, радио нэвтрүүлэг (XX зууны 50-60-аад он) болон үндсэндээ орос хэлийг төрөлх бус хэл болгон багш нарт хандсан. Энэ нь 400,000 үгийн текстийг боловсруулснаар олж авсан үгийн давтамжийн өгөгдлийг харуулж байна. Уг толь бичиг нь янз бүрийн текстийн 80 хүртэлх хувийг хамарсан үгсийг агуулдаг. Хэрэглээний тооны ердийн заалтаас гадна тухайн үгийг тэмдэглэсэн текстийн тоог өгдөг. Өгсөн статистик шинж чанаруудзарим морфологийн ангилал. Э.А. Стейнфельдт олон боловсролын тайлбар толь бичиг, хамгийн бага толь бичгүүдийг эмхэтгэх үндэс суурь болсон.

"Орос хэлний давтамжийн толь бичиг" Л.Н. Засорина бол орчин үеийн орос хэлний лексик найрлагын талаархи статистик мэдээллийн цуглуулга юм. Толь бичгийг арга хэрэгслээр боловсруулсны үндсэн дээр эмхэтгэсэн компьютерийн технологи 1 сая үгийн хэрэглээ; энэ нь зөвхөн уран зохиолын хэлээр зогсохгүй сэтгүүлзүйн болон бизнесийн яриа, олон нийтийн харилцааны салбарт байсан. Толь бичгийн он цагийн хүрээ нь "Ленин, Горькийн бүтээлээс 60-аад он хүртэлх эрин үеийг хамарсан" тул судлаачид үгсийн санг судлах үнэ цэнэтэй материалыг олж авдаг. Зөвлөлтийн үе. Цагаан толгойн үсгийн давтамжийн толь бичигт текстээс олдсон бүх лексемийг багтаасан бөгөөд лексик нэгж бүр нь тоон шинж чанартай байдаг. Давтамжийн толь бичигт 10 ба түүнээс дээш давтамжтай, нийт 9044 нэгж давтамжийн буурах дарааллаар байрлуулсан үгс багтсан байна. Үгийн сангийн нэгжийн янз бүрийн статистик шинж чанарууд нь орос хэлний үгсийн сангийн статистик бүтцийг судлах, үндсэн үгсийн сангийн хил хязгаарыг тодорхойлох үндэс суурийг бүрдүүлдэг. Хавсралт нь том хэмжээтэй байна практик ач холбогдоломограф ба дүрмийн ижил нэрсийн жагсаалт.

Орчин үеийн мэдээллийн сан нь давтамжийн толь бичгийг хөгжүүлэхэд хүчтэй түлхэц өгсөн. О.Н.Ляшевская, С.А.Шаров нарын "Орчин үеийн орос хэлний давтамжийн толь бичиг" нь 1950-2007 оны орчин үеийн орос хэлийг төлөөлсөн Орос хэлний үндэсний корпусын бичвэрүүдийн цуглуулгад үндэслэсэн болно. Толь бичгийн ихэнх хэсгийг үндэслэсэн түүврийн хэмжээ нь 92 сая үгийн хэрэглээ юм. Энэхүү толь бичигт 50 000 нийтлэг нэр үг, 3 000 зөв нэр, товчлолын тухай статистикийн төрөл бүрийн мэдээлэл багтсан байна. Сэтгүүл зүй, аман яриа болон бусад функциональ хэв маягт хамаарах үгсийн сангийн давтамжийн жагсаалт, түүнчлэн ярианы бусад хэсгүүдийн хамгийн түгээмэл нэр, нэр үг, үйл үг, үгсийн жагсаалтыг энд оруулав. Толь бичгийн цахим хувилбарыг Орос хэлний хүрээлэнгийн цахим хуудсанд нийтэлсэн байна. В.В.Виноградовын нэрэмжит Оросын Шинжлэх Ухааны Академи (http://dict.ruslang.ru).

А.В.Венцов, Е.В.Грудева нарын "Орос хэлний үгийн хэлбэрийн давтамжийн толь бичиг" төсөл нь орос хэлний давтамжийн толь бичгийг эмхэтгэх түүхэн дэх анхны лексем биш, харин үгийн хэлбэрийг тохиолдлын давтамжаар нь цэгцлэх анхны оролдлого юм. Энэхүү толь бичгийг Оросын утга зохиолын хэлний нэг сая хүний ​​корпусын үндсэн дээр (www.narusco.ru) эмхэтгэсэн. Төсөл танилцуулж байна бүрэн тайлбартоль бичиг, түүний үндсэн хэсгүүдийг хязгаарлагдмал сонголттой хэлбэрээр.

"Давтамжийн сэдэвчилсэн толь бичиг" -д Хотын нийтийн тээвэр 44 » Г.А. Мартинович корпусаас гаргаж авсан 74,521,000 үгийн хэрэглээний нэг ойлголтын тархалт-статистикийн шинжилгээний үр дүнг танилцуулав. Оросын сонинуудОрос хэлний хүрээлэнгийн Орос хэлний машин сангийн тэнхим. В.В.Виноградов, 1997 оны Оросын 9 сонины текстээс 29500 жишээ.

Олон тооны давтамжийн толь бичгүүд нь хэрэглээний шинж чанартай бөгөөд голчлон орос хэлний хөтөлбөр, хамгийн бага толь бичиг, сурах бичиг эмхэтгэгчдэд зориулагдсан болно. Тэдгээрийн зарим нь түгээмэл хэрэглэгддэг үгсийн санг бүртгэдэг бол зарим нь үгийн сангийн тусгай буюу төрөл, хэв маягийн тодорхой хэсэгтэй холбоотой байдаг.

"Орчин үеийн орос хэлний давтамжийн толь бичиг" П.И. Charakose нь хоёр хэсгээс бүрдэх бөгөөд эдгээр нь өөр өөр давтамжтай, өөр өөр хэлээр хийгдсэн хоёр өөр толь бичиг юм ярианы материал: нэг нь бага сургуулийн сурах бичгийн текст дээр, нөгөө нь хүүхдийн ярианы материал дээр. Эхний хэсэгт 15 сурах бичгийн нийт үгийн хэрэглээний 91.6%-ийг бүрдүүлсэн 5025 үг орсон байна. Үгсийг давтамж, цагаан толгойн үсгийн жагсаалтаар үзүүлэв. Хоёрдахь хэсэгт хүүхдийн өдөр тутмын ярианы 2830 үгийг давтамж, цагаан толгойн дарааллаар байрлуулсан болно.

"Орос хэлний ярианд хамгийн их хэрэглэгддэг 2830 үг" толь бичиг нь орчин үеийн ярианы хамгийн түгээмэл үгсийн гол цөмийг тусгасан болно; соронзон хальсанд бичигдсэн амьд ярианы дүн шинжилгээнд үндэслэн эмхэтгэсэн (1964-1966 он). Цуглуулсан материалын нийт хэмжээ нь 400,000 үгийн хэрэглээ юм. Жагсаалтыг цагаан толгойн үсгийн дарааллаар болон түгээмэл байдлаар хоёр хувилбараар танилцуулж байна.

"Орос хэл дээрх хамгийн түгээмэл үгсийн жагсаалт" З.П. Даунене нь төрөл бүрийн материалд үндэслэн эмхэтгэсэн орос хэлний эхний мянга 13 давтамжийн толь бичиг, жагсаалтын үгсийг багтаасан болно. Жагсаалтад 3917 үг багтсан бөгөөд үүнд чухал ач холбогдолтой болон функциональ үгс багтсан болно. Үг бүрийн хажууд түүнийг тэмдэглэсэн эх сурвалж, эдгээр эх сурвалжийн тоог зааж өгсөн нь хамгийн түгээмэл үгсийн санг тодруулах боломжийг олгодог.

“Сонины хэлний давтамжийн толь бичиг”-т Г.П. Полякова, Г.Я. Солганик 200,000 үгийн урттай сонины дугаарт 12-оос доошгүй давтамжтай 1997 үгийг оруулсан байна. Толь бичигт сонины текстийн дунджаар 80-83 хувийг эзэлдэг давтамж багассан үгсийн ерөнхий жагсаалтыг гаргажээ.

"Оросын шинжлэх ухаан, техникийн толь бичгийн иж бүрэн давтамжийн толь бичиг" P.N. Денисова нар Оросын шинжлэх ухаан, техникийн уран зохиолын хамгийн түгээмэл 3047 үгсийн жагсаалтыг (давтамж, цагаан толгойн үсгийн дараалал, ярианы хэсгүүдээр бүлэглэсэн), түүнчлэн хэл зүйн зарим үзэгдлийн тархалтыг дүгнэх боломжийг олгодог хүснэгтүүдийг агуулдаг. шинжлэх ухаан, техникийн уран зохиолын хэл.

“Шинжлэх ухааны ерөнхий үгсийн сангийн давтамжийн толь бичиг”-т 2074 үг орсон байна. Энэхүү толь бичиг нь 400,000 үгтэй (үгсийн хэлбэр) текст дээр үндэслэсэн болно. Эх сурвалжууд нь математик, физик, хими, биологи, анагаах ухаан, геологи, газарзүй гэсэн зургаан салбар дахь их дээд сургуулиудад зориулсан сурах бичиг байв. Эх сурвалж бүрээс 2000 үгийн хэлбэр агуулсан нэг хэсгийг авсан. Ийм 200 дээжийг шинжилсэн байна. Үгсийг давтамж, цагаан толгойн үсгийн жагсаалтаар үзүүлэв.

Морковкины редактороор бүтээгдсэн "Орос хэлний лексик минимум" ном нь нэгтгэсэн, нэгтгэсэн хэвлэмэл бүтээл юм. Энэхүү толь бичиг нь "Орос хэлний үндсэн бүтцийн лексик нэгжүүд" гэсэн жагсаалтаар нээгдэж, тэдгээрийн үйл ажиллагааг хангах бүрэн бус үг, хэллэгийг нэгтгэсэн болно. бүрэн үгсмөн текстийн модаль бүтцийг бүрдүүлэх (жишээлбэл, байх, хэлбэрээр, үүднээс, зүгээр л, даруй, гадна, үнэндээ, ийм байдлаар, хэдий ч, бүхэлд нь гэх мэт). Орчин үеийн орос хэлний лексикийн цөмийг хамарсан хэмжээ нэмэгдэж буй үгсийн жагсаалтыг доор харуулав: 1) хамгийн түгээмэл орос хэлний 500 үг, 2) хамгийн түгээмэл орос хэлний 1000 үг, 3) 1500 үг, 4) 2000 үг, 5) 2500 үг. , 6) 3000 үг, 7) 3500 үг. Номын гурав дахь хэсэг нь сэдвийн толь бичиг- орчин үеийн орос хэлний доод хэмжээ, зорилго нь ярианы үйл ажиллагааны үр бүтээлтэй төрлийг хангахад шаардлагатай орос хэлний хамгийн чухал үгсийн багцыг оновчтой зохион байгуулах, танилцуулах явдал юм. Номын чухал хэсэг бол 8 давтамжийн толь бичгийн дагуу орос хэл дээрх хамгийн түгээмэл үгсийн харьцуулсан болон ерөнхий утгыг харуулсан хэсэг юм. Иймд толь бичиг нь сурах бичиг эмхэтгэх, ном унших, бэлтгэхэд оролцдог арга зүйч, орос хэлний багш нарт үнэ цэнэтэй хэрэглүүр юм. практик материалболовсролын ажилд зориулагдсан.

Давтамжийн толь бичгүүдийн дунд тусгай байрыг автомат мэдээлэл хайх системд ашиглаж болох толь бичгүүд эзэлдэг. Ийнхүү мэдээлэл хайх асуудлыг шийдвэрлэх зорилгоор "Давтамжийн индексжүүлэлтийн толь бичиг" (Л.В. Сахарный найруулсан) эмхэтгэсэн. Толь бичгийн материал нь цахилгаан хэмжих хэрэгслийн 1660 хураангуй (нийт 105 мянга орчим үгийн хэрэглээ) байв. Толь бичиг зохиох зарчим нь мэдлэгийн аль ч салбарт хамааралтай. Энэхүү толь бичиг нь толь бичгийн шинэ нэгж болох гиперлексем (хэлбэрийн нэг буюу өөр хэсгүүдийн ижил үндэстэй, хувирах, үүслийн харилцаагаар харилцан уялдаатай лексемийн тодорхой багц) дээр үндэслэсэн болно. инерци, инерци, инерци ; шүд, шүд, шүдтэй, шүдтэй). Толь бичигт гиперлексемүүдийг давтамжийн дагуу байрлуулсан байдаг.

"Орос хэлний семантик хүчин зүйлийн давтамжийн толь бичиг" Ю.Н. Караулова нь орчин үеийн Оросын утга зохиолын хэлний тайлбар толь бичгүүдийн тодорхойлолтод үндэслэн эмхэтгэсэн. Үүнд тоолох нэгжүүд нь тодорхойлолтын бүрэлдэхүүн хэсэг болох бүрэн утгатай үгсийн сегмент хэлбэрээр гарч ирдэг семантик хүчин зүйлүүд юм. Статистикийг тусгах ба семантик бүтэцтайлбар толь бичгүүдийн баруун талд байгаа давтамжийн толь бичгийг лексик семантикийн чиглэлээр судалгаа хийх, мөн толь бичиг зүй, мэдээлэл хайх практикт ашиглаж болно. Танилцуулга өгүүлэл нь орос хэлний тезаурусыг автоматаар байгуулахдаа үгсийн утгын холбоог олохын тулд толь бичгийг ашиглах боломжийг харуулж байна.

Б.В.Кривенкогийн "Олон нийтийн харилцааны хэлний давтамжийн толь бичиг" нь зөвхөн бичмэл текстээс (Комсомольская правда сонин, бүс нутгийн сонинууд) төдийгүй ярианы хэллэгээс (радио, телевиз, киноны мэдээ) материалд суурилсан давтамжийн толь бичиг гаргах анхны оролдлого юм. ). Уг толь бичигт 1965-1985 онуудад гарсан сонин, радио, телевизийн мэдээний хэлний үгийн сангийн синхрон дүр төрхийг харуулсан болно. Текстийн түүврийн нийт урт нь 71,164 үгийн тохиолдол юм. Уг толь бичигт үгийн жагсаалтыг давтамжийн буурах дарааллаар, үгсийн жагсаалтыг цагаан толгойн дарааллаар оруулсан болно. Хамгийн түгээмэл үгсийн жагсаалтын эхний байруудыг (үйл ажиллагааны үг, төлөөний үгийг эс тооцвол) үгс эзэлдэг. жил, ажил, улс, өдөр, нэгдэл, бизнес, цаг, нам, шинэ, зөвлөл, ажилчин, Зөвлөлт, хүмүүс, дүүрэг, өнөөдөр, хот, байгууллага, хүн, дарга, нарийн бичгийн дарга, том, бүс нутаг, нэр, дэлхий, бүгд найрамдах улс , төлөвлөгөө.Арга хэрэгслийн хэл дээрх үгсийн давтамж олон нийтийн мэдээллийн хэрэгсэлЗөвлөлтийн улс төрийн ярианы онцлог, ЗХУ-ын үеийн үзэл суртлын багцыг төгс тусгасан. "Оросын сонины статистик толь бичиг" А.Я. Шайкевич нар 90-ээд оны сонины үгсийн сангийн тухай ойлголтыг өгдөг. XX зуун О.В.Голованы толь бичиг ижил зорилгыг баримталдаг.

Давтамжийн судалгаа лексик нэгжзохиолчийн хэл, хэв маягийн онцлогийн талаар чухал дүгнэлт гаргах боломжийг танд олгоно. Сүүлийн жилүүдэд хэлний давтамжийн толь бичиг олноор хэвлэгдэж байгаа нь тохиолдлын хэрэг биш юм урлагийн бүтээлүүдОросын зохиолч, яруу найрагчид ("Зохиогчийн толь бичиг" хэсгийг үзнэ үү).

Вентсов Л.В., Грудева Е.В. Орос хэлний үгийн хэлбэрийн давтамжийн толь бичиг: төсөл. Череповец: Череповец, муж. их сургууль, 2008. 204 х.

Голован О.В. Давтамжийн толь бичиг орчин үеийн хэлхэвлэл мэдээллийн хэрэгсэл: сургалтын гарын авлага. Барнаул: Алт хэвлэлийн газар. муж технологи. нэрэмжит их сургууль I.I. Ползунова, 2006. 622 х.

Граудина Л.К., Ицкович В.А., Катлинская Л.П. Грамматик өөрчлөлтүүд: давтамжийн толь бичгийн туршлага / Рос. акад. Шинжлэх ухаан, Хэл зохиолын хүрээлэн, Эрдэм шинжилгээ. М.: Наука, 1971. 102 х.

Денисов П.Н., Морковкин В.В., Сафян Ю.А. Оросын шинжлэх ухаан, техникийн үгсийн сангийн давтамжийн иж бүрэн толь бичиг. М.: Орос хэл, 1978. 406 х.

Караулов Ю.Н. Орос хэлний семантик хүчин зүйлийн давтамжийн толь бичиг / resp. ed. С.Г. Бархударов. М.: Наука, 1980. 207 х.

Цогцолбор боловсролын толь бичиг. Орос хэлний лексик үндэс: / В.В.Морковкин, Н.О. Боем, I.A. Дорогонова, Т.Ф. Иванова, И.Д. Успенская; засварласан V.V. Морковкина. М.: ACT, 2004. 880 х. .

Кривенко Б.В. Олон нийтийн харилцааны хэлний давтамжийн толь бичиг. Воронеж: Воронежийн хэвлэлийн газар, Их сургууль, 1992. 218 х.

Кудашева М.А., Левина Р.И. Геологи, минералоги, талстографи, геодези зэрэгт хамгийн түгээмэл нэр томъёоны давтамжийн толь бичиг: сурах бичиг. Л.: Ленинград. нэрэмжит Уул уурхайн дээд сургууль Г.В.Плеханова, 1974. 29 х.

Орчин үеийн орос хэлний лексик минимумууд / В.В. Морковкин, Ю.А. Сафян, Э.М. Степанова, И.В. Дорофеева; засварласан В.В. Морковкина; Орос хэлний хүрээлэн хэл тэд. А.С. Пушкин. М.: Орос хэл, 1985. 608 х.

Орос хэлийг гадаад хэлний лексик доод тал нь: үндсэн түвшин: нийтлэг эзэмшил / Comp. Н.П. Андрюшина, Т.В. Козлова.

4-р хэвлэл, илч. болон нэмэлт Санкт-Петербург: Златоуст, 2004. 111 х. (Орос хэл дээр гадаад хэлээр шалгалт өгөх). [2001 онд мөн адил].

Орос хэл дээрх лексикийн доод хэмжээ: хоёр дахь гэрчилгээний түвшин: ерөнхий ур чадвар / бүрдэл. Н.П. Андрюшина (хариуцлагатай редактор) [болон бусад]. 3-р хэвлэл. Санкт-Петербург : Златоуст, 2011. 162 х. (Орос төрийн тогтолцоогадаад улсын иргэдийг орос хэлээр шалгах). [2009 онд мөн адил].

Орос хэл дээрх лексикийн доод хэмжээ: эхний гэрчилгээний түвшин: ерөнхий ур чадвар / comp. Н.П. Андрюшина (хариуцлагатай редактор) [болон бусад]. 5-р хэвлэл, Илч. болон нэмэлт SPb.: Златоуст,

2011. 195 х. (Гадаад улсын иргэдийг орос хэлээр шалгах Оросын төрийн систем). [2002, 2005 онуудад мөн адил].

Орос хэлийг гадаад хэлний лексик доод тал нь: анхан шатны түвшин: ерөнхий мэдлэг / бүрдэл. Н.П. Андрюшина, Т.В. Козлова. 4-р хэвлэл, илч. Санкт-Петербург : Златоуст, 2012. 79 х. (Орос хэл дээр гадаад хэлээр шалгалт өгнө). [2000, 2004 онд мөн адил].

Ляшевская О.Н., Шаров С.А. Орчин үеийн орос хэлний давтамжийн толь бичиг (Орос хэлний үндэсний корпусын материалд үндэслэсэн) [50,000 нийтлэг нэр үг, 3,000 нэр, товчлолын статистик мэдээлэл] / Рос. акад. Оросын шинжлэх ухааны хүрээлэн. хэл тэд. В.В.Виноградова. М.: Азбуковник, 2009. 1087 х.

Мартинович Г.А. "Хотын нийтийн тээвэр" давтамжийн сэдэвчилсэн толь бичиг. Санкт-Петербург : Филол. хуурамч. Санкт-Петербург муж их сургууль

Полякова Г.П., Солганик Г.Я. Сонины хэлний давтамжийн толь бичиг. М .: Моек хэвлэлийн газар. муж Их сургууль, 1971. 281 х.

Сафян Ю.А. Оросын техникийн үгсийн сангийн давтамжийн толь бичиг. Ереван: Барцрагуйн дпроц, 1971. 128 х.

Орчин үеийн орос хэлний лексик минимумын систем: 10 лексик жагсаалт: 500-аас 5000 хүртэлх орос хэлний хамгийн чухал үг / Улс. Орос улс. хэл тэд. А.С. Пушкин; comp. Т.Ф. Богачева, Н.М. Луцкая, В.В. Морковкин, З.П. Попова; засварласан В.В. Морковкина. М .: Astrel: ACT, 2003. 768 х.

Орос хэл дээрх хамгийн түгээмэл үгсийн жагсаалт / Comp. Л.Г. Вишнякова, З.П. Даунен, Т.П. Ишанова, Р.М. Нефёдова; ерөнхий дор ed. З.П. Даунен. М .: Академич. ped. ЗХУ-ын шинжлэх ухаан, эрдэм шинжилгээний хүрээлэн, профессор. орос. хэл үндэсний хэмжээнд сургууль, 1974. 160 х.

Тер-Мисакянц 3. Т. Математикийн үгсийн сангийн давтамжийн толь бичиг / ред. В.М. Григорян, Р.С. Манучарян. Ереван: Ереван, муж. Их сургууль, 1973. 67 х.

Харакоз П.И. Орчин үеийн орос хэлний давтамжийн толь бичиг. Фрунзе: Мектеп, 1971. 180 х.

Геологийн үгсийн сангийн давтамжийн толь бичиг: сурах бичиг / эмхэтгэл. V.I. Рубкалева, М.А. Кудашева, Е.М. Val [гэх мэт]; шинжлэх ухааны ed. V.I. Рубкалева. Л.: Ленинград. нэрэмжит Уул уурхайн дээд сургууль Г.В.Плеханова, 1973. 64 х.

Давтамжийн индексжүүлэх толь бичиг / ерөнхий . ed. L.V. Сахарный.

Перм: Пермийн хэвлэлийн газар. Их сургууль, 1974. 828 х.

Шинжлэх ухааны ерөнхий үгсийн сангийн давтамжийн толь бичиг / Comp. М.И. Зыкина, В.И. Крупчанова, М.М. Нахабина [id.]; засварласан Э.М. Степанова. М .: Моек хэвлэлийн газар. муж Их сургууль, 1970. 87 х. Орос хэлний давтамжийн толь бичиг [40,000 орчим үг] / ed. Л.Н. Засорина; comp. В.А. Аграев, В.В. Бородин, Л.Н. Засорина, В.М. Муратова, Е.В. Тисенко; мэргэжилтэн. шинжлэх ухааны ed. М.И. Привалова. М.: Орос хэл, 1977. 934 х.

Шайкевич Л.Я., Андрющенко В.И., Ребецкая Н.А. Оросын сонины статистик толь бичиг: (1990-ээд он) / Рос. акад. Оросын шинжлэх ухааны хүрээлэн. хэл тэд. V.V. Виноградова. М.: Славян соёлын хэл: нийтлэгч А.Кошелев, 2008. T. 1. 578 х. (Studia philologica).

Шилова Г.Е., Стернин И.А. Давтамжийн толь бичиг гадаад үгс: (сэтгүүл зүйн материалд үндэслэсэн) / Воронеж, муж. Их сургууль, Бүс хоорондын, Харилцаа холбооны төв. судалгаа Воронеж: Истоки, 2005. 126 х. Steinfeldt E.A. Орчин үеийн Оросын утга зохиолын хэлний давтамжийн толь бичиг: Орос хэлний багш нарт зориулсан лавлах ном / Ed. В.А. Ицкович. М.: Прогресс, 1973. 228 х. .

Шурпаева М.И. Дагестаны үндэсний сургуулийн бага ангиудад зориулсан ярианы үйл ажиллагааны төрлөөр орос хэлний хамгийн бага толь бичгийг ялгасан. Махачкала: Дагучпедгиз, 1982. 153 х.

053-Ljashevskaja-SharovSA:_Layout 1 2008.05.13 22:07 Хуудас 345 "Диалог 2008" олон улсын бага хурлын эмхэтгэл ОРОС ХЭЛНИЙ ХЭЛНИЙ ТОДОРХОЙЛОЛТЫН ҮНДЭСНИЙ КОРПУСИЙН ДАВТАМЫН ТОЛЬ: ОРОС ҮНДЭСНИЙ КОРПУСЫН ТОЛЬ : ЗАРЧИМ, ТЕХНОЛОГИ Ляшевская О.Н. ( [имэйлээр хамгаалагдсан]), нэрэмжит Орос хэлний дээд сургууль. V.V. Виноградов РАС Шаров С.А. ( [имэйлээр хамгаалагдсан]), Лийдсийн их сургууль, Их Британи Толь бичигт орчин үеийн орос хэлний үндсэн толь бичиг (20-р хагас - 21-р зууны эхэн) багтсан бөгөөд хэрэглээний давтамжийн талаархи мэдээллээр тоноглогдсон, статистикийн тархалт бичвэр, төрлөөр, текстийг бүтээх цаг. Энэхүү толь бичиг нь 100 сая үгтэй Орос хэлний үндэсний корпусын бичвэрүүд дээр үндэслэсэн болно. Орчин үеийн орос хэлний дэд корпусын функциональ хэв маяг Корпусын том хэмжээ, хэв маягийн тэнцвэрт байдал нь хамгийн түгээмэл үгсийн найдвартай статистик үр дүнг өгөх урьдчилсан нөхцөл юм: жишээлбэл, эхний 20,000 элементийн найрлага нь мэдэгдэхүйц өөрчлөгдөхгүй. , пропорцийг хадгалахын зэрэгцээ эдгээр бичвэрийг бусад бичвэрүүдээр сольж эсвэл корпусын хэд хэдэн дэд дээжийг харьцуулна. Үүнийг бусад 100 сая 345 053-Ljashevskaja-SharovSA:_Layout 1 05/13/2008 22:07 Хуудас 346 Ляшевская О.Н., Шаров С.А. Лемма Ленгрен Засорина Штайнф. NKRY Интернет хүч 202 364 138 422 428 бодож 609 1094 1058 865 818 бохирдол 69 1 0 9 11 даалгавар 499 421 250 228 292 судалгаа 193 110 065 тайрах 895 e 58 242 135 129 110 Хүснэгт 2. Давтамжийн харьцуулалт бие даасан үгсийн (сая үгийн хэрэглээний дундаж). Давтамжийн толь бичгийн ажил нь зөвхөн тодорхой нэг бүлэг дэх үгсийг давтамжаар нь эрэмбэлэх биш, харин хэлний лексикийн цөмийг тодорхойлох явдал тул олон бичвэрт байнга гардаг үгсийг лексик шинж чанар нь тодорхойлогддог үгсээс салгах шаардлагатай байдаг. Норьега эсвэл Хоббиттой төстэй бөгөөд давтамжийн жагсаалтад санамсаргүй байдлаар нэг эсвэл өөр байрлалд орсон. Тиймээс Чехийн Үндэсний Корпус нь дундаж бууруулсан давтамж (ARF) гэсэн ойлголтыг ашигладаг бөгөөд үгийн давтамжийг бие даасан үгийн тохиолдлын хоорондох зайгаар хэмждэг (Čermak & Křen 2005). Олон тооны давтамжийн толь бичигт (Леннгрен, Британийн үндэсний корпус, Францын бизнесийн толь бичиг) А.Жуилландын (Juilland et al. 1970) нэвтрүүлсэн D коэффициентийг ашигладаг бөгөөд энэ нь тухайн үг орсон баримт бичгийн тоо болон түүний харьцангуй давтамжийг хоёуланг нь харгалзан үздэг. эдгээр баримт бичигт: μ нь корпус дахь үгийн дундаж давтамж, σ нь бие даасан баримт бичигт энэ давтамжийн стандарт хазайлт, n нь энэ үг тохиолддог баримт бичгийн тоо юм. их боломжтөрөлжсөн бус толь бичгийн газар руу. 3. Толь бичгийн бүтэц Толь бичгийн тухай ойлголт нь давтамжийн толь бичгийг илүү бүрэн хэмжээгээр илэрхийлсэн “цаасан” хувилбарыг дагалдах цахим хувилбарын хамт хэвлүүлэхийг хэлнэ. Тайлбар толь нь дараах хэсгүүдээс бүрдэнэ: I. ● lemmas-ийн цагаан толгойн жагсаалт ● lemmas-ийн давтамжийн жагсаалт ● lemmas-ыг функциональ хэв маягаар хуваарилах: уран зохиолын давтамжийн толь, уран зохиолын чухал үгсийн толь, сэтгүүлзүйн давтамжийн толь, чухал сонин, мэдээний үгсийн толь, бусад уран зохиолын давтамжийн толь уран зохиол, чухал үгсийн сангийн толь бичиг, амьд аман ярианы давтамжийн толь бичиг, амьд аман ярианы чухал үгсийн сангийн толь бичиг ● үгийн хэлбэрийн цагаан толгойн үсгийн жагсаалт II. Ярианы хэсэг ● нэр үгийн давтамжийн жагсаалт ● үйл үгийн давтамжийн жагсаалт ● үйл үгийн давтамжийн жагсаалт ● үйл үгийн давтамжийн жагсаалт ● үйл үгийн давтамжийн жагсаалт ● үйл үгийн давтамжийн жагсаалт. III. Туслах хүснэгтүүд 347 053-Ljashevskaja-SharovSA:_Layout 1 05/13/2008 22:07 Хуудас 348 Lyashevskaya O.N., Sharov S.A. Үгийн хэлбэрийн цагаан толгойн жагсаалтад 0.1 ipm-ээс их давтамжтай корпусын бүх үгийн хэлбэрүүд (нийт 15 мянга орчим); Үгийн хэлбэрийн ерөнхий давтамжийг өгсөн болно. Ижил утгатай үгийн хэлбэрийг *-ээр тэмдэглэнэ. Энэ жагсаалт нь нэг талаас хувцасны шүүгээний элементүүдийн "ердийн шинж чанар" (эсгий гутал жагсаалтад ердөө 26-р байр эзэлдэг), нөгөө талаас хүний ​​гадаад төрхийг текстэд дүрслэх "ач холбогдол" -ыг тусгасан болно. (костюм нь гуталнаас илүү тусдаа зүйл юм). Үүний үр дүнд давтамжийн хувьд - Лемматизацийн 3 зарчим, ярианы хэсгүүдийн бүтцийг корпусын морфологийн стандартаар (NCRY 2005) тодорхойлдог бөгөөд энэ нь ерөнхийдөө Орос хэлний дүрмийн толь бичгийн зарчимд нийцдэг (Зализняк 1977). ). Лемматизацийн зарим онцлог нь өгөгдөл цуглуулах нь үндсэндээ автоматаар явагддагтай холбоотой юм. Зөвхөн үг бүрээр тэмдэглэгээг харгалзана гэдгийг анхаарна уу: Ерөнхий үгсийн сантогтвортой хурд , нийлмэл угтвар үг болон бусад нэг үггүй үгийн сангийн нэгжүүд (харьц., дотор, гэхдээ бие биенээ) толь бичигт оруулаагүй болно. 349 053-Ljashevskaja-SharovSA:_Layout 1 05/13/2008 22:07 Хуудас 350 Lyashevskaya O.N., Sharov S.A. Орос хэл: Флюс. М., 1977; 4-р хэвлэл: М.: Орос хэлний толь бичиг, 2003. 5. Засорина Л.Н. (ред.). Орос хэлний давтамжийн толь бичиг. Москва: Орос хэл, 1977. 6. Лёнгрен Л. (ред.). Орчин үеийн орос хэлний давтамжийн толь бичиг. Уппсала, 1993. 7. Ляшевская О.Н. Толь бичгийн бус үгсийг лекматжуулах асуудалд // Компьютерийн хэл шинжлэл ба ухаалаг технологи: "Диалог 2007" олон улсын хурлын эмхэтгэл. М, 2007. 8. Lyashevskaya O.N., Kobritsov B.P., Sichinava D.V. Толь бичгийн бус үг хэлбэрийн массив дээр үндэслэн толь бичиг бүтээх автоматжуулалт // Интернет математик 2007. Екатеринбург, 2007. 9. NKRY: Орос хэлний үндэсний корпус 2003-2005: Үр дүн ба хэтийн төлөв. М.: Индрик, 2005. 10. Пиотровский Р.Г., Бектаев К.Б., Пиотровская А.А.. Математик хэл шинжлэл. М.: Дээд сургууль, 1972. 11. Поляков А.Е. Зохиолчийн хэлний цахим толь бичиг (А.С. Грибоедовын хэлний жишээг ашиглан) // Компьютерийн хэл шинжлэл, түүний хэрэглээний талаархи олон улсын семинарын яриа-99 илтгэлийн материал. Таруса, 1999. М., 1999. T. 2. P. 230-236. хуудас 1327-1333.



Энэхүү толь бичигт талархал илэрхийлсэн (харьц. талархал илэрхийлсэн үг), Янсни (харьц. Жансен), Барклай (Барклай). Үүний зэрэгцээ NCRL-д толь бичгийн бус үгийн хэлбэрийн эзлэх хувь нь нийт үгийн хэрэглээний 3%, корпусын үгийн хэлбэрийн жагсаалтын 45% байна. Давтамжийн толь бичиг бус үгийн хэлбэрүүдийн хувьд бид B.P.-ийн эмхэтгэсэн NKRYA-ийн морфологийн тэмдэглэгээний дараах боловсруулалтын программуудыг ашигласан. Кобрицов ба Г.К. Бронников, түүнчлэн О.Н. Ляшевская, Д.К. Бронникова (Ляшевская 2007, Бронникова 2007). Толь бичгийн бус үгсийг лемматжуулах хоёр арга нь хамгийн үр дүнтэй болсон: лемма ба парадигмын төрлийн талаархи таамаглалыг бүлэглэх (үгийн хэлбэрийг задлан шинжлэх нь бусад үг хэллэгүүдэд бас байдаг гэж үздэг. толь бичгийн үгийн хэлбэрүүд, ингэснээр үгийн хэлбэрүүд нь урвуу парадигм дахь хөршүүдийг "хардаг" ) ба хамгийн бүтээмжтэй консолуудыг онцлон тэмдэглэдэг. Автомат омонимыг шийдвэрлэх, толь бичгийн бус хэлбэрийг тайлбарлах нь тодорхой, бага ч гэсэн алдаа гаргах боломжийг олгодог тул эхний 20 мянган давтамжийн үгэнд орсон ижил утгатай үгсийг нэмэлт гарын авлагын шалгалтанд хамруулсан.