Тооцооллын хэл шинжлэлийг шинжлэх ухаанд ашигладаг. Орчин үеийн арилжааны системүүд Текстүүдийг сэргээх

Тооцооллын хэл шинжлэл: арга, нөөц, хэрэглээ

Танилцуулга

Хугацаа тооцооллын хэл шинжлэл(CL) нь сүүлийн жилүүдэд төрөл бүрийн хэрэглээний програм хангамжийн системүүд, тэр дундаа арилжааны програм хангамжийн бүтээгдэхүүнүүд хөгжиж байгаатай холбоотойгоор улам бүр түгээмэл болж байна. Энэ нь нийгэмд, тэр дундаа Интернет дэх текстийн мэдээллийн хурдацтай өсөлт, мөн байгалийн хэлээр (NL) текстийг автоматаар боловсруулах хэрэгцээтэй холбоотой юм. Энэ нөхцөл байдал нь компьютерийн хэл шинжлэлийг шинжлэх ухааны салбар болгон хөгжүүлэх, шинэ мэдээлэл, хэл шинжлэлийн технологийг хөгжүүлэхэд түлхэц өгч байна.

50 гаруй жилийн турш оршин тогтнож ирсэн тооцооллын хэл шинжлэлийн хүрээнд (мөн гэж нэрлэдэг. машин хэл шинжлэл, NL хэл дээрх автомат текст боловсруулах) олон ирээдүйтэй арга, санааг санал болгосон боловч тэдгээр нь бүгд практикт хэрэглэгдэж буй програм хангамжийн бүтээгдэхүүнд өөрийн илэрхийлэлийг хараахан олоогүй байна. Бидний зорилго бол судалгааны энэ чиглэлийн онцлогийг тодорхойлох, түүний үндсэн зорилтуудыг тодорхойлох, бусад шинжлэх ухаантай холбоо тогтоох, ашигласан үндсэн арга, нөөцийн талаар товч тойм өгөх, мөн CL-ийн одоо байгаа хэрэглээг товч танилцуулах явдал юм. Эдгээр асуудлын талаар илүү дэлгэрэнгүй танилцуулахын тулд бид ном санал болгож болно.

1. Тооцооллын хэл шинжлэлийн асуудлууд

Компьютерийн хэл шинжлэл нь хэл шинжлэл, математик, компьютерийн шинжлэх ухаан (Компьютерийн шинжлэх ухаан) болон хиймэл оюун ухаан зэрэг шинжлэх ухааны уулзвар дээр үүссэн. CL-ийн гарал үүсэл нь Америкийн нэрт эрдэмтэн Н.Чомскийн байгалийн хэлний бүтцийг албан ёсны болгох чиглэлээр хийсэн судалгаанаас эхэлдэг; түүний хөгжил нь ерөнхий хэл шинжлэлийн (хэл шинжлэлийн) салбарын үр дүнд тулгуурладаг. Хэл шинжлэл нь байгалийн хэлний ерөнхий хуулиуд - түүний бүтэц, үйл ажиллагааг судлахад дараахь чиглэлүүдийг багтаадаг.

Ø Фонологи- яриа үүсгэх явцад ярианы дуу авиа, тэдгээрийн холболтын дүрмийг судлах;

Ø Морфологи- ярианы дотоод бүтэц, гадаад хэлбэр, түүний дотор ярианы хэсэг, тэдгээрийн ангиллыг авч үздэг;

Ø Синтакс- өгүүлбэрийн бүтэц, өгүүлбэр дэх үгсийн зохицол, дараалал, түүний ерөнхий шинж чанарыг хэлний нэгж болгон судалдаг.

Ø Семантикба прагматик- хоорондоо нягт уялдаатай салбарууд: семантик нь үг, өгүүлбэр, ярианы бусад нэгжийн утгыг, прагматик нь харилцааны тодорхой зорилготой уялдуулан энэ утгыг илэрхийлэх онцлог шинжийг авч үздэг;

Ø Тайлбар зүйтодорхой NL-ийн толь бичиг - түүний бие даасан үгс, тэдгээрийн дүрмийн шинж чанар, толь бичиг үүсгэх аргуудыг тодорхойлдог.

Хэл шинжлэл, математикийн уулзвар дээр олж авсан Н.Чомскийн үр дүн нь албан ёсны хэл, дүрмийн онолын үндэс суурийг тавьсан (ихэвчлэн нэрлэдэг. үүсгэгч, эсвэл үүсгэж байнадүрмийн мэргэжилтнүүд). Энэ онол одоо хэрэгжиж байна математик хэл шинжлэл NL гэхээсээ илүү хиймэл хэл, ялангуяа програмчлалын хэлийг боловсруулахад ашигладаг. Байгалийн хувьд энэ бол бүрэн математикийн сахилга бат юм.

Математик хэл шинжлэлд мөн багтдаг тоон хэл шинжлэл, хэлний давтамжийн шинж чанар - үг, тэдгээрийн хослол, синтаксийн бүтэц гэх мэтийг судалж, статистикийн математик аргуудыг ашигладаг тул шинжлэх ухааны энэ салбарыг статистик хэл шинжлэл гэж нэрлэж болно.

CL нь мөн хиймэл оюун ухаан (AI) гэх мэт салбар дундын шинжлэх ухааны салбартай нягт холбоотой бөгөөд түүний хүрээнд бие даасан оюуны функцүүдийн компьютерийн загварыг боловсруулдаг. AI болон CL-ийн чиглэлээрх анхны ажлын хөтөлбөрүүдийн нэг бол NL-ийн хязгаарлагдмал дэд бүлэгт томъёолсон шоо ертөнцийг өөрчлөх хүний ​​хамгийн энгийн тушаалуудыг ойлгосон Т.Виноградын алдартай хөтөлбөр юм. CL болон AI-ийн чиглэлээр судалгаа хийх нь тодорхой огтлолцсон хэдий ч (хэлний мэдлэг нь оюуны үйл ажиллагаатай холбоотой байдаг тул) AI нь өөрийн онолын үндэслэл, аргачлалтай тул бүх CL-ийг шингээдэггүй гэдгийг анхаарна уу. Эдгээр шинжлэх ухааны нийтлэг зүйл бол судалгааны үндсэн арга, эцсийн зорилго болох компьютерийн загварчлал юм.

Тиймээс CL-ийн даалгаврыг NL хэл дээрх текстийг автоматаар боловсруулах компьютерийн программ боловсруулах хэлбэрээр томъёолж болно. Боловсруулалтыг нэлээд өргөн хүрээнд ойлгодог ч бүх төрлийн боловсруулалтыг хэл шинжлэлийн гэж нэрлэж болохгүй бөгөөд холбогдох процессоруудыг хэл шинжлэлийн гэж нэрлэж болно. Хэл шинжлэлийн процессорхэлний аль нэг албан ёсны загварыг (маш энгийн загвар) ашиглах ёстой бөгөөд энэ нь нэг талаараа хэлээс хамааралтай байх ёстой гэсэн үг юм (өөрөөр хэлбэл, тодорхой NL-ээс хамаарна). Жишээлбэл, Mycrosoft Word текст засварлагчийг хэл шинжлэлийн гэж нэрлэж болно (зөвхөн толь бичиг ашигладаг бол), гэхдээ NotePad засварлагч боломжгүй.

CL-ийн даалгавруудын нарийн төвөгтэй байдал нь NL нь хүмүүсийн хооронд мэдээлэл солилцоход бий болсон, хүний ​​практик үйл ажиллагааны явцад бий болсон, энэ үйл ажиллагаатай холбоотойгоор байнга өөрчлөгдөж байдаг олон түвшний шинж тэмдгүүдийн цогц системтэй холбоотой юм. CL-ийн аргыг боловсруулахад тулгарч буй өөр нэг бэрхшээл (мөн хэл шинжлэлийн хүрээнд NL-ийг судлахад бэрхшээлтэй байдаг) нь байгалийн хэлний олон янз байдал, тэдгээрийн үг хэллэг, морфологи, синтакс дахь мэдэгдэхүйц ялгаа нь ижил утгыг илэрхийлэх янз бүрийн арга замыг бий болгодог .

2. NL системийн онцлог: түвшин ба холболтууд

Хэл шинжлэлийн процессоруудын объект нь NL текст юм. Текстийг аман болон бичгийн аль ч төрөлд хамаарах аливаа ярианы дээж гэж ойлгодог боловч CL голчлон бичгийн текстийг авч үздэг. Текст нь нэг хэмжээст, шугаман бүтэцтэй бөгөөд тодорхой утгыг агуулдаг бол хэл нь дамжуулагдсан утгыг текст болгон хувиргах хэрэгсэл (ярианы синтез) ба эсрэгээр (ярианы дүн шинжилгээ) үүрэг гүйцэтгэдэг. Текст нь жижиг нэгжүүдээс бүрдэх бөгөөд текстийг өөр өөр түвшинд хамаарах нэгж болгон хуваах (хуваах) хэд хэдэн боломжит арга байдаг.

Дараах түвшний оршин тогтнолыг ерөнхийд нь хүлээн зөвшөөрдөг.

· саналын түвшин (мэдэгдэл) - синтаксийн түвшин;

· Лексик-морфологиомоним (хамгийн түгээмэл төрөл) нь хоёр өөр лексемийн үгийн хэлбэрүүд давхцах үед тохиолддог, жишээлбэл, шүлэг– үйл үг ганц, эр, нэр үг ганц тоо, нэрлэсэн тохиолдолд),

· Синтаксик омонимЭнэ нь синтаксийн бүтцийн хоёрдмол утгатай гэсэн үг бөгөөд энэ нь хэд хэдэн тайлбарт хүргэдэг. Львовын оюутнууд Киевт очив.Нисдэг онгоцууд чадна байх аюултай(Чомскийн алдартай жишээ) гэх мэт.

3. Тооцооллын хэл шинжлэлийн загварчлал

Хэл шинжлэлийн процессорыг (LP) боловсруулах нь боловсруулсан NL текстийн хэл шинжлэлийн шинж чанарын тайлбарыг багтаадаг бөгөөд энэ тайлбарыг дараах байдлаар зохион байгуулдаг. загвар хэл. Математик, програмчлалын загварчлалын нэгэн адил загвар нь загварчилж буй үзэгдлийн хэд хэдэн чухал шинж чанарыг (жишээ нь, SE) харуулдаг тодорхой систем гэж ойлгогддог тул бүтцийн болон үйл ажиллагааны ижил төстэй шинж чанартай байдаг.

CL-д хэрэглэгддэг хэлний загварууд нь ихэвчлэн төрөл бүрийн текстийг судалж хэл шинжлэлийн мэргэжилтнүүдийн бий болгосон онолын үндсэн дээр, тэдгээрийн хэл шинжлэлийн зөн совин (дотоод харах) дээр суурилдаг. CL загваруудын онцлог юу вэ? Дараах шинж чанаруудыг ялгаж салгаж болно.

· Албан ёсны байдал, эцсийн дүндээ алгоритмчлах чадвар;

· Функциональ байдал (загварчлалын зорилго нь хүний ​​ярианы синтез, шинжилгээний үнэн зөв загварыг бий болгохгүйгээр хэлний функцийг "хар хайрцаг" болгон хуулбарлах явдал юм);

· Загварын ерөнхий байдал, өөрөөр хэлбэл нэлээд том текстийн багцыг харгалзан үздэг;

· Туршилтын хүчинтэй байдал, өөр өөр текст дээр загварыг турших;

· Загварын зайлшгүй бүрэлдэхүүн хэсэг болох толь бичигт найдах.

NL-ийн нарийн төвөгтэй байдал, түүний тайлбар, боловсруулалт нь энэ үйл явцыг хэлний түвшинд тохирсон тусдаа үе шатуудад хуваахад хүргэдэг орчин үеийн ихэнх LP нь хэл шинжлэлийн дүн шинжилгээ, синтезийн түвшин бүр нь тусдаа байдаг. процессорын модуль. Ялангуяа, текст дүн шинжилгээ хийх тохиолдолд LP модулиуд нь дараахь зүйлийг гүйцэтгэдэг.

Ø График шинжилгээ, өөрөөр хэлбэл текст дэх үгийн хэлбэрийг тодруулах (тэмдэглэгээс үг рүү шилжих);

Ø Морфологийн шинжилгээ - үгийн хэлбэрээс тэдгээрийн хэлбэр рүү шилжих лемма(лексемийн толь бичгийн хэлбэрүүд) эсвэл суурь(үгийн цөм хэсгүүд, үг хэллэгийг хасах);

Ø Синтаксийн шинжилгээ, өөрөөр хэлбэл текстийн өгүүлбэрийн дүрмийн бүтцийг тодорхойлох;

Ø Үг хэллэгийн утга, LP ажиллаж буй системийн харгалзах хариу үйлдлийг тодорхойлдог семантик ба прагматик шинжилгээ.

Эдгээр модулиудын харилцан үйлчлэлийн өөр өөр схемүүд боломжтой (дараалсан ажиллагаа эсвэл зэрэгцээ завсарлагааны шинжилгээ), гэхдээ бие даасан түвшин - морфологи, синтакс, семантикийг өөр өөр механизмаар боловсруулдаг.

Тиймээс, LP-ийг олон үе шаттай хувиргагч гэж үзэж болох бөгөөд энэ нь текстийн шинжилгээний хувьд өгүүлбэр бүрийг өөрийн утгын дотоод дүрслэл болгон, синтезийн хувьд эсрэгээр нь орчуулдаг. Харгалзах хэлний загварыг дуудаж болно бүтцийн.

Бүрэн CL загварууд нь хэлний бүх үндсэн түвшинг харгалзан үзэх шаардлагатай бөгөөд холбогдох модулиуд байгаа боловч хэрэглээний зарим асуудлыг шийдвэрлэхдээ LP-ийн хувь хүний ​​түвшинг илэрхийлэхгүйгээр хийх боломжтой. Жишээлбэл, эхний туршилтын CL програмуудад боловсруулсан текстүүд нь маш нарийн асуудлын талбарт (хязгаарлагдмал багц үг, хатуу дарааллаар) хамаарах тул морфологи, синтактикийн үе шатуудыг орхигдуулсан эхний үсгүүдийг үгсийг танихад ашиглаж болно. шинжилгээ.

Одоо нэлээд түгээмэл хэрэглэгддэг багасгасан загварын өөр нэг жишээ бол тодорхой NL-ийн текст дэх тэмдэгтүүдийн давтамж, тэдгээрийн хослолуудын (биграмм, триграм гэх мэт) хэлний загвар юм. Ийм статистик загварХэл шинжлэлийн мэдээллийг текстийн тэмдэгтүүдийн (үсгийн) түвшинд харуулдаг бөгөөд жишээ нь текст дэх үсгийн алдааг тодорхойлох эсвэл хэл шинжлэлийн шинж чанарыг танихад хангалттай. Жишээ нь, үг хэллэгийн тодорхой бус байдлыг арилгах эсвэл үгийн ярианы хэсгийг тодорхойлоход (англи хэл гэх мэт) бие даасан үгсийн статистик, тэдгээрийн текст (биграмм, триграмм) дээр үндэслэсэн ижил төстэй загварыг ашигладаг. ).

Энэ нь боломжтой гэдгийг анхаарна уу бүтэц-статистик загварууд, үүнд NL-ийн бие даасан түвшинг илэрхийлэхдээ нэг буюу өөр статистикийг харгалзан үздэг - үгс, синтаксик бүтэц гэх мэт.

Модульчлагдсан LP-д текстийн дүн шинжилгээ, синтезийн үе шат бүрт тохирох загварыг (морфологи, синтакс гэх мэт) ашигладаг.

CL-д байгаа үгийн хэлбэрийг шинжлэх морфологийн загварууд нь дараахь параметрүүдээр голчлон ялгаатай байдаг.

· ажлын үр дүн - өгөгдсөн үгийн хэлбэрийн морфологийн шинж чанар (хүйс, тоо, тохиолдол, тал, хүн гэх мэт) бүхий лемма буюу иш;

· дүн шинжилгээ хийх арга - хэлний үгийн хэлбэрийн толь бичиг эсвэл үндсэн толь бичиг, эсвэл толь бичиггүй аргад үндэслэсэн;

· толь бичигт ороогүй лексемийн үгийн хэлбэрийг боловсруулах чадвар.

Морфологийн синтезийн хувьд анхны өгөгдөл нь лексем бөгөөд энэ лексемийн хүссэн үгийн хэлбэрийн өвөрмөц морфологийн шинж чанар нь өгөгдсөн лексемийн бүх хэлбэрийг нэгтгэх хүсэлт гаргах боломжтой. Морфологийн шинжилгээ ба синтезийн үр дүн нь ерөнхийдөө хоёрдмол утгатай байдаг.

CL-ийн хүрээнд синтаксийг загварчлахын тулд хэлний синтаксийг тайлбарлах арга, NL өгүүлбэрийн дүн шинжилгээ, нийлэгжилтэд энэ мэдээллийг ашиглах арга зэргээс ялгаатай олон тооны өөр өөр санаа, аргуудыг санал болгосон. түүнчлэн өгүүлбэрийн синтаксийн бүтцийг илэрхийлэх арга. Ердийн байдлаар бид загвар бүтээх гурван үндсэн хандлагыг ялгаж салгаж болно: генератив хандлага, Хомскийн санаа руу буцах, И.Мельчукийн санаа руу буцах хандлага, мөн "Утга-Текст" загвараар илэрхийлэгдэх арга, түүнчлэн Эхний хоёр аргын хязгаарлалтыг даван туулах тодорхой оролдлого хийх арга барил, тухайлбал синтаксик бүлгүүдийн онол.

Генератив аргын хүрээнд синтаксийн шинжилгээг ихэвчлэн өгүүлбэрийн хэллэгийн бүтцийг тодорхойлсон албан ёсны контекстгүй дүрмийн үндсэн дээр эсвэл контекстгүй дүрмийн зарим өргөтгөлийн үндсэн дээр хийдэг. Эдгээр дүрмүүд нь өгүүлбэрийг өгүүлбэрт (жишээ нь, нэр үг хэллэг) тууштай шугаман хуваахад үндэслэсэн тул түүний синтакс болон шугаман бүтцийг нэгэн зэрэг тусгадаг. Шинжилгээний үр дүнд олж авсан NL өгүүлбэрийн шаталсан синтаксийн бүтцийг тайлбарлав бүрэлдэхүүн хэсгүүдийн мод, навчнууд нь өгүүлбэрийн үгсийг агуулсан, дэд моднууд нь өгүүлбэрт багтсан синтаксийн бүтэцтэй (хэлбэр) тохирч, нумууд нь бүтцийн үүрлэх харилцааг илэрхийлдэг.

Хэлэлцэж буй арга барилд хэлний системийг дүрслэх, хязгаарлагдмал төлөвийн машин, тухайлбал, өргөтгөсөн шилжилтийн сүлжээ ATN гэх мэт өгүүлбэрт дүн шинжилгээ хийх журмыг тодорхойлох хэрэгсэл болох сүлжээний дүрмийг багтааж болно.

Хоёрдахь аргын хүрээнд өгүүлбэрийн синтаксик бүтцийг илэрхийлэхэд илүү харааны, нийтлэг аргыг ашигладаг. хамаарлын мод. Модны зангилаанууд нь өгүүлбэрийн үгсийг агуулдаг (үндэс нь ихэвчлэн үйл үг-предикат байдаг) бөгөөд хос зангилааг холбосон модны нум бүрийг синтакс гэж тайлбарладаг. захирагдах холболттэдгээрийн хооронд байх ба холболтын чиглэл нь өгөгдсөн нумын чиглэлтэй тохирч байна. Энэ тохиолдолд өгүүлбэр дэх үгсийн синтаксийн холбоо, үгсийн дарааллыг тусгаарласан тул захирах модны үндсэн дээр эвдэрсэн ба проект бусҮнэгүй үгийн дараалал бүхий хэл дээр ихэвчлэн гарч ирдэг бүтэц.

Бүрэлдэхүүн хэсгүүдийн моднууд нь хэлийг хатуу үгийн дарааллаар дүрслэхэд илүү тохиромжтой байдаг бөгөөд тэдгээрийн тусламжтайгаар эвдэрсэн, проекц бус бүтэцтэй байх нь ашигласан дүрмийн формализмыг өргөжүүлэхийг шаарддаг. Гэхдээ энэ аргын хүрээнд захирагдахгүй харилцаатай барилгуудыг илүү байгалийн байдлаар дүрсэлсэн байдаг. Үүний зэрэгцээ, хоёр аргын нийтлэг бэрхшээл бол өгүүлбэрийн нэгэн төрлийн гишүүдийн төлөөлөл юм.

Бүх хандлагын синтаксик загварууд нь ярианы хэл шинжлэлийн нэгжүүдийн холболтод тавигдах хязгаарлалтыг харгалзан үзэхийг хичээдэг бол валентийн тухай ойлголтыг нэг талаараа ашигладаг. Валент- энэ нь үг эсвэл хэлний бусад нэгжийн бусад нэгжүүдийг тодорхой синтакс хэлбэрээр холбох чадвар юм; үүрэг гүйцэтгэгчгэдэг нь энэхүү валентыг нөхөх үг буюу синтаксийн бүтэц юм. Жишээлбэл, Оросын үйл үг хүлээлгэж өгөхдараах асуултын үгээр илэрхийлж болох гурван үндсэн валенттай: ДЭМБ? хэнд? Юу?Генератив аргын хүрээнд үгсийн валентыг (үндсэндээ үйл үг) голчлон тусгай хүрээ хэлбэрээр дүрсэлсэн байдаг. дэд ангилал хүрээ) , мөн хамаарлын мод дээр суурилсан хандлагын хүрээнд - хэрхэн удирдлагын загварууд.

Хэлний семантикийн загварууд нь CL-ийн хүрээнд хамгийн бага хөгжсөн байдаг. Өгүүлбэрийн семантик шинжилгээнд зориулж тохиолдол дүрмийн болон семантик тохиолдлууд(валент байдал), үүний үндсэн дээр өгүүлбэрийн семантикийг үндсэн үг (үйл үг) нь түүний семантик үйлдэлтэй холболтоор, өөрөөр хэлбэл семантик тохиолдлуудаар дүрсэлсэн байдаг. Жишээлбэл, үйл үг хүлээлгэж өгөхсемантик тохиолдлоор дүрсэлсэн өгөх(агент), хаяг хүлээн авагчТэгээд шилжүүлэх объект.

Бүхэл бүтэн текстийн семантикийг илэрхийлэхийн тулд логикийн хувьд ижил төстэй хоёр формализмыг ихэвчлэн ашигладаг (хоёуланг нь AI-ийн хүрээнд дэлгэрэнгүй тайлбарласан болно):

· Шинж чанар, төлөв байдал, үйл явц, үйлдэл, харилцааг илэрхийлдэг предикатуудын тооцооллын томъёо;

· Семаль сүлжээнүүд нь оройнууд нь ухагдахуунтай, орой нь тэдгээрийн хоорондын хамааралд харгалзах шошготой графикууд юм.

Зөвхөн бие даасан өгүүлбэр төдийгүй текстийг бүхэлд нь боловсруулах боломжийг олгодог прагматик ба ярианы загваруудын хувьд Ван Дикийн санааг тэдгээрийг бүтээхэд голчлон ашигладаг. Ховор бөгөөд амжилттай загваруудын нэг бол уялдаатай текстийн дискурсив синтезийн загвар юм. Ийм загварууд нь анафорын лавлагаа болон бусад ярианы түвшний үзэгдлийг харгалзан үзэх ёстой.

CL-ийн хүрээнд хэлний загваруудын шинж чанарыг дүгнэж, "Утга-Текст" хэл шинжлэлийн загваруудын онолын талаар бага зэрэг дэлгэрэнгүй авч үзье, үүний хүрээнд цаг үеэсээ түрүүлж байсан олон үр дүнтэй санаа гарч ирэв. өнөөг хүртэл хамааралтай хэвээр байна.

Энэхүү онолын дагуу NL нь өгөгдсөн утгыг харгалзах текст болгон, өгөгдсөн бичвэрийг харгалзах утга болгон боловсруулдаг тусгай төрлийн трансформатор гэж үздэг. Утга нь текстийн бүх ижил утгатай хувиргалтын хувьсал гэж ойлгогддог. Үг хэллэг, үгийн хэлбэрт хуваагдалгүй харилцан уялдаатай ярианы агуулгыг хоёр бүрэлдэхүүн хэсгээс бүрдсэн тусгай семантик дүрслэлийн хэлбэрээр харуулав. семантик графиктухай мэдээлэл утгын харилцааны зохион байгуулалт.

Онолын онцлог шинж чанаруудыг дурдах ёстой:

o текстийг нэгтгэхэд чиглүүлэх (зөв текст үүсгэх чадварыг хэл шинжлэлийн ур чадварын гол шалгуур гэж үздэг);

o Загварын олон түвшний, модульчлагдсан шинж чанар, хэлний үндсэн түвшнийг өнгөц болон гүнзгий түвшинд хуваадаг: тэдгээр нь ялгаатай, жишээлбэл, гүн(семантикжуулсан) ба гадаргуу("цэвэр") синтакс, түүнчлэн гадаргуугийн морфологийн болон гүн морфологийн түвшин;

o хэлний загварын салшгүй шинж чанар; Түвшин тус бүрд танилцуулсан мэдээллийг холбогдох модулиар хадгалах, энэ түвшнээс дараагийн шат руу шилжих;

o Түвшин бүрийн синтаксийг (нэгжийг холбох дүрэм) дүрслэх тусгай хэрэгсэл; лексик нийцтэй байдлыг тодорхойлох багцыг санал болгосон лексик функцууд, тэдгээрийн тусламжтайгаар синтаксик хэллэгийн дүрмийг томъёолсон;

o дүрэм гэхээсээ илүү үгийн санд анхаарах; толь бичиг нь хэлний янз бүрийн түвшний холбоотой мэдээллийг хадгалдаг; ялангуяа тэдгээрийн синтаксик болон утгын валентыг дүрсэлсэн үгийн хяналтын загваруудыг синтаксийн шинжилгээнд ашигладаг.

Энэхүү онол, хэлний загвар нь ETAP машин орчуулгын системд тусгагдсан байдаг.

4. Хэл шинжлэлийн эх сурвалж

Хэл шинжлэлийн боловсруулагчийг хөгжүүлэхэд боловсруулсан хэлний талаархи хэл шинжлэлийн мэдээллийн зохих дүрслэлийг шаарддаг. Энэ мэдээллийг олон төрлийн компьютерийн толь бичиг, дүрмийн санд харуулав.

Толь бичиглексик мэдээллийг илэрхийлэх хамгийн уламжлалт хэлбэр юм; тэдгээр нь нэгж (ихэвчлэн үг, хэллэг), бүтэц, үгсийн сангийн хамрах хүрээ (тодорхой асуудлын талбар дахь нэр томьёоны толь бичиг, ерөнхий үгсийн сангийн толь бичиг гэх мэт) ялгаатай байдаг. Тайлбар толь бичгийн нэгж гэж нэрлэдэг толь бичгийн оруулга, энэ нь жетоны талаарх мэдээллийг өгдөг. Лексик омонимыг ихэвчлэн толь бичгийн янз бүрийн бичилтүүдэд төлөөлдөг.

CL-д хамгийн түгээмэл байдаг морфологийн толь бичгүүд нь морфологийн шинжилгээнд ашигладаг толь бичигт харгалзах үгийн талаархи морфологийн мэдээллийг өгдөг - ярианы хэсэг, урвуу анги (залуу хэлэнд), үгийн утгын жагсаалт гэх мэт. Зохион байгуулалтаас хамааран; Хэл шинжлэлийн процессорыг толь бичигт дүрмийн мэдээлэл, жишээ нь үгийн удирдлагын загваруудыг нэмж оруулж болно.

Үгсийн талаар илүү өргөн мэдээлэл өгдөг толь бичиг байдаг. Жишээлбэл, "Утга-Текст" хэл шинжлэлийн загварт ихээхэн тулгуурладаг тайлбар комбинатор толь бичиг, толь бичгийн оруулгад морфологи, синтакс ба семантик мэдээллээс (синтакс ба семантик валент) гадна энэ үгийн лексик нийцтэй байдлын талаархи мэдээллийг оруулсан болно.

Хэд хэдэн хэл шинжлэлийн процессорууд ашигладаг синоним толь бичгүүд. Харьцангуй шинэ төрлийн толь бичиг - пароним толь бичгүүд, өөрөөр хэлбэл утгаараа ялгаатай гаднах ижил төстэй үгс, жишээлбэл, танихгүй хүнТэгээд харь гарагийнхан, засварлахТэгээд лавлагаа .

Өөр нэг лексик нөөц бол хэллэгийн мэдээллийн сан, тухайн хэлний хамгийн ердийн хэллэгүүдийг сонгосон байдаг. Орос хэлний хэллэгийн энэхүү мэдээллийн сан (сая орчим нэгж) CrossLexica системийн гол цөмийг бүрдүүлдэг.

Илүү төвөгтэй лексик нөөцийн төрлүүд Тезаури ба онтологи. Тезаурус гэдэг нь семантик толь бичиг, өөрөөр хэлбэл үгсийн утгын холбоог харуулсан толь бичиг - ижил утгатай, удамшлын төрлийн харилцаа (заримдаа дээрх-доорх харилцаа гэж нэрлэдэг), хэсэгчилсэн, бүхэл бүтэн холбоо. Тезаурусыг түгээх нь мэдээлэл олж авах асуудлыг шийдвэрлэхтэй холбоотой юм.

Тезаурусын тухай ойлголттой нягт холбоотой нь онтологийн тухай ойлголт юм. Онтологи гэдэг нь янз бүрийн даалгавруудад дахин ашиглахад чиглэсэн тодорхой мэдлэгийн салбарын ойлголт, нэгжүүдийн багц юм. Онтологийг хэл дээрх одоо байгаа үгсийн санд үндэслэн үүсгэж болно - энэ тохиолдолд тэдгээрийг нэрлэдэг хэл шинжлэлийнТэгээд.

Үүнтэй төстэй хэл шинжлэлийн онтологийг WordNet систем гэж үздэг - англи үгс: нэр, тэмдэг, үйл үг, үйл үг, тэдгээрийн хэд хэдэн төрлийн утгын холболтыг харуулсан том лексик нөөц юм. Ярианы тодорхой хэсэг бүрийн хувьд үгсийг ижил утгатай бүлгүүдэд хуваадаг ( синсет), тэдгээрийн хооронд антоним, гипоними (удам төрөл зүйлийн хамаарал), мероними (бүхэл бүтэн харьцаа) харилцаа тогтоогдсон. Энэхүү нөөц нь ойролцоогоор 25 мянган үг агуулдаг бөгөөд төрөл зүйл, төрөл зүйлийн харилцааны шаталсан түвшний тоо дунджаар 6-7, заримдаа 15-д хүрдэг. Шатлалын дээд түвшин нь ерөнхий онтологийг бүрдүүлдэг - ертөнцийн талаархи үндсэн ойлголтуудын систем юм.

Англи хэлний WordNet схем дээр үндэслэн EuroWordNet ерөнхий нэрээр нэгдсэн Европын бусад хэлнүүдийн ижил төстэй лексик нөөцийг бий болгосон.

Хэл шинжлэлийн нөөц бол огт өөр төрөл юм NL дүрэм, төрөл нь процессорт ашигласан синтакс загвараас хамаарна. Эхнийх нь дүрмийн дагуу үг, бүлгүүдийн синтаксийн ерөнхий шинж чанарыг илэрхийлдэг дүрмийн багц юм. Дүрмийн дүрмийн нийт тоо нь синтакс загвараас хамаардаг бөгөөд хэдэн араваас хэдэн зуу хүртэл хэлбэлздэг. Үндсэндээ хэлний загвар дахь дүрмийн болон үгсийн сангийн хоорондын хамаарлын хувьд энд асуудал гарч ирдэг: толь бичигт илүү их мэдээлэл өгөх тусам дүрэм нь богино байх болно.

Компьютерийн толь бичиг, үг хэллэг, дүрмийн бүтээн байгуулалт нь хэл шинжлэлийн загвар, холбогдох процессорыг боловсруулахаас ч илүү их хөдөлмөр шаарддаг, заримдаа бүр илүү их хөдөлмөр шаардсан ажил гэдгийг анхаарна уу. Тиймээс CL-ийн дагалдах ажлуудын нэг бол хэл шинжлэлийн нөөцийг бүрдүүлэх ажлыг автоматжуулах явдал юм.

Компьютерийн толь бичгүүдийг ихэвчлэн энгийн текстийн толь бичгүүдийг хөрвүүлэх замаар бий болгодог боловч тэдгээрийг бүтээхэд илүү төвөгтэй, шаргуу хөдөлмөр шаардагддаг. Энэ нь ихэвчлэн хурдацтай хөгжиж буй шинжлэх ухааны салбарууд болох молекул биологи, компьютерийн шинжлэх ухаан гэх мэт толь бичиг, тезаври бүтээх үед тохиолддог. Шаардлагатай хэл шинжлэлийн мэдээллийг олж авах эх материалыг цуглуулгууд болон текст корпус.

Текстийн корпус гэдэг нь төлөөллийн тодорхой зарчмын дагуу (төрөл, зохиогчийн харьяалал гэх мэт) цуглуулсан текстийн цуглуулга бөгөөд бүх текстийг тэмдэглэсэн, өөрөөр хэлбэл зарим хэл шинжлэлийн тэмдэглэгээ (тэмдэглэгээ) - морфологи, өргөлтөөр хангагдсан байдаг. , синтаксик гэх мэт. n. Одоогийн байдлаар хамгийн багадаа зуу гаруй янзын корпорацууд байдаг - Орос улсад хамгийн алдартай нь Орос хэлний үндэсний корпус юм.

Шошготой корпусуудыг хэл шинжлэлийн мэргэжилтнүүд бүтээдэг бөгөөд хэл шинжлэлийн судалгаа, машин сургалтын сайн мэддэг математик аргуудыг ашиглан CL-д ашигладаг загвар, процессоруудыг тааруулах (сургалт) хийхэд ашигладаг. Тиймээс, машин сургалтыг үг хэллэгийн тодорхой бус байдлыг арилгах, ярианы хэсгүүдийг таних, анафорик лавлагааг шийдвэрлэх аргуудыг тохируулахад ашигладаг.

Корпорац, текстийн цуглуулга нь тэдгээрт дүрслэгдсэн хэл шинжлэлийн үзэгдлүүдийн хувьд үргэлж хязгаарлагдмал байдаг (мөн бусад зүйлсийн дунд корпусыг бүтээхэд нэлээд хугацаа шаардагддаг) тул сүүлийн үед интернетийн текстийг илүү бүрэн гүйцэд хэл шинжлэлийн эх сурвалж гэж үзэх нь улам бүр нэмэгдсээр байна. Мэдээжийн хэрэг, интернет бол орчин үеийн ярианы дээжийг хамгийн төлөөлөх эх сурвалж боловч түүнийг корпус болгон ашиглах нь тусгай технологийг хөгжүүлэхийг шаарддаг.

5. Тооцооллын хэл шинжлэлийн хэрэглээ

Тооцооллын хэл шинжлэлийн хэрэглээний талбар байнга өргөжиж байгаа тул бид энд түүний хэрэгслээр шийдэгдсэн хамгийн алдартай хэрэглээний асуудлуудыг тодорхойлох болно.

Машины орчуулга– CL-ийн хамгийн анхны хэрэглээ, үүнтэй зэрэгцэн энэ салбар өөрөө үүсч хөгжсөн. Анхны орчуулгын хөтөлбөрүүд нь 50 гаруй жилийн өмнө бүтээгдсэн бөгөөд энгийн үг бүрээр орчуулах стратеги дээр үндэслэсэн байв. Гэсэн хэдий ч, машин орчуулга нь утга зүй, прагматик зэрэг хэлний бүх түвшинг харгалзан үзсэн хэл шинжлэлийн бүрэн загвар шаарддаг бөгөөд энэ нь энэ чиглэлийн хөгжилд удаа дараа саад учруулдаг болохыг хурдан ойлгосон. Шинжлэх ухааны текстийг франц хэлнээс орос хэл рүү орчуулдаг дотоодын ETAP системд нэлээд бүрэн гүйцэд загварыг ашигладаг.

Гэсэн хэдий ч, холбогдох хэл рүү орчуулах тохиолдолд, жишээлбэл, испани хэлнээс португал эсвэл оросоос украйн руу орчуулах үед (энэ нь синтакс, морфологийн хувьд нийтлэг байдаг) процессорыг хялбаршуулсан хэл дээр үндэслэн хэрэгжүүлж болохыг анхаарна уу. Жишээ нь, ижил үгээр орчуулах стратегийг ашиглахад үндэслэсэн загвар.

Одоогийн байдлаар олон улсын томоохон судалгааны төслүүдээс эхлээд арилжааны автомат орчуулагч хүртэл компьютерийн орчуулгын бүхэл бүтэн систем (янз бүрийн чанартай) байдаг. Орчуулсан хэллэгийн утгыг кодлосон завсрын хэлийг ашигладаг олон хэл дээрх орчуулгын төслүүд ихээхэн анхаарал татаж байна. Орчин үеийн өөр нэг чиглэл бол үг, хэллэгийн орчуулгын статистик дээр үндэслэсэн статистик орчуулга юм (жишээлбэл, эдгээр санаанууд нь Google хайлтын системийн орчуулагч дээр хэрэгждэг).

Гэхдээ энэ чиглэлээр олон арван жил хөгжсөн хэдий ч ерөнхийдөө машин орчуулгын асуудал бүрэн шийдэгдээгүй хэвээр байна.

Тооцооллын хэл шинжлэлийн өөр нэг нэлээд эртний хэрэглээ бол мэдээлэл олж авахБаримт бичгийг индексжүүлэх, хийсвэрлэх, ангилах, ангилах зэрэгтэй холбоотой ажлууд.

Томоохон баримт бичгийн мэдээллийн сангаас (үндсэндээ шинжлэх ухаан, техникийн, бизнесийн) баримт бичгийг бүрэн текстээр хайх нь ихэвчлэн тэдгээрийн үндсэн дээр хийгддэг. зураг хайх, үүгээр бид багцыг хэлж байна түлхүүр үгс– баримт бичгийн гол сэдвийг тусгасан үгс. Эхэндээ зөвхөн NL-ийн бие даасан үгсийг түлхүүр үг гэж үздэг байсан бөгөөд хайлтыг тэдний хөрвүүлэлтийг харгалзахгүйгээр хийсэн бөгөөд энэ нь англи хэл гэх мэт сул урсацтай хэлүүдэд шүүмжлэлтэй байдаггүй. Үүссэн хэлнүүдийн хувьд, тухайлбал, орос хэлний хувьд, уян хатан байдлыг харгалзан үзсэн морфологийн загварыг ашиглах шаардлагатай байв.

Хайлтын хайлтыг мөн хайлтын ижил төстэй байдал, баримт бичгийн хайлтын дүрс дээр үндэслэн тохирох (холбогдох) баримт бичгүүдийг тодорхойлсон болно. Баримт бичгийн хайлтын дүрсийг бий болгох нь дараахь зүйлийг агуулна индексжүүлэхтүүний текст, өөрөөр хэлбэл доторх түлхүүр үгсийг тодруулах. Баримт бичгийн сэдэв, агуулгыг бие даасан үгээр биш, харин хэллэгээр илүү нарийвчлалтай тусгадаг тул хэллэгийг түлхүүр үг гэж үзэж эхэлсэн. Энэ нь текст дэх чухал хэллэгийг сонгохдоо статистик болон хэл шинжлэлийн шалгууруудын янз бүрийн хослолыг ашиглах шаардлагатай байсан тул баримт бичгийг индексжүүлэх журмыг ихээхэн хүндрүүлсэн.

Үнэн хэрэгтээ мэдээлэл хайхад голчлон ашигладаг вектор текст загвар(заримдаа дууддаг цүнх -ийн үгс– үгийн баг), үүнд баримт бичиг нь түүний түлхүүр үгсийн вектор (багц) хэлбэрээр илэрхийлэгддэг. Орчин үеийн интернет хайлтын системүүд мөн энэ загварыг ашигладаг бөгөөд текстийг ашигласан үгсээр нь индексжүүлдэг (үүнтэй зэрэгцэн холбогдох баримт бичгүүдийг буцаахын тулд эрэмбэлэх маш нарийн процедурыг ашигладаг).

Заасан текстийн загварыг (зарим хүндрэлтэй) доор авч үзсэн холбогдох мэдээлэл хайх асуудалд мөн ашигладаг.

Текстийг нэгтгэн дүгнэх- түүний эзлэхүүнийг багасгаж, хураангуйг нь олж авах - хураангуй (контент агуулга) нь баримт бичгийн цуглуулгаас хайлтыг илүү хурдан болгодог. Мөн сэдэвтэй холбоотой хэд хэдэн баримт бичгийн ерөнхий хураангуйг эмхэтгэж болно.

Автомат хийсвэрлэх гол арга бол хийсвэрлэж буй текстийн хамгийн чухал өгүүлбэрүүдийг сонгох явдал хэвээр байгаа бөгөөд үүний тулд текстийн түлхүүр үгсийг ихэвчлэн тооцоолж, текстийн өгүүлбэрийн ач холбогдлын коэффициентийг тооцдог. Чухал өгүүлбэрүүдийг сонгох нь өгүүлбэрийн анафорик холболтоор төвөгтэй байдаг бөгөөд үүнийг таслах нь хүсээгүй - энэ асуудлыг шийдвэрлэхийн тулд өгүүлбэр сонгох тодорхой стратеги боловсруулж байна.

Хийсвэрлэхэд ойрхон ажил тайлбарбаримт бичгийн текст, өөрөөр хэлбэл түүний тайлбарыг зурах. Хамгийн энгийнээр бол хураангуй гэдэг нь текстийн үндсэн сэдвүүдийн жагсаалт бөгөөд индексжүүлэх процедурыг ашиглан тодорхойлж болно.

Том хэмжээний баримт бичгийн цуглуулга үүсгэх үед дараахь ажлуудыг хийх шаардлагатай байна. ангилалТэгээд бөөгнөрөлсэдэвтэй холбоотой баримт бичгийн ангиудыг бий болгохын тулд текстүүд. Ангилал гэдэг нь баримт бичиг бүрийг урьдчилан мэдэгдэж буй параметрүүдтэй тодорхой ангид хуваарилахыг хэлдэг бөгөөд кластер гэдэг нь багц баримт бичгийг кластер, өөрөөр хэлбэл сэдэвчилсэн ижил төстэй баримт бичгийн дэд бүлэгт хуваахыг хэлнэ. Эдгээр асуудлыг шийдвэрлэхийн тулд машин сургалтын аргуудыг ашигладаг тул эдгээр хэрэглээний асуудлуудыг Текст олборлолт гэж нэрлэдэг бөгөөд Data Mining буюу өгөгдөл олборлолт гэж нэрлэгддэг шинжлэх ухааны чиглэлд хамаардаг.

Асуудал нь ангилалд маш ойрхон байна rubricationтекст - урьд өмнө мэдэгдэж байсан сэдэвчилсэн гарчигуудын аль нэгэнд хуваарилалт (ихэвчлэн гарчиг нь сэдвүүдийн шаталсан модыг бүрдүүлдэг).

Ангиллын асуудал улам бүр түгээмэл болж байна, жишээлбэл, спам таних замаар шийдэгдэж байгаа бөгөөд харьцангуй шинэ програм бол гар утасны төхөөрөмж дэх SMS мессежийн ангилал юм. Мэдээлэл хайх ерөнхий асуудлын судалгааны шинэ бөгөөд хамааралтай чиглэл бол олон хэлээр бичиг баримт хайх явдал юм.

Мэдээлэл олж авахтай холбоотой өөр нэг харьцангуй шинэ ажил бол асуултын хариултыг бий болгох(Асуулт хариулт). Асуултын төрлийг тодорхойлох, энэ асуултын хариултыг агуулсан текстийг хайж олох, эдгээр текстээс хариултыг гаргаж авах замаар энэ асуудлыг шийддэг.

Аажмаар боловч тогтвортой хөгжиж буй огт өөр чиглэл юм бэлтгэх, засварлах автоматжуулалт EA дахь текстүүд. Энэ чиглэлийн анхны програмуудын нэг нь үгийн зураасыг автоматаар тодорхойлох програмууд болон текстийн зөв бичих програмууд (үсгийн алдаа эсвэл автомат засварлагч) байв. Шилжүүлгийн асуудал нь илт энгийн хэдий ч олон хэл дээр (жишээлбэл, англи хэл) зөв шийдэл нь харгалзах хэл дээрх үгсийн морфемик бүтцийг мэддэг байх шаардлагатай, тиймээс харгалзах толь бичиг.

Үг үсгийн шалгалт нь арилжааны системд эртнээс хэрэгжиж ирсэн бөгөөд зохих толь бичиг, морфологийн загварт тулгуурладаг. Бүрэн бус синтакс загварыг бас ашигладаг бөгөөд үүний үндсэн дээр нэлээд түгээмэл тохиолддог бүх синтаксийн алдааг тодорхойлдог (жишээлбэл, үг хэллэгийн алдаа). Үүний зэрэгцээ, автомат залруулагчид илүү төвөгтэй алдаа, жишээлбэл, угтвар үгсийг буруу ашигласан зэрэг илрүүлэлтийг хараахан хэрэгжүүлээгүй байна. Олон лексик алдаа, тухайлбал үсгийн алдаа эсвэл ижил төстэй үгсийг буруу хэрэглэснээс үүссэн алдааг илрүүлдэггүй (жишээлбэл, жинжингийн оронд). Орчин үеийн CL-ийн судалгаа нь ийм алдааг автоматаар илрүүлэх, залруулах аргуудыг санал болгож байна, түүнчлэн зарим төрлийн хэв маягийн алдаа. Эдгээр аргууд нь үг, хэллэгийн тохиолдлын статистик мэдээллийг ашигладаг.

Текст бэлтгэхэд туслахтай ойр хэрэглээний ажил байгалийн хэл заах, энэ чиглэлийн хүрээнд англи, орос хэл гэх мэт хэл заах компьютерийн системийг ихэвчлэн хөгжүүлдэг (ижил төстэй системийг интернетээс олж болно). Ерөнхийдөө эдгээр системүүд нь хэлний бие даасан талыг (морфологи, үгсийн сан, синтакс) судлахад дэмжлэг үзүүлдэг бөгөөд зохих загварууд, жишээлбэл, морфологийн загвар дээр суурилдаг.

Үг хэллэгийг сурахын тулд текстийн толь бичгийн цахим аналогийг (үндсэндээ хэлний загваргүй) ашигладаг. Гэсэн хэдий ч текстийн аналоггүй, өргөн хүрээний хэрэглэгчдэд зориулагдсан олон үйлдэлт компьютерийн толь бичгүүдийг боловсруулж байна - жишээлбэл, Орос хэллэгийн Crosslexics толь бичиг. Энэхүү систем нь үг хэллэг, тэдгээрийн хүлээн зөвшөөрөгдсөн үгийн нэгдлүүдийг багтаасан өргөн хүрээг хамардаг бөгөөд үгийн менежментийн загвар, синоним, антоним болон бусад үгсийн утгын уялдаа холбоог тодорхойлоход тусалдаг бөгөөд энэ нь зөвхөн орос хэлийг судалдаг хүмүүст төдийгүй, гэхдээ мэдээж хэрэг болно. мөн төрөлх хэлтэй хүмүүст зориулсан.

Дараагийн дурдах нь зүйтэй хэрэглээний талбар юм автомат үүсгэх EA дахь текстүүд. Зарчмын хувьд энэ ажлыг дээр дурдсан машин орчуулгын ажлын дэд даалгавар гэж үзэж болох боловч чиглэлийн хүрээнд хэд хэдэн тодорхой ажлууд байдаг. Ийм ажил бол олон хэл дээр бий болгох, өөрөөр хэлбэл, албан ёсны хэл дээрх техникийн үзүүлэлтүүд дээр үндэслэн патентын томъёо, техникийн бүтээгдэхүүн эсвэл програм хангамжийн системийн ашиглалтын заавар зэрэг хэд хэдэн хэл дээр тусгай баримт бичгийг автоматаар бүтээх явдал юм. Энэ асуудлыг шийдэхийн тулд нэлээд нарийвчилсан хэлний загваруудыг ашигладаг.

Текст олборлолт гэж нэрлэдэг улам бүр хамааралтай асуудал юм мэдээлэл олборлохЭдийн засаг, үйлдвэрлэлийн аналитикийн асуудлыг шийдвэрлэхэд шаардлагатай текстээс эсвэл мэдээллийн олборлолт. Үүнийг хийхийн тулд тодорхой объектуудыг NL тестээр тодорхойлсон байдаг - нэртэй аж ахуйн нэгжүүд (нэр, хувь хүн, газарзүйн нэр), тэдгээрийн харилцаа холбоо, тэдгээртэй холбоотой үйл явдлууд. Дүрмээр бол энэ нь текстийг хэсэгчлэн задлах үндсэн дээр хэрэгждэг бөгөөд энэ нь мэдээллийн агентлагуудын мэдээний урсгалыг боловсруулах боломжийг олгодог. Даалгавар нь зөвхөн онолын хувьд төдийгүй технологийн хувьд нэлээд төвөгтэй тул текстээс мэдээлэл авах чухал системийг бий болгох нь арилжааны компаниудад боломжтой юм.

Текст олборлолтын хэсэгт мөн холбоотой өөр хоёр даалгаврыг багтаасан байдаг - үзэл бодол судлал (Opinion Mining) болон мэдрэмжийн шинжилгээ (Sentiment Analysis) нь улам бүр нэмэгдэж буй судлаачдын анхаарлыг татаж байна. Эхний ажил бол бүтээгдэхүүн болон бусад объектын талаархи хэрэглэгчийн санал бодлыг (блог, форум, онлайн дэлгүүр гэх мэт) хайх, мөн эдгээр санал бодлыг шинжлэх явдал юм. Хоёрдахь даалгавар нь олон нийтийн харилцааны текстийн агуулгад дүн шинжилгээ хийх сонгодог даалгавартай ойролцоо бөгөөд энэ нь мэдэгдлийн ерөнхий өнгө аясыг үнэлдэг.

Өөр нэг дурдах хэрэгтэй програм бол харилцан ярианы дэмжлэгаливаа мэдээллийн програм хангамжийн системийн хүрээнд EA дээр хэрэглэгчтэй. Ихэнхдээ энэ асуудлыг тусгай мэдээллийн санд зориулж шийддэг байсан - энэ тохиолдолд асуулгын хэл нь нэлээд хязгаарлагдмал (лексик болон дүрмийн хувьд) бөгөөд энэ нь хэлний хялбаршуулсан загварыг ашиглах боломжийг олгодог. NL хэлээр томъёолсон мэдээллийн сангийн асуулга нь албан ёсны хэл рүү хөрвүүлэгдсэний дараа шаардлагатай мэдээллийг хайж, холбогдох хариултын хэллэгийг бүтээдэг.

CL програмуудын жагсаалтын сүүлчийнх нь (гэхдээ чухал биш) бид үүнийг зааж байна яриа таних ба синтез. Эдгээр ажлуудад зайлшгүй гарч буй таних алдааг толь бичиг, морфологийн хэл шинжлэлийн мэдлэг дээр үндэслэн автомат аргаар засдаг. Мөн энэ салбарт машин сургалтыг ашиглах болно.

Дүгнэлт

Тооцооллын хэл шинжлэл нь NL хэл дээрх текстийг автоматаар боловсруулах янз бүрийн хэрэглээнд нэлээд бодит үр дүнг харуулж байна. Үүний цаашдын хөгжил нь олон асуудал шийдэгдээгүй байгаа шинэ програмууд гарч ирэх, янз бүрийн хэлний загваруудыг бие даан хөгжүүлэхээс хамаарна. Хамгийн их хөгжсөн загварууд нь морфологийн шинжилгээ ба синтез юм. Санал болгож буй олон тооны формализм, аргуудыг үл харгалзан синтакс загваруудыг тогтвортой, үр ашигтай ажиллах модулиудын түвшинд хараахан аваагүй байна. Хэд хэдэн хэрэглээнд яриаг автоматаар боловсруулах шаардлагатай болсон ч семантик ба прагматикийн түвшний загварууд бага судлагдсан, албан ёсоор хийгдсэн байдаг. Тооцооллын хэл шинжлэлийн аль хэдийн одоо байгаа хэрэгслүүд, машин сургалтын болон текстийн корпусыг ашиглах нь эдгээр асуудлын шийдлийг ихээхэн ахиулж чадна гэдгийг анхаарна уу.

Уран зохиол

1. Baeza-Yates, R. and Ribeiro-Neto, B. Modern Information Retrieval, Adison Wesley, 1999.

2. Bateman, J., Zock M. Natural Language Generation. Үүнд: Тооцооллын хэл шинжлэлийн Оксфордын гарын авлага. Митков Р. (ред.). Оксфордын их сургуулийн хэвлэл, 2003, х.304.

3. Бибер, Д., Конрад С., Реппен Д. Корпус хэл шинжлэл. Хэлний бүтэц, хэрэглээг судлах. Кембрижийн их сургуулийн хэвлэл, Кембриж, 1998.

4. Большаков, И.А., Гэлбухын хэл шинжлэл. Загвар, нөөц, хэрэглээ. Мексик, IPN, 2004.

5. Браун П., Пиетра С., Мерсер Р., Пиетра В. Статистикийн машин орчуулгын математик. // Тооцооллын хэл шинжлэл, боть. 19(2): 263-3

6. Carroll J R. Parsing. Үүнд: Тооцооллын хэл шинжлэлийн Оксфордын гарын авлага. Митков Р. (ред.). Оксфордын их сургуулийн хэвлэл, 2003, х. 233-248.

7. Chomsky, N. Үг хэллэгийн бүтэц. Гааг: Моутон, 1957 он.

8. Гришман Р. Мэдээллийн олборлолт. Үүнд: Тооцооллын хэл шинжлэлийн Оксфордын гарын авлага. Митков Р. (ред.). Оксфордын их сургуулийн хэвлэл, 2003, х. 545-559.

9. Харабагиу, С., Молдав Д. Асуулт хариулт. Үүнд: Тооцооллын хэл шинжлэлийн Оксфордын гарын авлага. Митков Р. (ред.). Оксфордын их сургуулийн хэвлэл, 2003, х. 560-582.

10. Херст, M. A. WordNet харилцааны автоматжуулсан нээлт. In: Fellbaum, C. (ed.) WordNet: Цахим лексик мэдээллийн сан. MIT Press, Cambridge, 1998, p.131-151.

11. Хирст, Г. Онтологи ба толь бичиг. In.: Мэдээллийн систем дэх онтологийн гарын авлага. Берлин, Спрингер, 2003 он.

12. Jacquemin C., Bourigault D. Нэр томъёоны олборлолт ба автомат индексжүүлэлт // Mitkov R. (ed.): Тооцооллын хэл шинжлэлийн гарын авлага. Оксфордын их сургуулийн хэвлэл, 2003. х. 599-615.

13. Kilgarriff, A., G. Grefenstette. Таамаглалын хэл шинжлэлийн хувьд вэб дээрх тусгай дугаарын танилцуулга, V. 29, No. 3, 2003, х. 333-347.

14. Мэннинг, Ч. D., H. Schütze. Байгалийн хэлний статистик боловсруулалтын үндэс. MIT хэвлэл, 1999.

15. Мацүмото Ю. Үг зүйн мэдлэг олж авах. Үүнд: Тооцооллын хэл шинжлэлийн Оксфордын гарын авлага. Митков Р. (ред.). Оксфордын их сургуулийн хэвлэл, 2003, х. 395-413.

16. Тооцооллын хэл шинжлэлийн Оксфордын гарын авлага. Р. Митков (Ред.). Оксфордын их сургуулийн хэвлэл, 2005.

17. Oakes, M., Paice C. D. Автомат хийсвэрлэх нэр томъёо олборлолт. Тооцооллын нэр томъёоны сүүлийн үеийн дэвшил. D. Bourigault, C. Jacquemin and M. L'Homme (Eds), John Benjamins Publishing Company, Амстердам, 2001, p.353-370.

18. Pedersen, T. Биграмын шийдвэрийн мод нь үгийн мэдрэхүйн үнэн зөв таамаглагч юм. Прок. NAC ACL-ийн 2 дахь жилийн хурал, Питтсбург, ПХГ, 2001, х. 79-86.

19. Samuelsson C. Статистикийн аргууд. Үүнд: Тооцооллын хэл шинжлэлийн Оксфордын гарын авлага. Митков Р. (ред.). Оксфордын их сургуулийн хэвлэл, 2003, х. 358-375.

20. Salton, G. Автомат текст боловсруулах: Компьютерээр мэдээллийг хувиргах, дүн шинжилгээ хийх, сэргээх. Reading, MA: Addison-Wesley, 1988.

21. Somers, H. Машины орчуулга: Сүүлийн үеийн хөгжил. Үүнд: Тооцооллын хэл шинжлэлийн Оксфордын гарын авлага. Митков Р. (ред.). Оксфордын их сургуулийн хэвлэл, 2003, х. 512-528.

22. Strzalkowski, T. (ed.) Байгалийн хэлний мэдээлэл олж авах. Клювер, 19х.

23. Woods W. A. ​​Transition Network Grammers for Natural language Analysis/ Communications of the ACM, V. 13, 1970, N 10, p. 591-606.

24. Word Net: Цахим лексик мэдээллийн сан. / Кристиан Феллбаум. Кембриж, MIT хэвлэл, 1998.

25. Wu J., Yu-Chia Chang Y., Teruko Mitamura T., Chang J. Automatic Colocation Suggestion in Academic Writing // ACL 2010 Conference Short Papers, 2010 он.

26. болон бусад ETAP-2 системийн хэл шинжлэлийн дэмжлэг. М .: Наука, 1989 он.

27. гэх мэт Өгөгдлийн шинжилгээний технологи: Data Mining, Visual Mining, Text Mining, OLAP – 2nd ed. – Санкт-Петербург: BHV-Петербург, 2008 он.

28. Большаков, Лексика - Орос үгсийн хослол, семантик холболтын томоохон цахим толь бичиг. //Комп. хэл шинжлэл, оюун ухаан. технологи: Proceedings int. Conf. "Харилцан яриа 2009". Дугаар: ОХУ-ын Хүмүүнлэгийн Ухааны Их Сургууль, 2009, 45-50-р тал.

29. Болшакова Е.И., Болшаков Оросын малапропизмыг илрүүлэх, автоматжуулсан залруулга // NTI. Сэр. 2, №5, 2007, хуудас 27-40.

30. Ван, Кинч V. Холбогдсон текстийг ойлгох стратеги // Гадаад хэл шинжлэлийн шинэ. Боть. XXIII – М., Прогресс, 1988, х. 153-211.

31. Васильев В.Г., Кривенко М.П. Текстийг автоматаар боловсруулах аргууд. – М.: IPI RAS, 2008.

32. Виноград Т. Байгалийн хэлийг ойлгодог програм - М., Мир, 1976.

33. Харилцаа холбооны автоматжуулсан систем дэх гөлгөр байгалийн хэлний бүтэц. - М., Наука, 1985.

34. Gusev, V. D., Саломатина паронимын толь бичиг: хувилбар 2. // NTI, Сер. 2, No7, 2001, х. 26-33.

35. Захаров - орон зай нь хэлний корпус // Компьютерийн хэл шинжлэл ба оюуны технологи: Олон улсын бүтээл. Чуулганы яриа хэлэлцээ '2005 / Ed. , – М.: Наука, 2005, х. 166-171.

36. Ерөнхий хэл шинжлэлийн Касевич. - М., Наука, 1977.

37. Леонтьев текстийн талаархи ойлголт: Систем, загвар, нөөц: Сурах бичиг - М.: Академи, 2006.

38. Хэл шинжлэлийн нэвтэрхий толь бичиг / Ред. V. N. Yartseva, M.: Зөвлөлтийн нэвтэрхий толь бичиг, 1990, 685 х.

39. , Салиумыг автоматаар индексжүүлэх, ангилах: хөгжүүлэлт, бүтэц, засвар үйлчилгээ. // NTI, Сер. 2, №1, 1996 он.

40. Luger J. Хиймэл оюун ухаан: нарийн төвөгтэй асуудлыг шийдвэрлэх стратеги, арга. М., 2005.

41. McQueen K. Байгалийн хэл дээрх текстийн синтезийн дискурсив стратеги // Гадаад хэл шинжлэлийн шинэ. Боть. XXIV. М.: Прогресс, 1989, 311-356 тал.

42. Мелчук хэл шинжлэлийн загваруудын онол “ТЕКСТ” УТГА. - М., Наука, 1974.

43. Орос хэлний үндэсний корпус. http://*****

44. Хорошевский V. F. OntosMiner: олон хэл дээрх баримт бичгийн цуглуулгаас мэдээлэл авах системүүдийн гэр бүл // Олон улсын оролцоотой хиймэл оюун ухааны үндэсний есдүгээр бага хурал KII-2004. T. 2. – М.: Физматлит, 2004, х.573-581.

КОМПЬЮТЕР ХЭЛ ЗҮЙ (Англи хэлний тооцооллын хэл шинжлэлийн ул мөр) нь хэрэглээний хэл шинжлэлийн нэг салбар бөгөөд хэлийг судлах, тодорхой нөхцөл байдал, нөхцөл байдал, асуудалд хэлний үйл ажиллагааг загварчлахад компьютерийн программууд, өгөгдлийг зохион байгуулах, боловсруулах компьютерийн технологийг боловсруулж ашигладаг. бүс нутаг. Нөгөөтэйгүүр, энэ нь хэл шинжлэл болон холбогдох салбаруудад компьютерийн хэлний загварыг ашиглах талбар юм. Шинжлэх ухааны тусгай чиглэлийн хувьд тооцооллын хэл шинжлэл нь 1960-аад онд Европын судалгаанд бүрэлдэн бий болсон. Англи хэлний тооцоолол гэсэн нэр томъёог "тооцооллын" гэж орчуулж болох тул "тооцооллын хэл шинжлэл" гэсэн нэр томъёо нь уран зохиолд байдаг боловч Оросын шинжлэх ухаанд энэ нь "тоон хэл шинжлэл" гэсэн ойлголттой ойртож, нарийссан утгатай байдаг.

"Тоон хэл шинжлэл" гэсэн нэр томъёог ихэвчлэн тооцооллын хэл шинжлэл гэж нэрлэдэг бөгөөд энэ нь хэрэглээний судалгааны салбар хоорондын чиглэлийг тодорхойлдог бөгөөд тоон болон статистик шинжилгээний аргуудыг хэл, яриаг судлах үндсэн хэрэгсэл болгон ашигладаг. Заримдаа тоон (эсвэл тоон) хэл шинжлэл нь хослол хэл шинжлэлээс ялгаатай байдаг. Сүүлд нь "тоон бус" математикийн аппарат зонхилох үүргийг гүйцэтгэдэг - олонлогийн онол, математик логик, алгоритмын онол гэх мэт. Онолын үүднээс хэл шинжлэлд статистикийн аргыг ашиглах нь хэл шинжлэлд нэмэлт оруулах боломжтой болгодог. магадлалын бүрэлдэхүүн хэсэг бүхий хэлний бүтцийн загвар, өөрөөр хэлбэл ихээхэн тайлбарлах чадвартай онолын бүтцийн-магадлалын загварыг бий болгох. Хэрэглээний талбарт тоон хэл шинжлэлийг юуны өмнө хэлний үйл ажиллагааг хэл шинжлэлийн хяналтанд ашиглах, кодлогдсон текстийн шифрийг тайлах, текстийн зөвшөөрөл/атрибут зэрэгт ашигладаг энэхүү загварын фрагментуудыг ашиглах замаар төлөөлдөг.

"Компьютерийн хэл шинжлэл" гэсэн нэр томъёо, энэ салбарын тулгамдсан асуудлууд нь ихэвчлэн харилцааны загварчлал, юуны түрүүнд компьютертэй байгалийн болон хязгаарлагдмал байгалийн хэлээр харилцах харилцааг хангахтай холбоотой байдаг (энэ зорилгоор байгалийн хэлийг боловсруулах тусгай системийг бий болгодог). ), түүнчлэн мэдээллийн технологийн хайлтын систем (IRS) -ийн онол, практикийн хамт. Байгалийн хэлээр хүн болон компьютерийн хоорондох харилцаа холбоог "байгалийн хэлний боловсруулалт" гэж нэрлэдэг (Англи хэлнээс "Байгалийн хэлний боловсруулалт" гэсэн нэр томъёоны орчуулга). Компьютерийн хэл шинжлэлийн энэ чиглэл нь 1960-аад оны сүүлээр гадаадад үүссэн бөгөөд хиймэл оюун ухаан гэж нэрлэгддэг шинжлэх ухаан, технологийн салбаруудын хүрээнд хөгжсөн (Р. Шенк, М. Лебовиц, Т. Виноград гэх мэт). Үүний утгаараа "байгалийн хэлний боловсруулалт" гэсэн хэллэг нь хэлний өгөгдлийг боловсруулахад компьютер ашигладаг бүх салбарыг хамрах ёстой. Гэсэн хэдий ч практикт энэ нэр томъёоны талаар илүү нарийссан ойлголт бий болсон - хүний ​​компьютертэй байгалийн болон хязгаарлагдмал байгалийн хэлээр харилцах боломжийг олгодог арга, технологи, тусгай системийг хөгжүүлэх.

Компьютерийн хэл шинжлэлд тодорхой хэмжээгээр текстийг зохион байгуулах тусгай арга, тэр ч байтугай шинэ төрлийн текст гэж тооцогддог, олон шинж чанараараа Гутенбергийн уламжлалаар бий болсон ердийн текстээс ялгаатай гипертекст системийг бий болгох чиглэлээр хийсэн ажлыг багтааж болно. хэвлэх (Гутенбергийг үзнэ үү).

Компьютерийн хэл шинжлэлийн ур чадвар нь автомат орчуулгыг багтаадаг.

Тооцооллын хэл шинжлэлийн хүрээнд 1980-90-ээд оноос хойш идэвхтэй хөгжиж буй харьцангуй шинэ чиглэл гарч ирэв - корпус хэл шинжлэл нь орчин үеийн компьютерийн технологийг ашиглан хэл шинжлэлийн мэдээллийн корпорац (ялангуяа текстийн корпус) байгуулах ерөнхий зарчмуудыг боловсруулж байна. . Текстийн корпус гэдэг нь ном, сэтгүүл, сонин гэх мэтээс тусгайлан сонгон авсан, компьютерийн зөөвөрлөгч рүү шилжүүлсэн, автоматаар боловсруулах зориулалттай текстийн цуглуулга юм. 1962-63 онд В.Франсисын удирдлаган дор Браун Их Сургуульд (Браун Корпус гэгддэг) Америкийн англи хэлэнд зориулсан анхны бичвэрүүдийн нэгийг бүтээжээ. Орос улсад 2000-аад оны эхэн үеэс Оросын ШУА-ийн В.Виноградовын нэрэмжит Орос хэлний хүрээлэнгээс 100 сая орчим орос хэл дээрх бичвэрийн төлөөллийн түүврээс бүрдсэн орос хэлний үндэсний корпусыг боловсруулж байна. үгийн хэрэглээ. Корпус хэл шинжлэл нь өгөгдлийн корпусыг бодитоор бүтээхээс гадна текстийн корпусаас янз бүрийн мэдээллийг гаргаж авах зориулалттай компьютерийн хэрэгслүүдийг (компьютерийн программууд) бий болгодог. Хэрэглэгчийн үүднээс авч үзвэл текстийн корпус нь төлөөлөх чанар, бүрэн бүтэн байдал, хэмнэлттэй байх шаардлагыг хангадаг.

Компьютерийн хэл шинжлэл Орос болон гадаадад идэвхтэй хөгжиж байна. Энэ чиглэлийн хэвлэлийн урсгал маш их байна. Сэдэвчилсэн цуглуулгуудаас гадна Computational Linguistics сэтгүүл 1984 оноос хойш АНУ-д улирал тутам хэвлэгдэж байна. Зохион байгуулалт, шинжлэх ухааны олон ажлыг дэлхий даяар бүс нутгийн бүтэцтэй (ялангуяа Европын салбар) Тооцооллын хэл шинжлэлийн холбоо гүйцэтгэдэг. Олон улсын КОЛИНТ-ийн бага хурлууд хоёр жил тутамд болдог (2008 онд Манчестерт бага хурал болсон). Тооцооллын хэл шинжлэлийн үндсэн чиглэлүүдийг Оросын хиймэл оюун ухааны судалгааны хүрээлэн, Москвагийн улсын их сургуулийн Филологийн факультет, Yandex болон бусад олон байгууллагаас жил бүр зохион байгуулдаг "Яриа яриа" олон улсын бага хурлын үеэр хэлэлцдэг. Төрөл бүрийн түвшний хиймэл оюун ухааны олон улсын бага хуралд холбогдох асуудлуудыг өргөнөөр төлөөлдөг.

Лит.: Звегинцев В.А. Онолын болон хэрэглээний хэл шинжлэл. М., 1968; Пиотровский Р.Г., Бектаев К.Б., Пиотровская А.А. Математик хэл шинжлэл. М., 1977; Городецкий Б. Ю. Хэрэглээний хэл шинжлэлийн өнөөгийн асуудлууд // Гадаад хэл шинжлэлийн шинэ. М., 1983. Дугаар. 12; Кибрик A. E. Хэрэглээний хэл шинжлэл // Кибрик A. E. Хэл шинжлэлийн ерөнхий ба хэрэглээний асуудлын талаархи эссэ. М., 1992; Кеннеди Г. Корпус хэл шинжлэлийн танилцуулга. Л., 1998; Болшаков И.А., Гельбух А. Тооцооллын хэл шинжлэл: загвар, нөөц, хэрэглээ. Мех., 2004; Орос хэлний үндэсний корпус: 2003-2005 он. М., 2005; Баранов A. N. Хэрэглээний хэл шинжлэлийн танилцуулга. 3-р хэвлэл. М., 2007; Компьютерийн хэл шинжлэл, оюуны технологи. М., 2008. Дугаар. 7.

Өгүүллийн агуулга

КОМПЬЮТЕРИЙН ХЭЛ ЗҮЙ,Хэрэглээний хэл шинжлэлийн чиглэл нь тодорхой нөхцөл байдал, нөхцөл байдал, асуудлын талбар гэх мэт хэлний үйл ажиллагааг загварчлах, түүнчлэн хэрэглээний бүх хүрээг хамарсан компьютерийн хэрэгсэл - программууд, өгөгдлийг зохион байгуулах, боловсруулах компьютерийн технологийг ашиглахад чиглэгддэг. Хэл шинжлэл болон холбогдох салбар дахь компьютерийн хэлний загварууд. Үнэн хэрэгтээ зөвхөн сүүлийн тохиолдолд бид хэрэглээний хэл шинжлэлийн талаар хатуу утгаараа ярьж байна, учир нь хэлний компьютерийн загварчлалыг компьютерийн шинжлэх ухаан, програмчлалын онолыг хэлний шинжлэх ухааны асуудлыг шийдвэрлэхэд ашиглах талбар гэж үзэж болно. Гэвч практикт тооцооллын хэл шинжлэл нь хэл шинжлэлд компьютер ашиглахтай холбоотой бараг бүх зүйлийг багтаадаг.

Тооцооллын хэл шинжлэл нь 1960-аад онд шинжлэх ухааны тусгай салбар болж төлөвшсөн. "Компьютер хэл шинжлэл" гэсэн орос хэллэг нь англи хэлний тооцооллын хэл шинжлэлийн орчуулга юм. Орос хэл дээрх тооцооллын нэр томъёог "тооцооллын" гэж орчуулж болох тул "тооцооллын хэл шинжлэл" гэсэн нэр томъёо нь уран зохиолд байдаг боловч Оросын шинжлэх ухаанд энэ нь "тоон хэл шинжлэл" гэсэн ойлголттой ойртож, нарийссан утгатай байдаг. Энэ чиглэлийн хэвлэлийн урсгал маш их байна. Сэдэвчилсэн цуглуулгаас гадна Компьютерийн хэл шинжлэлийн сэтгүүл АНУ-д улирал бүр хэвлэгддэг. Зохион байгуулалт, шинжлэх ухааны олон ажлыг бүс нутгийн бүтэцтэй (ялангуяа Европын салбар) Тооцооллын хэл шинжлэлийн холбоо гүйцэтгэдэг. Хоёр жил тутам COLING хэмээх тооцооллын хэл шинжлэлийн олон улсын бага хурал болдог. Холбогдох асуудлуудыг ихэвчлэн хиймэл оюун ухааны талаархи янз бүрийн бага хуралд өргөнөөр оролцуулдаг.

Тооцооллын хэл шинжлэлийн хэрэгсэл.

Тооцооллын хэл шинжлэл нь хэрэглээний тусгай салбар болохын хувьд үндсэн хэрэглүүрээрээ ялгагдана - өөрөөр хэлбэл. хэлний өгөгдлийг боловсруулах компьютерийн хэрэгслийг ашиглах талаар. Хэлний үйл ажиллагааны тодорхой талыг загварчлах компьютерийн программууд нь олон төрлийн програмчлалын хэрэгслийг ашиглах боломжтой тул компьютерийн хэл шинжлэлийн ерөнхий ойлголтын аппаратын талаар ярих шаардлагагүй юм шиг санагддаг. Гэсэн хэдий ч энэ нь үнэн биш юм. Компьютерийн сэтгэхүйн загварчлалын ерөнхий зарчмууд байдаг бөгөөд тэдгээрийг ямар нэгэн байдлаар компьютерийн загварт хэрэгжүүлдэг. Эдгээр нь анх хиймэл оюун ухааны салбарт бий болсон мэдлэгийн онолд тулгуурлан, улмаар танин мэдэхүйн шинжлэх ухааны нэг салбар болсон юм. Компьютерийн хэл шинжлэлийн хамгийн чухал ойлголтын ангилал бол "хүрээ" (үзэл баримтлал, эсвэл тэдний хэлснээр сэдэвчилсэн нэгдмэл нөхцөл байдлын талаархи мэдлэгийг тунхаглах үзэл баримтлалын бүтэц), "сценари" (процедурын талаархи ойлголтын бүтэц) зэрэг мэдлэгийн бүтэц юм. хэвшмэл нөхцөл байдал эсвэл хэвшмэл зан үйлийн талаархи мэдлэгийн төлөөлөл), "төлөвлөгөө" (тодорхой зорилгод хүрэхэд хүргэж болзошгүй үйлдлүүдийн талаархи санаа бодлыг агуулсан мэдлэгийн бүтэц). Хүрээний ангилалтай нягт холбоотой нь "үзэгдэл" гэсэн ойлголт юм. Үзэгдлийн ангиллыг компьютерийн хэл шинжлэлийн уран зохиолд голчлон хэл шинжлэлийн хэрэгслээр (лексем, синтаксик бүтэц, дүрмийн категори гэх мэт) тодруулсан нөхцөл байдал, тэдгээрийн хэсгүүдийг ярианы үйлдлээр илэрхийлэх концепцийн бүтцийн тэмдэглэгээ болгон ашигладаг. .

Мэдлэгийн бүтцийн зохион байгуулалттай багц нь танин мэдэхүйн системийн "дэлхийн загвар" ба түүний компьютерийн загварыг тодорхой хэлбэрээр бүрдүүлдэг. Хиймэл оюун ухааны системд дэлхийн загвар нь сонгосон архитектураас хамааран дэлхийн талаархи ерөнхий мэдлэгийг агуулсан тусгай блок үүсгэдэг ("өвөл хүйтэн байна" гэх мэт энгийн саналууд эсвэл үйлдвэрлэлийн дүрмийн хэлбэрээр) "Хэрэв гадаа бороо орж байвал борооны цув өмсөх эсвэл шүхэр авах хэрэгтэй"), зарим тодорхой баримтууд ("Дэлхийн хамгийн өндөр оргил бол Эверест"), түүнчлэн үнэт зүйлс, тэдгээрийн шатлалыг заримдаа хуваадаг. тусгай "аксиологийн блок".

Тооцооллын хэл шинжлэлийн хэрэгслийн үзэл баримтлалын ихэнх элементүүд нь ижил утгатай байдаг: тэдгээр нь хүний ​​танин мэдэхүйн системийн зарим бодит нэгжүүдийг нэгэн зэрэг онолын тайлбар, загварчлахад ашигладаг эдгээр объектуудыг төлөөлөх арга замыг тодорхойлдог. Өөрөөр хэлбэл, компьютерийн хэл шинжлэлийн үзэл баримтлалын аппаратын элементүүд нь онтологийн болон хэрэглүүрийн шинж чанартай байдаг. Жишээлбэл, онтологийн хувьд тунхаглалын болон процедурын мэдлэгийг хуваах нь тухайн хүнд байдаг өөр өөр төрлийн мэдлэгтэй нийцдэг - ЮУ гэж нэрлэгддэг мэдлэг (мэдээлэл; жишээлбэл, аливаа NN-ийн шуудангийн хаягийн талаархи мэдлэг), нэг талаас, мэдлэг ХЭРХЭН (процедурын; жишээлбэл, энэ NN-ийн орон сууцыг албан ёсны хаягийг нь мэдэхгүй ч гэсэн олох боломжийг олгодог мэдлэг) - нөгөө талаас. Хэрэгслийн хувьд мэдлэгийг нэг талаас багц тайлбар (тайлбар), өгөгдлийн багц, компьютер эсвэл танин мэдэхүйн системийн бусад загвараар гүйцэтгэсэн алгоритм, зааварчилгаанд тусгаж болно. нөгөө талд.

Тооцооллын хэл шинжлэлийн чиглэлүүд.

CL-ийн салбар нь маш олон талт бөгөөд харилцаа холбооны компьютерийн загварчлал, схемийн бүтцийн загварчлал, текстийг танилцуулах гипертекст технологи, машин орчуулга, компьютерийн толь бичиг зүй зэрэг салбаруудыг багтаадаг. Нарийн утгаараа CL-ийн асуудлууд нь ихэвчлэн "байгалийн хэлний боловсруулалт" (Англи хэл дээрх "Байгалийн хэлний боловсруулалт" гэсэн нэр томъёоны орчуулга) гэсэн таагүй нэртэй салбар хоорондын хэрэглээний салбартай холбоотой байдаг. Энэ нь 1960-аад оны сүүлээр үүссэн бөгөөд "хиймэл оюун ухаан" хэмээх шинжлэх ухаан, технологийн чиглэлээр хөгжсөн. Дотоод хэлбэрээрээ "байгалийн хэлний боловсруулалт" гэсэн хэллэг нь хэлний өгөгдлийг боловсруулахад компьютер ашигладаг бүх салбарыг хамардаг. Үүний зэрэгцээ энэ нэр томъёоны талаар илүү нарийссан ойлголт нь практикт хэрэгжиж эхэлсэн - хүний ​​компьютертэй байгалийн эсвэл хязгаарлагдмал байгалийн хэлээр харилцах боломжийг олгодог арга, технологи, тусгай системийг хөгжүүлэх.

1970-аад онд "байгалийн хэлний боловсруулалтын" салбарын хурдацтай хөгжил нь компьютерийн эцсийн хэрэглэгчдийн тоо гэнэтийн экспоненциал өсөлттэй холбоотой байв. Бүх хэрэглэгчдэд хэл, програмчлалын технологийг заах боломжгүй тул компьютерийн программуудтай харилцах ажлыг зохион байгуулах асуудал гарч ирэв. Энэхүү харилцааны асуудлыг шийдэх арга нь хоёр үндсэн замыг дагаж мөрдсөн. Эхний тохиолдолд програмчлалын хэл, үйлдлийн системийг эцсийн хэрэглэгчдэд тохируулах оролдлого хийсэн. Үүний үр дүнд Visual Basic зэрэг өндөр түвшний хэлүүд, түүнчлэн хүмүүст танил метафорын концепцийн орон зайд бүтээгдсэн тохиромжтой үйлдлийн системүүд гарч ирэв - DESK, LIBRARY. Хоёрдахь арга бол байгалийн хэлээр эсвэл түүний хязгаарлагдмал хувилбараар тодорхой асуудлын талбарт компьютертэй харилцах боломжийг олгодог системийг хөгжүүлэх явдал юм.

Байгалийн хэлний боловсруулалтын системийн архитектурт ерөнхий тохиолдолд хэрэглэгчийн ярианы мессежийг шинжлэх блок, мессежийг тайлбарлах блок, хариултын утгыг үүсгэх блок, мэдэгдлийн гадаргуугийн бүтцийг нэгтгэх блок орно. Системийн тусгай хэсэг нь яриа хэлэлцээ хийх стратеги, эдгээр стратегийг ашиглах нөхцөл, харилцааны болзошгүй доголдлыг арилгах арга замыг (харилцаа холбооны үйл явц дахь алдаа) бүртгэдэг харилцан ярианы бүрэлдэхүүн хэсэг юм.

Компьютерийн байгалийн хэлийг боловсруулах системүүдийн дотроос асуулт хариултын систем, интерактив бодлого шийдвэрлэх систем, холбогдсон текст боловсруулах системүүд ихэвчлэн ялгагдана. Анх асуулт хариултын системүүд нь мэдээлэл хайх системд мэдээлэл хайх үед асуулгын кодчиллын чанар муутай хариу үйлдэл болгон хөгжүүлж эхэлсэн. Ийм системүүдийн асуудлын талбар нь маш хязгаарлагдмал байсан тул энэ нь асуулгад албан ёсны хэл дээрх дүрслэлийг хөрвүүлэх алгоритмууд болон албан ёсны дүрслэлийг байгалийн хэл дээрх мэдэгдэл болгон хөрвүүлэх урвуу процедурыг бага зэрэг хялбаршуулсан. Дотоодын бүтээн байгуулалтуудын дунд энэ төрлийн хөтөлбөрүүдэд Е.В.Поповын удирдлаган дор судлаачдын баг бүтээсэн POET систем орно. Систем нь орос хэл дээрх хүсэлтийг (бага зэргийн хязгаарлалттай) боловсруулж, хариултыг нэгтгэдэг. Хөтөлбөрийн схем нь шинжилгээний бүх үе шат (морфологи, синтаксик ба семантик) болон синтезийн холбогдох үе шатуудыг дамждаг.

Харилцан ярианы асуудал шийдвэрлэх систем нь өмнөх төрлийн системүүдээс ялгаатай нь харилцаа холбоонд идэвхтэй үүрэг гүйцэтгэдэг, учир нь тэдний үүрэг бол түүнд танилцуулсан мэдлэг, хэрэглэгчээс олж авсан мэдээлэлд үндэслэн асуудлын шийдлийг олж авах явдал юм. Энэхүү систем нь тухайн асуудлын талбарт асуудлыг шийдвэрлэх үйлдлүүдийн ердийн дарааллыг бүртгэх мэдлэгийн бүтэц, түүнчлэн шаардлагатай нөөцийн талаархи мэдээллийг агуулдаг. Хэрэглэгч асуулт асуух эсвэл тодорхой даалгавар өгөх үед холбогдох скрипт идэвхждэг. Хэрэв скриптийн зарим бүрэлдэхүүн хэсэг байхгүй эсвэл зарим нөөц байхгүй бол систем харилцаа холбоог эхлүүлнэ. Жишээлбэл, SNUKA систем ийм байдлаар ажиллаж, цэргийн ажиллагааг төлөвлөх асуудлыг шийддэг.

Холбогдсон текстийг боловсруулах системүүд нь бүтцийн хувьд нэлээд олон янз байдаг. Тэдний нийтлэг шинж чанарыг мэдлэгийг илэрхийлэх технологийг өргөнөөр ашиглах явдал гэж үзэж болно. Энэ төрлийн системийн үүрэг бол текстийг ойлгох, түүний агуулгын талаархи асуултуудад хариулах явдал юм. Ойлголтыг бүх нийтийн ангилал гэж үздэггүй, харин харилцааны тодорхой зорилгын дагуу тодорхойлогдсон текстээс мэдээлэл авах үйл явц гэж үздэг. Өөрөөр хэлбэл, текстийг зөвхөн боломжит хэрэглэгч яг юу мэдэхийг хүсч байна гэсэн таамаглалтайгаар "уншдаг". Тиймээс холбогдсон текстийг боловсруулах систем нь бүх нийтийн биш, харин асуудалд чиглэсэн систем болж хувирдаг. Хэлэлцэж буй төрлийн системийн ердийн жишээ бол RESERCHER болон TAILOR системүүд бөгөөд энэ нь хэрэглэгчдэд нарийн төвөгтэй физик объектуудыг дүрсэлсэн патентын хураангуйгаас мэдээлэл авах боломжийг олгодог нэг програм хангамжийн багцыг бүрдүүлдэг.

Компьютерийн хэл шинжлэлийн хамгийн чухал чиглэл бол мэдээлэл хайх системийг (IRS) хөгжүүлэх явдал юм. Сүүлийнх нь 1950-иад оны сүүлч, 1960-аад оны эхээр шинжлэх ухаан, техникийн мэдээллийн хэмжээ огцом нэмэгдсэний хариуд үүссэн. Хадгалж, боловсруулж буй мэдээллийн төрөл, түүнчлэн хайлтын онцлогоос хамааран мэдээлэл хайх системийг баримтат болон бодит гэсэн хоёр том бүлэгт хуваадаг. Баримт бичгийн мэдээлэл хайх систем нь баримт бичгийн текст эсвэл тэдгээрийн тайлбарыг (хураангуй, ном зүйн карт гэх мэт) хадгалдаг. Factual IRS нь тодорхой баримтуудын тайлбарыг авч үздэг бөгөөд текст хэлбэрээр байх албагүй. Эдгээр нь хүснэгт, томьёо болон бусад төрлийн өгөгдлийн танилцуулга байж болно. Мөн баримт бичиг, бодит мэдээллийг багтаасан холимог мэдээллийн системүүд байдаг. Одоогийн байдлаар өгөгдлийн сангийн технологи (DB) дээр үндэслэн бодит мэдээллийн системийг бий болгож байна. Мэдээлэл хайх системд мэдээлэл олж авах боломжийг хангахын тулд мэдээлэл хайх үг хэллэг дээр суурилсан тусгай мэдээлэл хайх хэлүүдийг бий болгодог. Мэдээлэл хайх хэл нь мэдээлэл хайх систем болон хүсэлтэд хадгалагдаж буй баримт бичгийн агуулгын төлөвлөгөөний тодорхой хэсгийг тодорхойлоход зориулагдсан албан ёсны хэл юм. Баримт бичгийг мэдээлэл хайх хэлээр тайлбарлах процедурыг индексжүүлэх гэж нэрлэдэг. Индексжүүлсний үр дүнд баримт бичиг бүрийг мэдээлэл хайх хэлээр албан ёсны тайлбарыг өгдөг - баримт бичгийн хайлтын дүрс. Асуулга нь ижил төстэй байдлаар индексжүүлсэн бөгөөд үүнд хайлтын асуулгын зураг болон хайлтын жорыг оноодог. Мэдээлэл хайх алгоритмууд нь хайлтын жорыг асуулгын хайлтын зурагтай харьцуулах үндсэн дээр суурилдаг. Хүсэлтэд баримт бичгийг гаргах шалгуур нь тухайн баримт бичгийн хайлтын зураг болон хайлтын заавартай бүрэн буюу хэсэгчилсэн тохирч байж болно. Зарим тохиолдолд хэрэглэгч өөрөө гаргах шалгуурыг томъёолох боломжтой байдаг. Энэ нь түүний мэдээллийн хэрэгцээгээр тодорхойлогддог. Мэдээллийн автоматжуулсан систем нь ихэвчлэн тодорхойлогч мэдээлэл хайх хэлийг ашигладаг. Баримт бичгийн сэдэв нь тодорхойлогчдын багцаар тодорхойлогддог. Тодорхойлогч нь асуудлын талбарын энгийн, нэлээд энгийн ангилал, ойлголтыг илэрхийлэх үг, нэр томъёо юм. Баримт бичигт тусгагдсан өөр өөр сэдвүүд байгаа тул тухайн баримт бичгийн хайлтын зурагт олон тодорхойлогч орсон байна. Тодорхойлогчдын тоо хязгаарлагдмал биш бөгөөд энэ нь баримт бичгийг олон хэмжээст матрицад дүрслэх боломжийг олгодог. Ихэнхдээ тодорхойлогчийн мэдээлэл хайх хэлээр тодорхойлогчдын нийцтэй байдалд хязгаарлалт тавьдаг. Энэ тохиолдолд мэдээлэл хайх хэл нь синтакстай гэж хэлж болно.

Тодорхойлогч хэлтэй ажиллаж байсан анхны системүүдийн нэг бол М.Таубегийн бүтээсэн Америкийн UNITERM систем юм. Баримт бичгийн түлхүүр үгс-uniterms- энэ системд тодорхойлогчийн үүрэг гүйцэтгэсэн. Энэхүү IRS-ийн онцлог нь мэдээллийн хэлний толь бичгийг анх заагаагүй боловч баримт бичиг, асуулга индексжүүлэх явцад үүссэн явдал юм. Орчин үеийн мэдээлэл хайх системийн хөгжил нь тезаурусын бус төрлийн мэдээлэл хайх системийг хөгжүүлэхтэй холбоотой юм. Ийм мэдээллийн систем нь хэрэглэгчтэй байгалийн хязгаарлагдмал хэлээр ажилладаг бөгөөд хайлтыг баримт бичгийн хураангуй текст, тэдгээрийн ном зүйн тайлбар, ихэвчлэн баримт бичгүүдээр дамжуулан хийдэг. Тезаурусын бус төрлийн IRS-д индексжүүлэхийн тулд байгалийн хэлний үг, хэллэгийг ашигладаг.

Компьютерийн хэл шинжлэлийн салбарт тодорхой хэмжээгээр текстийг зохион байгуулах тусгай арга, тэр ч байтугай үндсэн шинэ төрлийн текст гэж үздэг гипертекст системийг бий болгох чиглэлээр хийсэн ажлыг багтааж болно. Гутенбергийн хэвлэх уламжлал. Гипертекстийн санаа нь Ерөнхийлөгч Ф.Рузвельтийн шинжлэх ухааны зөвлөх Ванневар Бушийн нэртэй холбоотой юм. В.Буш Memex техникийн системийн төслийг онолын хувьд үндэслэл болгосон бөгөөд энэ нь хэрэглэгчдэд янз бүрийн төрлийн холболтыг ашиглан текст болон тэдгээрийн фрагментуудыг голчлон ассоциатив харилцаагаар холбох боломжийг олгосон. Механик систем нь практик хэрэгжүүлэхэд хэтэрхий төвөгтэй болж хувирсан тул компьютерийн технологи дутмаг байсан нь төслийг хэрэгжүүлэхэд хэцүү болсон.

Бушийн санаа 1960-аад онд Т.Нэлсоны "Занаду" системд дахин төрсөн бөгөөд энэ нь компьютерийн технологийг аль хэдийн ашиглаж байсан юм. "Xanadu" нь хэрэглэгчдэд системд оруулсан текстийн багцыг өөр өөр дарааллаар унших боломжийг олгосон; Тэдгээрийг холбосон харилцаа холбоо бүхий бичвэрийн багцыг (шилжилтийн систем) Т.Нельсон гипертекст гэж нэрлэсэн. Олон судлаачид гипертекст бүтээх нь хэвлэлийн эрин үеийн эсрэг мэдээллийн шинэ эриний эхлэл гэж үздэг. Ярианы шугаман байдлыг гадна талаас нь харуулсан бичгийн шугаман чанар нь хүний ​​сэтгэхүй, текстийг ойлгох чадварыг хязгаарладаг үндсэн ангилал болж хувирдаг. Утгын ертөнц нь шугаман бус байдаг тул ярианы шугаман сегмент дэх семантик мэдээллийг шахах нь тусгай "харилцааны багц" -ыг ашиглахыг шаарддаг - сэдэв, хэллэг болгон хуваах, өгүүлбэрийн агуулгын төлөвлөгөөг тодорхой болгон хуваах (мэдэгдэл, санал, анхаарал хандуулах). ) болон далд (урьдчилан таамаглал, үр дагавар, ярианы далдлал) давхаргууд . Онолчдын үзэж байгаагаар текстийг уншигчдад үзүүлэх явцад (жишээ нь унших, ойлгох явцад) болон синтезийн явцад хоёулангийнх нь шугаман байдлаас татгалзах нь сэтгэлгээг "чөлөөтлөх", тэр ч байтугай түүний үүсэхэд хувь нэмэр оруулна. шинэ хэлбэрүүд.

Компьютерийн системд гипертекстийг график хэлбэрээр үзүүлдэг бөгөөд тэдгээрийн зангилаа нь уламжлалт текст эсвэл тэдгээрийн хэлтэрхий, зураг, хүснэгт, видео гэх мэтийг агуулдаг. Зангилаанууд нь төрөл бүрийн харилцаа холбоогоор холбогддог бөгөөд тэдгээрийн төрлийг гипертекст програм хангамж хөгжүүлэгчид эсвэл уншигч өөрөө тодорхойлдог. Харилцаа нь хөдөлгөөн, эсвэл гипертекстээр дамжуулан навигацийн боломжит боломжийг тодорхойлдог. Харилцаа нь нэг чиглэлтэй эсвэл хоёр чиглэлтэй байж болно. Үүний дагуу хоёр чиглэлтэй сум нь хэрэглэгчийг хоёр чиглэлд шилжүүлэх боломжийг олгодог бол нэг чиглэлтэй сум нь хэрэглэгчийг зөвхөн нэг чиглэлд шилжүүлэх боломжийг олгодог. Текстийн бүрэлдэхүүн хэсгүүдийг үзэх үед уншигч дамждаг зангилааны хэлхээ нь зам буюу маршрутыг бүрдүүлдэг.

Гипертекстийн компьютерийн хэрэгжилт нь шаталсан эсвэл сүлжээтэй байж болно. Гипертекстийн шаталсан мод шиг бүтэц нь түүний бүрэлдэхүүн хэсгүүдийн хооронд шилжих боломжийг ихээхэн хязгаарладаг. Ийм гипертекстэд бүрэлдэхүүн хэсгүүдийн хоорондын хамаарал нь төрөл зүйл-төрөл зүйлийн харилцаанд суурилсан тезаурусын бүтэцтэй төстэй байдаг. Сүлжээний гипертекст нь төрөл зүйл хоорондын харилцаагаар хязгаарлагдахгүй бүрэлдэхүүн хэсгүүдийн хооронд янз бүрийн төрлийн харилцааг ашиглах боломжийг олгодог. Гипертекстийн оршин тогтнох аргын дагуу статик ба динамик гипертекстийг ялгадаг. Үйл ажиллагааны явцад статик гипертекст өөрчлөгддөггүй; Үүнд хэрэглэгч өөрийн сэтгэгдлээ бичиж болно, гэхдээ энэ нь асуудлын мөн чанарыг өөрчлөхгүй. Динамик гипертекстийн хувьд өөрчлөлт нь оршихуйн ердийн хэлбэр юм. Ерөнхийдөө динамик гипертекстүүд нь мэдээллийн урсгалд байнга дүн шинжилгээ хийх шаардлагатай газруудад ажилладаг. төрөл бүрийн мэдээллийн үйлчилгээнд. Гипертекст нь жишээлбэл, Аризонагийн мэдээллийн систем (AAIS) бөгөөд сар бүр 300-500 хураангуйгаар шинэчлэгддэг.

Гипертекстийн элементүүдийн хоорондын харилцааг анх бүтээгчид засч залруулах эсвэл хэрэглэгч гипертекстэд хандах болгонд үүсгэж болно. Эхний тохиолдолд бид хатуу бүтэцтэй гипертекстүүдийн тухай, хоёрдугаарт зөөлөн бүтэцтэй гипертекстүүдийн тухай ярьж байна. Хатуу бүтэц нь технологийн хувьд нэлээд ойлгомжтой байдаг. Зөөлөн бүтцийг зохион байгуулах технологи нь баримт бичгийн (эсвэл бусад мэдээллийн эх сурвалж) бие биентэйгээ ойр байх семантик шинжилгээнд суурилсан байх ёстой. Энэ бол тооцооллын хэл шинжлэлийн хувьд өчүүхэн биш ажил юм. Өнөө үед түлхүүр үгэнд зөөлөн бүтцийн технологийг ашиглах нь өргөн тархсан. Гипертекст сүлжээний нэг зангилаанаас нөгөөд шилжих нь түлхүүр үг хайх үр дүнд хийгддэг. Түлхүүр үгсийн багц цаг бүрт өөр өөр байж болох тул гипертекстийн бүтэц бүр өөрчлөгддөг.

Гипертекст системийг бий болгох технологи нь текст болон текст бус мэдээллийг ялгадаггүй. Үүний зэрэгцээ, харааны болон аудио мэдээллийг (видео, зураг, гэрэл зураг, дууны бичлэг гэх мэт) оруулах нь хэрэглэгчийн интерфэйсийг мэдэгдэхүйц өөрчлөх, илүү хүчирхэг програм хангамж, компьютерийн дэмжлэгийг шаарддаг. Ийм системийг гипермедиа буюу мультимедиа гэж нэрлэдэг. Мультимедиа системийн харагдах байдал нь тэдний боловсрол, нэвтэрхий толь бичгийн компьютерийн хувилбарыг бий болгоход өргөнөөр ашиглах боломжийг урьдчилан тодорхойлсон. Жишээлбэл, Дорлин Киндерслигийн гаргасан хүүхдийн нэвтэрхий толь бичигт үндэслэсэн мультимедиа систем бүхий гоёмсог CD-ромууд байдаг.

Компьютерийн толь бичгийн хүрээнд толь бичиг зохиох, ажиллуулах компьютерийн технологийг боловсруулж байна. Тусгай програмууд - мэдээллийн сан, компьютерийн файлын кабинет, үг боловсруулах програмууд нь толь бичгийн оруулгыг автоматаар үүсгэх, толь бичгийн мэдээллийг хадгалах, боловсруулах боломжийг олгодог. Олон төрлийн компьютерийн лексикографийн програмуудыг хоёр том бүлэгт хуваадаг: үг хэлзүйн ажлыг дэмжих програмууд, янз бүрийн төрлийн автомат толь бичиг, түүний дотор үг зүйн мэдээллийн сан. Автомат толь бичиг нь хэрэглэгч эсвэл компьютерийн үг боловсруулах программыг компьютер дээр ашиглах зориулалттай тусгай машины форматтай толь бичиг юм. Өөрөөр хэлбэл, хүний ​​эцсийн хэрэглэгчдэд зориулсан автомат толь бичиг, үг боловсруулах программын автомат толь бичиг хоёрын хооронд ялгаа бий. Эцсийн хэрэглэгчдэд зориулсан автомат толь бичгүүд нь толь бичгийн интерфейс, бүтцийн хувьд машин орчуулгын систем, автомат хийсвэрлэх систем, мэдээлэл хайх систем гэх мэт автомат толь бичгүүдээс эрс ялгаатай байдаг. Ихэнхдээ эдгээр нь алдартай толь бичгүүдийн компьютерийн хувилбарууд юм. Програм хангамжийн зах зээл дээр англи хэлний тайлбар толь бичгийн компьютерийн аналогууд байдаг (автомат Вэбстер, Коллинзийн хэвлэсэн англи хэлний автомат тайлбар толь бичиг, Ю.Д. Апресян найруулсан Англи-Орос шинэ том толь бичгийн автомат хувилбар). болон Е.М.Медникова), Ожеговын толь бичгийн компьютерийн хувилбар бас бий. Үг боловсруулах програмын автомат толь бичгүүдийг хатуу утгаараа автомат толь бичиг гэж нэрлэж болно. Тэд ерөнхийдөө дундаж хэрэглэгчдэд зориулагдаагүй болно. Тэдгээрийн бүтцийн онцлог, үгсийн сангийн материалын хамрах хүрээг тэдэнтэй харьцдаг програмууд тодорхойлдог.

Хэл шинжлэлийн өөр нэг ирээдүйтэй чиглэл бол талбайн бүтцийг компьютерээр загварчлах явдал юм. Зохиолын бүтцийг судлах нь бүтцийн утга зохиолын шүүмж (өргөн утгаараа), семиотик ба соёл судлалын асуудалтай холбоотой юм. Хуйвалдааныг загварчлах боломжтой компьютерийн программууд нь хуйвалдааны дүрслэлийн гурван үндсэн формализм дээр суурилдаг - хуйвалдааны дүрслэлийн морфологи, синтаксик чиглэл, түүнчлэн танин мэдэхүйн хандлага. Хуйвалдааны бүтцийн морфологийн бүтцийн талаархи санаанууд нь В.Я Проппын алдартай бүтээлүүдэд буцаж ирдэг. см.) Оросын үлгэрийн тухай. Үлгэрт олон дүр, үйл явдал тохиолдохын хэрээр баатруудын үүргийн тоо хязгаарлагдмал байдгийг Пропп анзаарч, эдгээр функцийг дүрслэх төхөөрөмжийг санал болгов. Проппын санаанууд нь үлгэрийн хуйвалдаан үүсгэхийг дуурайдаг TALE компьютерийн програмын үндэс суурь болсон. TALE хөтөлбөрийн алгоритм нь үлгэрийн баатруудын үйл ажиллагааны дараалал дээр суурилдаг. Үнэн хэрэгтээ Проппын функцууд нь эмпирик материалын дүн шинжилгээнд үндэслэн эрэмбэлсэн тодорхой нөхцөл байдлын багцыг тодорхойлсон. Төрөл бүрийн нөхцөл байдлыг бий болгох дүрмийн дагуу холбох боломжийг ердийн функцүүдийн дарааллаар тодорхойлдог - үүнийг үлгэрийн бичвэрүүдээс тогтоож болох хэлбэрээр. Хөтөлбөрт ердийн функцүүдийн дарааллыг тэмдэгттэй тулгарах ердийн хувилбарууд гэж тодорхойлсон.

Текстийн өрнөл дэх синтаксийн аргын онолын үндэс нь “өгүүллэгийн дүрэм” буюу “өгүүллийн дүрэм” байв. Тэд 1970-аад оны дундуур Н.Чомскийн генерацийн дүрмийн санааг текстийн макро бүтцийн тайлбарт шилжүүлсний үр дүнд гарч ирсэн. Хэрэв үүслийн дүрмийн синтаксик бүтцийн хамгийн чухал бүрэлдэхүүн хэсэг нь үйл үг, нэр үг хэллэг байсан бол ихэнх зохиолын дүрмүүдэд тайлбар (тохируулга), үйл явдал, үе шатыг үндсэн зүйл болгон ялгаж үздэг. Бүжгийн дүрмийн онолд хамгийн бага байх нөхцөл, өөрөөр хэлбэл ердийн өрнөл болох зохиолын элементүүдийн дарааллын статусыг тодорхойлдог хязгаарлалтуудын талаар өргөн хүрээнд хэлэлцсэн байдаг. Гэсэн хэдий ч үүнийг зөвхөн хэл шинжлэлийн аргыг ашиглан хийх боломжгүй юм. Олон хязгаарлалт нь нийгэм соёлын шинж чанартай байдаг. Бүтээлийн дүрмүүд нь үеийн модны ангиллын багцад ихээхэн ялгаатай боловч өгүүллийн бүтцийг өөрчлөх маш хязгаарлагдмал багц дүрмийг зөвшөөрдөг.

1980-аад оны эхээр Р.Шенкийн шавь нарын нэг В.Ленерт компьютерийн график үүсгэгчийг бүтээх ажлынхаа хүрээнд сэтгэл хөдлөлийн өрнөлийн нэгжүүдийн анхны формализмыг (Affective Plot Units) санал болгосон нь хүчирхэг хэрэгсэл болж хувирсан. талбайн бүтцийг төлөөлөх. Энэ нь анх хиймэл оюун ухааны системд зориулагдсан байсан хэдий ч энэхүү формализмыг цэвэр онолын судалгаанд ашигласан. Ленертийн арга барилын мөн чанар нь зохиолыг дүрүүдийн танин мэдэхүйн сэтгэл хөдлөлийн төлөв байдлын дараалсан өөрчлөлт гэж тодорхойлсонд оршино. Тиймээс Ленертийн формализмын гол анхаарал нь хуйвалдааны гаднах бүрэлдэхүүн хэсэг болох үзвэр, үйл явдал, үзэгдэл, ёс суртахуун дээр бус харин агуулгын шинж чанарт чиглэгддэг. Энэ талаар Ленертийн формализм нь зарим талаараа Проппын санаа руу буцах явдал юм.

Компьютерийн хэл шинжлэлийн чадамж нь одоо дахин төрж буй машин орчуулгыг багтаадаг.

Уран зохиол:

Попов Е.В. Байгалийн хэлээр компьютертэй харилцах. М., 1982
Садур В.Г. Цахим компьютертэй ярианы харилцаа холбоо, тэдгээрийн хөгжлийн асуудал. – Номонд: Ярианы харилцаа: асуудал ба хэтийн төлөв. М., 1983
Баранов A.N. Хэл шинжлэлийн семантик дахь хиймэл оюун ухааны ангилал. Хүрээ ба скриптүүд. М., 1987
Кобозева И.М., Лауфер Н.И., Сабурова И.Г. Хүн-машины систем дэх харилцаа холбооны загварчлал. – Мэдээллийн системийн хэл шинжлэлийн дэмжлэг. М., 1987
Олкер Х.Р. Үлгэр, эмгэнэлт явдал, дэлхийн түүхийг танилцуулах арга замууд. – Номонд: Нийгмийн харилцааны хэл ба загварчлал. М., 1987
Городецкий Б.Ю. Тооцооллын хэл шинжлэл: хэлний харилцааны загварчлал
МакКвин К. Байгалийн хэлний текстийг нэгтгэх ярианы стратеги. – Гадаад хэл шинжлэлд шинэ. Боть. XXIV, Тооцооллын хэл шинжлэл. М., 1989
Попов Е.В., Преображенский А.Б. . NL системийг хэрэгжүүлэх онцлог
Преображенский А.Б. Орчин үеийн NL системийн хөгжлийн байдал. - Хиймэл оюун ухаан. Ном 1, Харилцаа холбооны систем ба шинжээчийн систем. М., 1990
Субботин М.М. Гипертекст. Бичгийн харилцааны шинэ хэлбэр. – VINITI, Сер. Компьютерийн шинжлэх ухаан, 1994, 18-р боть
Баранов A.N. Хэрэглээний хэл шинжлэлийн танилцуулга. М., 2000 он



Танилцуулга

Тооцооллын хэл шинжлэл гэж юу вэ?

КОМПЬЮТЕРИЙН ХЭЛ ЗҮЙ , хэрэглээний хэл шинжлэлийн чиглэл нь тодорхой нөхцөл байдал, нөхцөл байдал, асуудлын талбар гэх мэт хэлний үйл ажиллагааг загварчлахын тулд компьютерийн хэрэгсэл - программууд, өгөгдлийг зохион байгуулах, боловсруулах компьютерийн технологийг ашиглахад чиглэгддэг. Хэл шинжлэл болон холбогдох салбаруудад хэлний компьютерийн загварыг ашиглах. Үнэн хэрэгтээ зөвхөн сүүлийн тохиолдолд бид хэрэглээний хэл шинжлэлийн талаар хатуу утгаараа ярьж байна, учир нь хэлний компьютерийн загварчлалыг компьютерийн шинжлэх ухаан, програмчлалын онолыг хэлний шинжлэх ухааны асуудлыг шийдвэрлэхэд ашиглах талбар гэж үзэж болно. Гэвч практикт тооцооллын хэл шинжлэл нь хэл шинжлэлд компьютер ашиглахтай холбоотой бараг бүх зүйлийг багтаадаг.

Тооцооллын хэл шинжлэл нь 1960-аад онд шинжлэх ухааны тусгай салбар болж төлөвшсөн. "Компьютер хэл шинжлэл" гэсэн орос хэллэг нь англи хэлний тооцооллын хэл шинжлэлийн орчуулга юм. Орос хэл дээрх тооцооллын нэр томъёог "тооцооллын" гэж орчуулж болох тул "тооцооллын хэл шинжлэл" гэсэн нэр томъёо нь уран зохиолд байдаг боловч Оросын шинжлэх ухаанд энэ нь "тоон хэл шинжлэл" гэсэн ойлголттой ойртож, нарийссан утгатай байдаг. Энэ чиглэлийн хэвлэлийн урсгал маш их байна. Сэдэвчилсэн цуглуулгаас гадна Компьютерийн хэл шинжлэлийн сэтгүүл АНУ-д улирал бүр хэвлэгддэг. Зохион байгуулалт, шинжлэх ухааны олон ажлыг бүс нутгийн бүтэцтэй (ялангуяа Европын салбар) Тооцооллын хэл шинжлэлийн холбоо гүйцэтгэдэг. Хоёр жил тутам COLING хэмээх тооцооллын хэл шинжлэлийн олон улсын бага хурал болдог. Холбогдох асуудлуудыг ихэвчлэн хиймэл оюун ухааны талаархи янз бүрийн бага хуралд өргөнөөр оролцуулдаг.

Даалгаврууд

Тооцооллын хэл шинжлэл Хэлний үйл ажиллагааг компьютерээр загварчлах хэл шинжлэлийн бодит асуудлуудыг авч үздэг. Үүний зорилго нь илүү нарийвчлалтай, бүрэн хэл шинжлэлийн загвар, илүү дэвшилтэт анализ, синтезийн алгоритмуудыг бий болгох явдал юм.

Үндсэн чиглэлүүдийг тодорхойлж болно:

1) Хүн ба компьютерийн харилцан үйлчлэл: удирдлага - програмчлалын хэл, мэдээлэл дамжуулах - интерфейс.

2) Тексттэй ажиллах: индексжүүлэх, дүн шинжилгээ хийх, ангилах, автомат засварлах (алдаа засах), мэдлэгийг тодорхойлох, машин орчуулга.

Өгүүллэг

Өгөгдлийн санд хандах англи хэлний дэд хэсгийг энгийн байдлаар бүтээх ажлыг 70-аад онд бүтээгдсэн Америкийн эртний LIFER (Elipsis ба Recursion) системүүдийн нэгээр хангасан. Үүний дараа компьютерийн зах зээл дээр бусад илүү уян хатан системүүд гарч ирсэн бөгөөд энэ нь компьютертэй хязгаарлагдмал байгалийн хэлний интерфэйсийг бий болгосон.

80-аад онд АНУ-д мэдээллийн сан, шинжээчийн систем бүхий байгалийн хэлний интерфэйсийг хөгжүүлэх, борлуулах чиглэлээр ажилладаг хэд хэдэн компаниуд байгуулагдсан. 1985 онд Semantek корпораци ийм асуулт хариултын багцыг танилцуулсан бөгөөд Карнеги групп компани ижил төстэй LanguageCraft багцыг санал болгосон.

Автомат орчуулгын системийг бий болгох идэвхтэй ажил хийгдэж байна. Д.Томын удирдлаган дор АНУ-ын Агаарын цэргийн хүчинд зориулан бүтээсэн SYSTRAN автомат орчуулгын систем өргөн тархсан. 1974-1975 онуудад Энэхүү системийг НАСА-гийн сансар судлалын холбоо Аполлон-Союз төслийн баримт бичгийг орчуулахад ашигласан. Одоо тэрээр жилд 100,000 орчим хуудсыг хэд хэдэн хэлнээс орчуулдаг.

Европт компьютерийн орчуулгын системийг бий болгох ажлыг Европын мэдээллийн сүлжээ (EURONET DIANA) бий болгосноор идэвхжүүлсэн. 1982 онд Европын эдийн засгийн нийгэмлэг нь Европын бүх хэлээр компьютерийн тусламжтай орчуулгын системийг хөгжүүлэх зорилготой EUROTRA Европын хөтөлбөрийг бий болгосноо зарлав. Төслийг анх 1987 онд 12 сая доллараар үнэлж байсан бөгөөд шинжээчид энэ төслийн нийт зардлыг 160 сая гаруй доллараар тогтоосон байна.

Японд 1981 онд зарласан тав дахь үеийн компьютерийн программыг тойрсон тооцооллын хэл шинжлэлийн судалгааны төвүүд.

Байгалийн хэлээр хүн-машины интерфейсийг бий болгох цэргийн хэд хэдэн төсөл байдаг. АНУ-д тэдгээрийг голчлон 1983 онд Батлан ​​хамгаалах яамнаас баталсан Стратегийн компьютерийн санаачилгын хүрээнд хэрэгжүүлдэг. Үүний зорилго нь шинэ үеийн "ухаалаг" зэвсэг, цэргийн системийг бий болгох явдал юм. АНУ-ын урт хугацааны технологийн давуу байдлыг хангах зорилгоор .

Мэдээжийн хэрэг, компьютер, програмчлалын хэлийг сайн мэддэг хиймэл оюун ухааны мэргэжилтнүүд хэлийг ойлгох асуудлыг өөрсдийн арга барилаар эрч хүчтэйгээр шийдэж эхлэв. Байгалийн хэлний алгоритмуудыг хайж байсан. Хэлний нарийн төвөгтэй хөтөлбөрүүдийг нарийн мэргэжлийн чиглэлээр, хэсэгчилсэн машин орчуулгын программууд болон бусад хэд хэдэн программуудыг бий болгосон. Гэвч хэлийг ойлгох асуудлыг шийдвэрлэхэд ямар ч шийдэмгий ахиц гарсангүй. Хэл ба хүмүүс хоорондоо маш их холбоотой тул эрдэмтэд хүн төрөлхтний ертөнцийг ойлгох асуудлыг шийдвэрлэх шаардлагатай болсон. Энэ бол аль хэдийн философийн талбар юм.

Хэл шинжлэлийн үндсэн ойлголтууд

Компьютерийн хэл судлаачид текст, яриа таних алгоритмыг боловсруулах, зохиомол ярианы синтез, семантик орчуулгын системийг бий болгох, хиймэл оюун ухааныг хөгжүүлэх чиглэлээр ажилладаг (энэ үгийн сонгодог утгаараа - хүний ​​оюун ухааныг орлуулах гэх мэт). хэзээ ч гарч ирэх магадлал багатай боловч өгөгдлийн шинжилгээнд суурилсан янз бүрийн шинжээчдийн системүүд).

Яриа таних алгоритмууд өдөр тутмын амьдралдаа улам бүр хэрэглэгдэх болно - ухаалаг гэр, электрон төхөөрөмжүүд алсын удирдлага, товчлуургүй, харин дуут интерфейсийг ашиглах болно. Энэ технологийг боловсронгуй болгож байгаа боловч олон бэрхшээл байсаар байна: янз бүрийн хүмүүс маш өөр өөр ярьдаг тул компьютер хүний ​​яриаг танихад хэцүү байдаг. Тиймээс, дүрмээр бол таних систем нь нэг чанга яригчаар бэлтгэгдсэн бөгөөд түүний дуудлагын онцлогт тохируулагдсан эсвэл системийн таних хэллэгийн тоо хязгаарлагдмал үед (жишээлбэл, дуут командын хувьд) сайн ажилладаг. ТВ).

Семантик орчуулгын хөтөлбөрийг бий болгох мэргэжилтнүүдийн өмнө маш их ажил байна: одоогоор зөвхөн англи хэл рүү болон англи хэлнээс орчуулах сайн алгоритмуудыг боловсруулсан. Энд олон асуудал тулгардаг - өөр өөр хэлүүд нь утгын хувьд өөр өөр бүтэцтэй байдаг, энэ нь хэллэгийг бүтээх түвшинд ч ялгаатай байдаг бөгөөд нэг хэлний бүх утгыг нөгөө хэлний семантик аппарат ашиглан дамжуулах боломжгүй байдаг. Нэмж дурдахад, програм нь ижил утгатай үгсийг ялгаж, ярианы хэсгүүдийг зөв таних, контекстэд тохирсон полисмантик үгийн зөв утгыг сонгох ёстой.

Хиймэл ярианы синтез (жишээлбэл, гэрийн роботын хувьд) нь бас хэцүү ажил юм. Хүний чихэнд зохиомлоор бий болсон яриаг байгалийн жамаар дуугаргах нь хэцүү байдаг, учир нь бидний анхаарч үздэггүй олон сая нюансууд байдаг, гэхдээ түүнгүйгээр бүх зүйл "хуурамч" байхаа больсон - худал эхлэх, түр зогсоох, эргэлзэх гэх мэт. Ярианы урсгал нь тасралтгүй бөгөөд нэгэн зэрэг салангид байдаг: бид үгсийн хооронд завсарлагагүйгээр ярьдаг, гэхдээ нэг үг хаана дуусч, нөгөө үг хаанаас эхэлж байгааг ойлгоход хэцүү биш боловч машины хувьд энэ нь том асуудал болно.

Тооцооллын хэл шинжлэлийн хамгийн том чиглэл бол Big Data-тай холбоотой. Эцсийн эцэст, мэдээллийн хангамж гэх мэт асар том текстүүд байдаг бөгөөд тэдгээрээс тодорхой мэдээллийг тусгаарлах шаардлагатай байдаг - жишээлбэл, мэдээний сувгийг тодруулах эсвэл RSS-ийг тухайн хэрэглэгчийн амтанд тохируулан тохируулах. Ийм технологиуд аль хэдийн бий болсон бөгөөд цаашид ч хөгжих болно, учир нь тооцоолох хүчин чадал хурдацтай өсч байна. Хэл шинжлэлийн текстийн шинжилгээг мөн интернетийн аюулгүй байдлыг хангах, тагнуулын үйлчилгээнд шаардлагатай мэдээллийг хайж олоход ашигладаг.

Компьютерийн хэл судлаач болохын тулд хаана суралцах вэ? Харамсалтай нь манай улсын хувьд сонгодог хэл шинжлэл болон програмчлал, статистик, мэдээллийн дүн шинжилгээтэй холбоотой мэргэжлүүд нэлээд салангид байдаг. Мөн дижитал хэл шинжлэлийн мэргэжилтэн болохын тулд та хоёуланг нь ойлгох хэрэгтэй. Гадаадын их дээд сургуулиудад компьютерийн хэл шинжлэлийн дээд боловсролын хөтөлбөрүүд байдаг ч одоогоор бидний хувьд хамгийн сайн сонголт бол хэлний анхан шатны боловсрол эзэмшиж, улмаар мэдээллийн технологийн үндсийг эзэмших явдал юм. Харамсалтай нь олон төрлийн онлайн сургалтууд байгаа нь сайн хэрэг, миний оюутны жилүүдэд ийм зүйл байгаагүй. Би Москвагийн Улсын Хэл Шинжлэх Ухааны Их Сургуулийн Хэрэглээний хэл шинжлэлийн факультетэд суралцаж, тэнд хиймэл оюун ухаан, яриа таних чиглэлээр сургалт явуулдаг байсан боловч хангалттай хэмжээний биш хэвээр байна. Одоо мэдээллийн технологийн компаниуд байгууллагуудтай идэвхтэй харилцахыг оролдож байна. Касперскийн лабораторийн хамт олон бид хоёр боловсролын үйл явцад оролцохыг хичээдэг: бид лекц уншиж, оюутны бага хурал зохион байгуулж, төгсөх ангийн оюутнуудад тэтгэлэг олгодог. Гэхдээ өнөөг хүртэл санаачлагыг их дээд сургуулиуд гэхээсээ илүү ажил олгогчид гаргаж байна.



Танд нийтлэл таалагдсан уу? Найзуудтайгаа хуваалцаарай!