Hesaplamalı dilbilimleri. Teorik ve bilgisayar sözlükbilimi

Hesaplamalı dilbilim: yöntemler, kaynaklar, uygulamalar

giriiş

Terim hesaplamalı dilbilimleri(CL), ticari yazılım ürünleri de dahil olmak üzere çeşitli uygulama yazılım sistemlerinin geliştirilmesiyle bağlantılı olarak son yıllarda giderek daha yaygın hale geldi. Bunun nedeni, İnternet de dahil olmak üzere toplumda metinsel bilgilerin hızla artması ve metinlerin doğal dilde (NL) otomatik olarak işlenmesi ihtiyacıdır. Bu durum bilgisayar dilbiliminin bir bilim dalı olarak gelişimini ve yeni bilgi ve dil teknolojilerinin gelişimini teşvik etmektedir.

50 yılı aşkın bir süredir var olan (ve aynı zamanda olarak da bilinen) hesaplamalı dilbilim çerçevesinde makine dilbilimi, NL'de otomatik metin işleme) birçok umut verici yöntem ve fikir önerilmiştir, ancak bunların hepsi henüz uygulamada kullanılan yazılım ürünlerinde ifadesini bulamamıştır. Amacımız, bu araştırma alanının özelliklerini karakterize etmek, ana görevlerini formüle etmek, diğer bilimlerle olan bağlantılarını belirtmek, kullanılan ana yaklaşımlara ve kaynaklara kısa bir genel bakış sunmak ve ayrıca CL'nin mevcut uygulamalarını kısaca karakterize etmektir. Bu konulara daha detaylı bir giriş için kitap önerebiliriz.

1. Hesaplamalı dilbilimin sorunları

Bilgisayar dilbilimi, dil bilimi, matematik, bilgisayar bilimi (Bilgisayar Bilimi) ve yapay zeka gibi bilimlerin kesişiminde ortaya çıkmıştır. CL'nin kökenleri, ünlü Amerikalı bilim adamı N. Chomsky'nin doğal dilin yapısını resmileştirme alanındaki araştırmalarına kadar uzanır; gelişimi genel dilbilim (dilbilim) alanındaki sonuçlara dayanmaktadır. Dilbilim, doğal dilin genel yasalarını, yapısını ve işleyişini inceler ve aşağıdaki alanları içerir:

Ø fonoloji– konuşma oluşumu sırasında konuşma seslerini ve bunların bağlantı kurallarını inceler;

Ø Morfoloji- konuşmanın bölümleri ve kategorileri de dahil olmak üzere, konuşma sözcüklerinin iç yapısı ve dış biçimiyle ilgilenir;

Ø Sözdizimi– Cümlelerin yapısını, uyumluluk kurallarını ve cümle içindeki kelimelerin sırasını ve ayrıca bir dil birimi olarak genel özelliklerini inceler.

Ø Anlambilimve pragmatik- yakından ilişkili alanlar: anlambilim kelimelerin, cümlelerin ve diğer konuşma birimlerinin anlamlarıyla ilgilenir ve pragmatik bu anlamı iletişimin belirli hedefleriyle bağlantılı olarak ifade etmenin özellikleriyle ilgilenir;

Ø Sözlük bilimi belirli bir NL'nin sözlüğünü - tek tek kelimeleri ve dilbilgisel özelliklerinin yanı sıra sözlük oluşturma yöntemlerini açıklar.

Dilbilim ve matematiğin kesiştiği noktada elde edilen N. Chomsky'nin sonuçları, resmi diller ve gramer teorisinin (genellikle denir) temelini attı. üretken, veya üreten gramerciler). Bu teori şu anda geçerli matematiksel dilbilim ve NL'den çok yapay dilleri, özellikle programlama dillerini işlemek için kullanılır. Doğası gereği bu tamamen matematiksel bir disiplindir.

Matematiksel dilbilim ayrıca şunları içerir: niceliksel dilbilim Dilin frekans özelliklerini (kelimeler, bunların kombinasyonları, sözdizimsel yapıları vb.) inceleyen ve matematiksel istatistik yöntemlerini kullanan bu bilim dalına istatistiksel dilbilim denilebilir.

CL aynı zamanda bireysel entelektüel işlevlerin bilgisayar modellerinin geliştirildiği yapay zeka (AI) gibi disiplinlerarası bir bilimsel alanla da yakından ilgilidir. AI ve CL alanındaki ilk çalışma programlarından biri, sınırlı bir NL alt kümesi üzerinde formüle edilmiş, küp dünyasını değiştirmek için en basit insan emirlerini anlayan ünlü T. Winograd programıdır. CL ve AI alanındaki araştırmaların bariz kesişmesine rağmen (dil yeterliliği entelektüel işlevlerle ilgili olduğundan), AI'nın kendi teorik temeli ve metodolojisi olduğundan tüm CL'yi özümsemediğini unutmayın. Bu bilimlerin ortak noktası, araştırmanın ana yöntemi ve nihai hedefi olarak bilgisayar modellemesidir.

Dolayısıyla CL görevi, NL'deki metinlerin otomatik olarak işlenmesi için bilgisayar programlarının geliştirilmesi olarak formüle edilebilir. İşleme oldukça geniş bir şekilde anlaşılsa da, tüm işleme türlerine dilsel ve karşılık gelen işlemcilere dilsel denilemez. Dil işlemcisi Dilin şu ya da bu biçimsel modelini (çok basit olsa bile) kullanmalıdır, bu da onun şu ya da bu şekilde dile bağımlı olması gerektiği (yani belirli bir NL'ye bağlı olması) gerektiği anlamına gelir. Dolayısıyla, örneğin, Mycrosoft Word metin düzenleyicisine dilbilimsel denilebilir (sadece sözlükleri kullandığı için de olsa), ancak NotePad düzenleyicisi bunu yapamaz.

CL görevlerinin karmaşıklığı, NL'nin insanlar arasında bilgi alışverişi için ortaya çıkan, insanın pratik faaliyeti sürecinde geliştirilen ve bu faaliyetle bağlantılı olarak sürekli değişen karmaşık, çok düzeyli bir işaret sistemi olmasından kaynaklanmaktadır. CL yöntemlerini geliştirmedeki bir başka zorluk (ve dilbilim çerçevesinde NL'yi çalışmanın zorluğu), doğal dillerin çeşitliliği, kelime dağarcığı, morfolojisi ve sözdizimindeki önemli farklılıklar, farklı dillerin aynı anlamı ifade etmenin farklı yollarını sağlamasıyla ilişkilidir; .

2. NL sisteminin özellikleri: seviyeler ve bağlantılar

Dil işlemcilerinin amacı NL metinleridir. Metinler, herhangi bir türden sözlü ve yazılı herhangi bir konuşma örneği olarak anlaşılır, ancak CL esas olarak yazılı metinleri dikkate alır. Metin tek boyutlu, doğrusal bir yapıya sahiptir ve aynı zamanda belirli bir anlam taşırken, dil, iletilen anlamın metinlere dönüştürülmesi (konuşma sentezi) ve bunun tersi (konuşma analizi) aracı görevi görür. Metin daha küçük birimlerden oluşur ve metni farklı düzeylere ait birimlere bölmenin (bölmenin) birkaç olası yolu vardır.

Aşağıdaki seviyelerin varlığı genel olarak kabul edilir:

· tekliflerin düzeyi (açıklamalar) – söz dizimi düzeyi;

· Lexico-morfolojik eşadlılık (en yaygın tür), iki farklı sözlüğün sözcük biçimleri çakıştığında ortaya çıkar; örneğin, şiir– tekil, eril durumdaki bir fiil ve tekil, yalın durumdaki bir isim),

· Sözdizimsel eşadlılık sözdizimsel yapının belirsizliği anlamına gelir ve bu da çeşitli yorumlara yol açar: Lvovlu öğrenciler Kiev'e gitti,Uçan yüzeyleri olabilmek olmak tehlikeli(Chomsky'nin ünlü örneği), vb.

3. Hesaplamalı dilbilimde modelleme

Bir dilsel işlemcinin (LP) geliştirilmesi, işlenmiş NL metninin dilsel özelliklerinin bir tanımını içerir ve bu açıklama şu şekilde düzenlenir: modeli dil. Matematik ve programlamadaki modellemede olduğu gibi, bir model, modellenen olgunun (örn. SE) bir dizi temel özelliğini gösteren ve dolayısıyla yapısal veya işlevsel benzerliğe sahip belirli bir sistem olarak anlaşılır.

CL'de kullanılan dil modelleri genellikle dilbilimcilerin çeşitli metinleri inceleyerek oluşturdukları teorilere ve onların dilsel sezgilerine (iç gözlem) dayanarak inşa edilir. CL modellerinin spesifik özellikleri nelerdir? Aşağıdaki özellikler ayırt edilebilir:

· Biçimsellik ve nihayetinde algoritmik hale getirilebilirlik;

· İşlevsellik (modellemenin amacı, insan konuşma sentezi ve analizine ilişkin doğru bir model oluşturmadan, dilin işlevlerini bir “kara kutu” olarak yeniden üretmektir);

· Modelin genelliği, yani oldukça geniş bir metin kümesini dikkate alması;

· Modelin farklı metinler üzerinde test edilmesini içeren deneysel geçerlilik;

· Modelin zorunlu bir bileşeni olarak sözlüklere güvenme.

NL'nin karmaşıklığı, tanımı ve işlenmesi, bu sürecin dilin seviyelerine karşılık gelen ayrı aşamalara bölünmesine yol açar. Çoğu modern LP, her dilsel analiz veya sentez seviyesinin ayrı bir seviyeye karşılık geldiği modüler tiptedir. işlemci modülü. Özellikle metin analizi durumunda, bireysel LP modülleri şunları gerçekleştirir:

Ø Grafiksel analiz, yani metindeki kelime formlarının vurgulanması (sembollerden kelimelere geçiş);

Ø Morfolojik analiz – kelime formlarından onlara geçiş lemmalar(sözlüklerin sözlük biçimleri) veya temel bilgiler(kelimenin çekirdek kısımları, eksi çekim morfemleri);

Ø Sözdizimsel analiz, yani bir metindeki cümlelerin dilbilgisel yapısını belirlemek;

Ø İfadelerin anlamını ve LP'nin içinde çalıştığı sistemin karşılık gelen tepkisini belirleyen anlamsal ve pragmatik analiz.

Bu modüllerin etkileşimi için farklı şemalar mümkündür (sıralı işlem veya paralel serpiştirilmiş analiz), ancak bireysel seviyeler - morfoloji, sözdizimi ve anlambilim hala farklı mekanizmalar tarafından işlenmektedir.

Dolayısıyla LP, metin analizi durumunda her bir cümleyi kendi anlamının içsel bir temsiline çeviren ve sentez durumunda bunun tersini yapan çok aşamalı bir dönüştürücü olarak düşünülebilir. İlgili dil modeli çağrılabilir yapısal.

Tam CL modelleri, dilin tüm ana seviyelerinin ve ilgili modüllerin varlığının dikkate alınmasını gerektirse de, bazı uygulamalı problemleri çözerken, LP'de bireysel seviyeleri temsil etmeden bunu yapmak mümkündür. Örneğin, ilk deneysel CL programlarında, işlenmiş metinler çok dar problem alanlarına aitti (sınırlı sayıda kelime dizisi ve bunların kesin sırası ile), böylece morfolojik ve sözdizimsel aşamaları atlayarak, ilk harfleri kelimeleri tanımak için kullanılabiliyordu. analiz.

Artık oldukça sık kullanılan azaltılmış modelin bir başka örneği, belirli bir NL'nin metinlerindeki sembollerin ve bunların kombinasyonlarının (digramlar, trigramlar vb.) sıklığının dil modelidir. Çok istatistiksel model dil bilgisini metnin karakterleri (harfleri) düzeyinde görüntüler ve örneğin metindeki yazım hatalarını tespit etmek veya dilsel kimliğini tanımak için yeterlidir. Bireysel kelimelerin istatistiklerine ve bunların metinlerdeki birlikteliğine (bigramlar, kelimelerin trigramları) dayanan benzer bir model, örneğin sözcüksel belirsizliği çözmek veya bir kelimenin konuşma bölümünü belirlemek için kullanılır (İngilizce gibi dillerde). ).

Bunun mümkün olduğunu unutmayın yapısal-istatistiksel modeller NL'nin bireysel seviyelerini temsil ederken, şu veya bu istatistik dikkate alınır - kelimeler, sözdizimsel yapılar vb.

Modüler tipte bir LP'de, metin analizi veya sentezinin her aşamasında karşılık gelen bir model (morfoloji, sözdizimi vb.) kullanılır.

CL'de mevcut olan kelime formlarını analiz etmeye yönelik morfolojik modeller temel olarak aşağıdaki parametrelerde farklılık gösterir:

· çalışmanın sonucu - belirli bir kelime biçiminin bir takım morfolojik özelliklerine (cinsiyet, sayı, durum, görünüş, kişi vb.) sahip bir lemma veya kök;

· analiz yöntemi - bir dilin kelime biçimleri sözlüğüne veya temel bilgiler sözlüğüne veya sözlükten bağımsız bir yönteme dayalı;

· sözlükte yer almayan bir sözlüğün sözcük biçimini işleme yeteneği.

Morfolojik sentezde, başlangıç ​​verileri sözcük birimidir ve bu sözcük biriminin talep edilen sözcük biçiminin spesifik morfolojik özellikleridir; belirli bir sözcük biriminin tüm biçimlerinin sentezi için bir talep de mümkündür. Hem morfolojik analizin hem de sentezin sonucu genellikle belirsizdir.

CL çerçevesinde sözdizimini modellemek için, dilin sözdizimini tanımlama biçiminde, bu bilgiyi bir NL cümlesinin analizinde veya sentezinde kullanma biçiminde farklılık gösteren çok sayıda farklı fikir ve yöntem önerilmiştir. cümlenin sözdizimsel yapısını temsil etme biçiminin yanı sıra. Oldukça geleneksel olarak, model oluşturmaya yönelik üç ana yaklaşımı ayırt edebiliriz: Chomsky'nin fikirlerine dayanan üretken bir yaklaşım, I. Melchuk'un fikirlerine dayanan ve “Anlam-Metin” modeliyle temsil edilen bir yaklaşım ve ayrıca İlk iki yaklaşımın, özellikle de sözdizimsel gruplar teorisinin sınırlamalarının üstesinden gelmek için belirli girişimlerin yapıldığı bir yaklaşım.

Üretken yaklaşımda, sözdizimsel analiz genellikle bir cümlenin öbek yapısını tanımlayan, bağlamdan bağımsız biçimsel bir dilbilgisi temelinde veya bağlamdan bağımsız dilbilgisinin bir uzantısı temelinde gerçekleştirilir. Bu gramerler, bir cümlenin cümlelere (sözdizimsel yapılar, örneğin isim cümleleri) tutarlı doğrusal bölünmesine dayanır ve bu nedenle aynı anda hem sözdizimsel hem de doğrusal yapılarını yansıtır. Analiz sonucunda elde edilen NL cümlesinin hiyerarşik sözdizimsel yapısı anlatılmıştır. bileşenler ağacı Yaprakları cümlenin sözcüklerini içeren, alt ağaçlar cümlenin içerdiği sözdizimsel yapılara (cümlelere) karşılık gelir ve yaylar yapıların iç içe geçme ilişkilerini ifade eder.

Göz önünde bulundurulan yaklaşım, hem bir dil sistemini açıklamaya yönelik bir aygıt olan hem de örneğin genişletilmiş geçiş ağı ATN gibi sonlu durum makinesi kavramına dayanan cümleleri analiz etmeye yönelik bir prosedür belirleyen ağ gramerlerini içerebilir.

İkinci yaklaşımda, bir cümlenin sözdizimsel yapısını temsil etmek için daha görsel ve yaygın bir yöntem kullanılır: bağımlılık ağaçları. Ağacın düğümleri cümlenin sözcüklerini içerir (kök genellikle bir fiil-yüklemdir) ve ağacın bir çift düğümü birbirine bağlayan her yayı sözdizimsel olarak yorumlanır. ikincil bağlantı aralarında ve bağlantının yönü verilen yayın yönüne karşılık gelir. Bu durumda kelimelerin sözdizimsel bağlantıları ve cümledeki kelimelerin sırası ayrıldığından, sıralama ağaçları temelinde bozulur ve yansıtmalı olmayan Serbest kelime düzenine sahip dillerde oldukça sık görülen yapılar.

Bileşen ağaçları, dilleri katı bir kelime sırasıyla tanımlamak için daha uygundur; kırık ve yansıtmalı olmayan yapıları onların yardımıyla temsil etmek, kullanılan gramer formalizminin genişletilmesini gerektirir. Ancak bu yaklaşım çerçevesinde ikincil olmayan ilişkilere sahip yapılar daha doğal olarak tanımlanır. Aynı zamanda her iki yaklaşım için de ortak bir zorluk, bir cümlenin homojen üyelerinin temsil edilmesidir.

Tüm yaklaşımlardaki sözdizimsel modeller, konuşmadaki dilsel birimlerin bağlantısına getirilen kısıtlamaları dikkate almaya çalışırken, değerlik kavramı şu veya bu şekilde kullanılır. Değerlik- bu, bir kelimenin veya başka bir dil biriminin diğer birimleri belirli bir sözdizimsel şekilde bağlama yeteneğidir; aktör bu değeri dolduran bir kelime veya sözdizimsel yapıdır. Örneğin Rusça fiil devretmek Aşağıdaki soru sözcükleriyle ifade edilebilecek üç ana değere sahiptir: DSÖ? kime? Ne?Üretken yaklaşım çerçevesinde kelimelerin (öncelikle fiillerin) anlam bağları esas olarak özel çerçeveler şeklinde tanımlanır ( alt kategorilendirme çerçeveler) ve bağımlılık ağaçlarını temel alan yaklaşım çerçevesinde - nasıl yönetim modelleri.

Dil anlambilimi modelleri CL çerçevesinde en az gelişmiş olanıdır. Cümlelerin semantik analizi için durum gramerleri ve anlamsal durumlar(değerlik), buna dayanarak bir cümlenin anlambilimi, hem ana kelimenin (fiilin) ​​anlamsal edimleyenleriyle bağlantıları yoluyla, yani. anlamsal durumlar yoluyla. Örneğin fiil devretmek anlamsal vakalarla tanımlanır vermek(ajan), muhatap Ve aktarım nesnesi.

Bir metnin tamamının anlambilimini temsil etmek için, mantıksal olarak eşdeğer iki formalizm yaygın olarak kullanılır (her ikisi de AI çerçevesinde ayrıntılı olarak açıklanmıştır):

· Özellikleri, durumları, süreçleri, eylemleri ve ilişkileri ifade eden yüklemlerin hesabına yönelik formüller;

· Anlamsal ağlar, köşelerin kavramlara, köşelerin ise aralarındaki ilişkilere karşılık geldiği etiketli grafiklerdir.

Yalnızca tek tek cümleleri değil aynı zamanda bir bütün olarak metni de işlemeye izin veren pragmatik ve söylem modellerine gelince, bunları oluşturmak için esas olarak Van Dyck'in fikirleri kullanılıyor. Nadir ve başarılı modellerden biri tutarlı metinlerin söylemsel sentezi modelidir. Bu tür modeller anaforik referansları ve söylem düzeyindeki diğer olguları dikkate almalıdır.

Dil modellerinin karakterizasyonunu CL çerçevesinde sonuçlandırarak, zamanının ilerisinde olan ve birçok verimli fikrin ortaya çıktığı çerçevede “Anlam-Metin” dilsel modelleri teorisi üzerinde biraz daha ayrıntılı olarak duralım. bugün hâlâ geçerli.

Bu teoriye göre NL, verilen anlamları karşılık gelen metinlere ve verilen metinleri karşılık gelen anlamlara dönüştüren özel bir tür dönüştürücü olarak kabul edilir. Anlam, metnin tüm eşanlamlı dönüşümlerinin değişmezi olarak anlaşılır. Cümlelere ve kelime biçimlerine bölünmeden tutarlı bir konuşma parçasının içeriği, iki bileşenden oluşan özel bir anlamsal temsil biçiminde görüntülenir: anlamsal grafik ve hakkında bilgi anlamın iletişimsel organizasyonu.

Teorinin ayırt edici özellikleri belirtilmelidir:

o metinlerin sentezine yönelik yönelim (doğru metinler üretme yeteneği, dilsel yeterliliğin ana kriteri olarak kabul edilir);

o Dilin ana seviyelerinin yüzeysel ve derin seviyelere ayrıldığı modelin çok seviyeli, modüler doğası: bunlar farklılık gösterir, örneğin, derin(anlamsallaştırılmış) ve yüzey(“saf”) sözdiziminin yanı sıra yüzey morfolojik ve derin morfolojik düzeyler;

o dil modelinin bütünleyici doğası; her seviyede sunulan bilgilerin ilgili modül tarafından depolanması, bu seviyeden diğerine geçişin gerçekleştirilmesi;

o her düzeyde sözdizimini (birimleri bağlama kuralları) tanımlamanın özel yolları; sözcüksel uyumluluğu tanımlamak için bir dizi önerildi sözcüksel işlevler sözdizimsel açıklama kurallarının formüle edildiği yardımıyla;

o gramer yerine kelime dağarcığına vurgu; sözlük, dilin farklı düzeyleriyle ilgili bilgileri saklar; sözdizimsel analiz için özellikle sözdizimsel ve anlamsal değerliklerini tanımlayan kelime kontrol modelleri kullanılır.

Bu teori ve dil modeli ETAP makine çeviri sisteminde somutlaştırılmıştır.

4. Dilsel kaynaklar

Dilsel işlemcilerin geliştirilmesi, işlenmiş dil hakkındaki dilsel bilginin uygun şekilde temsil edilmesini gerektirir. Bu bilgiler çeşitli bilgisayar sözlüklerinde ve gramerlerinde görüntülenir.

Sözlükler sözcüksel bilgiyi temsil etmenin en geleneksel biçimidir; birimleri (genellikle kelimeler veya kelime öbekleri), yapıları ve kelime dağarcığı (belirli bir problem alanındaki terim sözlükleri, genel kelime dağarcığı sözlükleri vb.) bakımından farklılık gösterirler. Kelime birimine denir sözlük girişi token hakkında bilgi sağlar. Sözcüksel eş anlamlılar genellikle farklı sözlük girişlerinde temsil edilir.

CL'de en yaygın olanı, morfolojik analiz için kullanılan morfolojik sözlüklerdir; bunların sözlük girişleri, karşılık gelen kelime hakkında morfolojik bilgiler sunar - konuşmanın bir kısmı, çekim sınıfı (eğimli diller için), sözcük anlamları listesi vb. Sözlüğe dilbilgisi işlemcisi gibi gramer bilgileri de eklenebilir, örneğin kelime kontrol modelleri.

Kelimeler hakkında daha geniş bilgi sağlayan sözlükler vardır. Örneğin, “Anlam-Metin” dilsel modeli büyük ölçüde şunlara dayanır: açıklayıcı kombinatoryal sözlük morfolojik, sözdizimsel ve anlamsal bilgilerin (sözdizimsel ve anlamsal değerler) yanı sıra, bu kelimenin sözcüksel uyumluluğu hakkında bilgiler sunulan sözlük girişinde.

Bir dizi dilsel işlemcinin kullandığı eş anlamlı sözlükler. Nispeten yeni bir sözlük türü - paronim sözlükleri, yani anlam bakımından farklılık gösteren dışa benzer kelimeler, örneğin, yabancı Ve yabancı, düzenleme Ve referans .

Başka bir sözcük kaynağı türü ise ifade veritabanları belirli bir dilin en tipik ifadelerinin seçildiği yer. Rusça ifadelerden oluşan bu veritabanı (yaklaşık bir milyon birim) CrossLexica sisteminin çekirdeğini oluşturur.

Daha karmaşık sözcüksel kaynak türleri şunlardır: terimler sözlüğü ve ontolojiler. Eş anlamlılar sözlüğü anlamsal bir sözlüktür, yani kelimelerin anlamsal bağlantılarının sunulduğu bir sözlüktür - eşanlamlı, cins tipi ilişkiler (bazen yukarıdaki-aşağıdaki ilişki olarak da adlandırılır), parça-bütün, ilişkiler. Eşanlamlı sözlerin yayılması, bilgi erişim sorunlarının çözülmesiyle ilişkilidir.

Ontoloji kavramı eş anlamlılar sözlüğü kavramıyla yakından ilişkilidir. Ontoloji, belirli bir bilgi alanına ait, çeşitli görevler için yeniden kullanıma yönelik bir dizi kavram ve varlıktır. Ontolojiler bir dilde mevcut kelime dağarcığı temel alınarak oluşturulabilir - bu durumda bunlara denir dilsel Ve.

Benzer bir dilsel ontoloji, İngilizce kelimelerin toplandığı geniş bir sözcüksel kaynak olan WordNet sistemi olarak kabul edilir: isimler, sıfatlar, fiiller ve zarflar ve bunların çeşitli türlerdeki anlamsal bağlantıları sunulur. Belirtilen konuşma bölümlerinin her biri için kelimeler eşanlamlı gruplar halinde gruplandırılır ( sensetler), aralarında zıtlık, hiponim (cins-tür ilişkisi), meronimi (parça-bütün ilişkisi) ilişkileri kurulur. Kaynak yaklaşık 25 bin kelime içeriyor, cins-tür ilişkisine ilişkin hiyerarşi düzeylerinin sayısı ortalama 6-7'dir, bazen 15'e ulaşır. Hiyerarşinin en üst düzeyi genel bir ontoloji oluşturur - dünyayla ilgili temel kavramlardan oluşan bir sistem.

İngilizce WordNet şemasına dayanarak, diğer Avrupa dilleri için benzer sözcük kaynakları oluşturuldu ve EuroWordNet genel adı altında birleştirildi.

Tamamen farklı türde bir dilsel kaynak Hollanda dilbilgisi türü işlemcide kullanılan sözdizimi modeline bağlıdır. İlk yaklaşıma göre dilbilgisi, kelimelerin ve kelime gruplarının genel sözdizimsel özelliklerini ifade eden bir kurallar dizisidir. Dilbilgisi kurallarının toplam sayısı da sözdizimi modeline bağlıdır; birkaç ondan birkaç yüze kadar değişir. Temel olarak, bir dil modelinde dilbilgisi ile sözcük dağarcığı arasındaki ilişki konusunda burada bir sorun ortaya çıkıyor: sözlükte ne kadar çok bilgi sunulursa, dilbilgisi o kadar kısa olabilir ve bunun tersi de geçerlidir.

Bilgisayar sözlükleri, eş anlamlılar sözlüğü ve dilbilgisi oluşturmanın hacimli ve emek yoğun bir çalışma olduğunu, bazen dilsel bir modelin ve ilgili işlemcinin geliştirilmesinden bile daha fazla emek yoğun olduğunu unutmayın. Bu nedenle CL'nin alt görevlerinden biri dilsel kaynakların yapımının otomasyonudur.

Bilgisayar sözlükleri genellikle sıradan metin sözlüklerinin dönüştürülmesiyle oluşturulur, ancak bunların yapımı çoğu zaman çok daha karmaşık ve özenli bir çalışma gerektirir. Bu genellikle hızla gelişen bilimsel alanlar (moleküler biyoloji, bilgisayar bilimi vb.) için sözlükler ve eş anlamlılar sözlüğü oluştururken meydana gelir. Gerekli dilsel bilginin çıkarılması için kaynak materyal, koleksiyonlar ve metin bütünü.

Bir metin külliyatı, belirli bir temsil ilkesine göre (türe, yazarlığa vb. göre) toplanan, tüm metinlerin işaretlendiği, yani bazı dilsel işaretlerle (açıklamalar) - morfolojik, vurgulu, sözdizimsel vb. n. Şu anda, farklı diller için ve farklı işaretlere sahip en az yüz farklı derlem vardır; Rusya'da en ünlüsü, Rus Dilinin Ulusal Külliyatı'dır.

Etiketli derlemler dilbilimciler tarafından oluşturulur ve hem dilbilimsel araştırmalar hem de CL'de kullanılan modellerin ve işlemcilerin makine öğreniminin iyi bilinen matematiksel yöntemleri kullanılarak ayarlanması (eğitilmesi) için kullanılır. Bu nedenle makine öğrenimi, sözcüksel belirsizliği çözmeye, konuşmanın bölümlerini tanımaya ve anaforik referansları çözmeye yönelik yöntemleri yapılandırmak için kullanılır.

Derlemler ve metin koleksiyonları, içlerinde temsil edilen dilsel olgular açısından her zaman sınırlı olduğundan (ve diğer şeylerin yanı sıra, derlemlerin oluşturulması oldukça uzun zaman aldığından), son zamanlarda İnternet metinleri giderek daha eksiksiz bir dilsel kaynak olarak kabul edilmektedir. Elbette İnternet, modern konuşma örneklerinin en temsili kaynağıdır, ancak bir bütün olarak kullanılması özel teknolojilerin geliştirilmesini gerektirir.

5. Hesaplamalı dilbilimin uygulamaları

Hesaplamalı dilbilimin uygulama alanı sürekli genişlemektedir, bu nedenle burada araçlarıyla çözülen en iyi bilinen uygulamalı problemleri karakterize edeceğiz.

Makine çevirisi- CL'nin en eski uygulaması, bu alan da onunla birlikte ortaya çıktı ve gelişti. İlk çeviri programları 50 yılı aşkın bir süre önce oluşturulmuştu ve basit, kelime kelime çeviri stratejisine dayanıyordu. Bununla birlikte, makine çevirisinin, dilin tüm düzeylerini, semantik ve pragmatiğe kadar hesaba katan eksiksiz bir dilsel model gerektirdiği kısa sürede fark edildi ve bu, bu alanın gelişimini defalarca engelledi. Bilimsel metinleri Fransızcadan Rusçaya çeviren yerli ETAP sisteminde oldukça eksiksiz bir model kullanılıyor.

Bununla birlikte, ilgili bir dile çeviri durumunda, örneğin İspanyolca'dan Portekizce'ye veya Rusça'dan Ukraynaca'ya çeviri yaparken (bunların sözdizimi ve morfoloji açısından pek çok ortak noktası vardır), işlemcinin basitleştirilmiş bir temele dayalı olarak uygulanabileceğini unutmayın. Örneğin, aynı kelime kelime çeviri stratejisinin kullanılmasına dayalı bir model.

Şu anda, büyük uluslararası araştırma projelerinden ticari otomatik çevirmenlere kadar geniş bir yelpazede (çeşitli kalitede) bilgisayar çeviri sistemleri bulunmaktadır. Tercüme edilen ifadelerin anlamının kodlandığı bir ara dil kullanan çok dilli çeviri projeleri önemli ölçüde ilgi çekicidir. Başka bir modern yön, kelimelerin ve cümlelerin çevirisine ilişkin istatistiklere dayanan istatistiksel çeviridir (örneğin, bu fikirler Google arama motoru çevirmeninde uygulanır).

Ancak tüm bu alandaki onlarca yıllık gelişmeye rağmen, genel olarak makine çevirisi sorunu hâlâ tamamen çözülmekten çok uzaktır.

Hesaplamalı dilbilimin oldukça eski bir başka uygulaması da bilgi arama ve belgelerin indekslenmesi, özetlenmesi, sınıflandırılması ve sınıflandırılması ile ilgili görevler.

Büyük belge veritabanlarındaki (öncelikle bilimsel, teknik, ticari) belgelerin tam metin araması genellikle bunların temelinde gerçekleştirilir. görselleri ara bununla bir diziyi kastediyoruz anahtar kelimeler– belgenin ana konusunu yansıtan kelimeler. İlk başta, NL'nin yalnızca tek tek kelimeleri anahtar kelime olarak kabul edildi ve arama, İngilizce gibi zayıf çekimli diller için kritik olmayan çekimleri dikkate alınmadan gerçekleştirildi. Çekimli diller için, örneğin Rusça, çekimi hesaba katan morfolojik bir modelin kullanılması gerekliydi.

Arama sorgusu da bir kelime seti olarak sunuldu; sorgunun benzerliğine ve belgenin arama görseline göre uygun (ilgili) belgeler belirlendi. Bir belgenin arama görüntüsünü oluşturmak şunları içerir: indeksleme metni, yani içindeki anahtar kelimeleri vurgulamak. Çoğu zaman bir belgenin konusu ve içeriği tek tek kelimelerle değil, ifadelerle çok daha doğru bir şekilde yansıtıldığından, ifadeler anahtar kelime olarak değerlendirilmeye başlandı. Bu, metindeki önemli cümleleri seçmek için çeşitli istatistiksel ve dilsel kriter kombinasyonlarının kullanılması gerektiğinden, belgeleri indeksleme prosedürünü önemli ölçüde karmaşıklaştırdı.

Aslında, bilgi erişimi esas olarak vektör metin modeli(bazen denir çanta ile ilgili kelimeler– bir belgenin anahtar kelimelerinin bir vektörü (kümesi) olarak temsil edildiği kelime çantası. Modern İnternet arama motorları da bu modeli kullanır ve metinleri içinde kullanılan kelimelere göre indeksler (aynı zamanda ilgili belgeleri döndürmek için çok karmaşık sıralama prosedürlerini kullanırlar).

Belirtilen metin modeli (bazı karmaşıklıklarla birlikte) aşağıda tartışılan ilgili bilgi erişim problemlerinde de kullanılır.

Metni özetleme– hacminin küçültülmesi ve bir özetinin elde edilmesi – belge koleksiyonlarında aramayı daha hızlı hale getiren bir özet (yoğunlaştırılmış içerik). Konuyla ilgili çeşitli belgeler için genel bir özet de derlenebilir.

Otomatik soyutlamanın ana yöntemi hala özetlenen metnin en anlamlı cümlelerinin seçilmesidir; bunun için genellikle önce metnin anahtar kelimeleri hesaplanır ve metin cümlelerinin anlamlılık katsayısı hesaplanır. Önemli cümlelerin seçimi, kopması istenmeyen cümlelerin anaforik bağlantıları nedeniyle karmaşık hale gelir - bu sorunu çözmek için cümleleri seçmek için belirli stratejiler geliştirilmektedir.

Soyutlamaya yakın bir görev dipnot belgenin metni, yani ek açıklamasının hazırlanması. En basit haliyle özet, indeksleme prosedürlerinin tanımlamak için kullanılabilecek bir metnin ana konularının bir listesidir.

Büyük belge koleksiyonları oluştururken aşağıdaki görevler önemlidir: sınıflandırmalar Ve kümelenme Konuyla ilgili belge sınıfları oluşturmak için metinler. Sınıflandırma, her belgeyi önceden bilinen parametrelerle belirli bir sınıfa atamak anlamına gelir ve kümeleme, bir dizi belgeyi kümelere, yani tematik olarak benzer belgelerin alt kümelerine bölmek anlamına gelir. Bu problemleri çözmek için makine öğrenmesi yöntemlerinden yararlanılmaktadır ve bu nedenle uygulanan bu problemlere Metin Madenciliği adı verilmektedir ve Veri Madenciliği veya veri madenciliği olarak bilinen bilimsel yöne aittir.

Görev sınıflandırmaya çok yakın sürtünme metin - önceden bilinen tematik başlıklardan birine atanması (genellikle başlıklar hiyerarşik bir konu ağacı oluşturur).

Sınıflandırma sorunu giderek yaygınlaşıyor; örneğin spam tanımada çözülüyor ve nispeten yeni bir uygulama, mobil cihazlardaki SMS mesajlarının sınıflandırılmasıdır. Genel bilgi erişimi sorununa yönelik yeni ve ilgili bir araştırma yönü, çok dilli belge aramadır.

Bilgi erişimiyle ilgili nispeten yeni bir görev de sorulara yanıt üretmek(Soru Cevaplama) . Bu problem, soru tipinin belirlenmesi, bu sorunun cevabını potansiyel olarak içeren metinlerin aranması ve bu metinlerden cevabın çıkarılmasıyla çözülür.

Yavaş ama istikrarlı bir şekilde gelişmekte olan tamamen farklı bir uygulama alanı, hazırlama ve düzenleme otomasyonu EA'daki metinler. Bu yöndeki ilk uygulamalardan biri, sözcük tirelerini otomatik olarak belirleyen programlar ve metin yazım programları (yazım denetimi veya otomatik düzelticiler) idi. Aktarım sorununun görünürdeki basitliğine rağmen, birçok dil için (örneğin İngilizce) doğru çözümü, karşılık gelen dildeki kelimelerin morfemik yapısı ve dolayısıyla ilgili sözlük hakkında bilgi gerektirir.

Yazım denetimi uzun süredir ticari sistemlerde uygulanmaktadır ve uygun bir sözlük ve morfoloji modeline dayanmaktadır. Oldukça sık görülen tüm sözdizimsel hataların (örneğin, kelime uyumu hataları) tanımlandığı, eksik bir sözdizimi modeli de kullanılır. Aynı zamanda, otomatik düzelticiler, örneğin edatların yanlış kullanımı gibi daha karmaşık hataların tespitini henüz uygulamamıştır. Özellikle yazım hatalarından veya benzer kelimelerin yanlış kullanımından kaynaklanan hatalar (örneğin, ağırlık ağır yerine). Modern CL araştırması, bu tür hataların yanı sıra diğer bazı stilistik hata türlerinin otomatik olarak algılanması ve düzeltilmesi için yöntemler önermektedir. Bu yöntemler, kelimelerin ve ifadelerin oluşumuna ilişkin istatistikleri kullanır.

Metinlerin hazırlanmasını desteklemeye yakın uygulamalı bir görev doğal dil öğretimi Bu yön çerçevesinde, dil öğretimi için bilgisayar sistemleri (İngilizce, Rusça vb.) sıklıkla geliştirilmektedir (benzer sistemler internette bulunabilir). Tipik olarak bu sistemler dilin bireysel yönlerinin (morfoloji, kelime bilgisi, sözdizimi) incelenmesini destekler ve morfoloji modeli gibi uygun modellere dayanır.

Kelime öğrenmeye gelince, bunun için metin sözlüklerinin (esasen dil modelleri olmayan) elektronik analogları da kullanılır. Bununla birlikte, metin analogları olmayan ve geniş bir kullanıcı yelpazesine yönelik çok işlevli bilgisayar sözlükleri de geliştirilmektedir - örneğin, Rusça ifadelerin Crosslexics sözlüğü. Bu sistem geniş bir kelime dağarcığı yelpazesini kapsar - kelimeler ve bunların kabul edilebilir kelime kombinasyonları ve ayrıca kelime yönetimi modelleri, eş anlamlılar, zıt anlamlılar ve kelimelerin diğer anlamsal bağıntıları hakkında yardım sağlar; bu, yalnızca Rus dilini öğrenenler için değil, aynı zamanda açıkça yararlı olandır. aynı zamanda ana dili konuşanlar için.

Bahsetmeye değer bir sonraki uygulama alanı otomatik nesil EA'daki metinler. Prensip olarak bu görev, yukarıda tartışılan makine çevirisi görevinin bir alt görevi olarak düşünülebilir, ancak yön çerçevesinde bir dizi özel görev vardır. Böyle bir görev, çok dilli nesildir, yani birkaç dilde özel belgelerin otomatik olarak oluşturulmasıdır - patent formülleri, teknik ürünler veya yazılım sistemleri için kullanım talimatları, resmi bir dildeki özelliklerine göre. Bu sorunu çözmek için oldukça ayrıntılı dil modelleri kullanılır.

Çoğunlukla Metin Madenciliği olarak adlandırılan, giderek daha alakalı bir uygulamalı problem, bilgi çıkarma ekonomik ve üretim analitiği sorunlarını çözerken gerekli olan metinlerden veya Bilgi Çıkarma. Bunu yapmak için, NL testinde belirli nesneler tanımlanır - varlıklar (isimler, kişilikler, coğrafi adlar), bunların ilişkileri ve onlarla ilişkili olaylar. Kural olarak bu, haber ajanslarından gelen haber akışlarının işlenmesine olanak tanıyan metnin kısmi ayrıştırılması temelinde uygulanır. Görev sadece teorik olarak değil aynı zamanda teknolojik olarak da oldukça karmaşık olduğundan, ticari şirketlerde metinlerden bilgi çıkarmaya yönelik önemli sistemlerin oluşturulması mümkündür.

Metin Madenciliği alanı aynı zamanda giderek artan sayıda araştırmacının dikkatini çeken fikir madenciliği (Görüş Madenciliği) ve duygu analizi (Duygu Analizi) olmak üzere iki ilgili görevi daha içermektedir. İlk görev, ürünler ve diğer nesneler hakkındaki kullanıcı görüşlerinin (bloglarda, forumlarda, çevrimiçi mağazalarda vb.) aranmasını ve ayrıca bu görüşlerin analiz edilmesini içerir. İkinci görev, kitle iletişim metinlerinin klasik içerik analizi görevine yakındır; ifadelerin genel tonunu değerlendirir.

Bahsetmeye değer başka bir uygulama diyalog desteği EA üzerinde kullanıcı ile herhangi bir bilgi yazılım sistemi çerçevesinde. Çoğu zaman, bu sorun özel veritabanları için çözüldü - bu durumda, sorgulama dili oldukça sınırlıdır (sözcüksel ve dilbilgisel olarak), bu da basitleştirilmiş dil modellerinin kullanılmasına izin verir. NL'de formüle edilen veri tabanına yapılan sorgular resmi dile çevrilir, ardından gerekli bilgiler aranır ve karşılık gelen yanıt cümlesi oluşturulur.

CL uygulamaları listemizin sonuncusu (fakat en az önemli olanı) olarak şunları belirtiyoruz: konuşma tanıma ve sentez. Bu görevlerde kaçınılmaz olarak ortaya çıkan tanıma hataları, sözlüklere ve dilin morfoloji bilgisine dayalı otomatik yöntemlerle düzeltilir. Makine öğrenimi de bu alanda kullanılacak.

Çözüm

Hesaplamalı dilbilim, Hollanda'da otomatik metin işlemeye yönelik çeşitli uygulamalarda oldukça somut sonuçlar göstermektedir. Daha da gelişmesi, hem yeni uygulamaların ortaya çıkmasına hem de birçok sorunun henüz çözülmediği çeşitli dil modellerinin bağımsız gelişimine bağlıdır. En gelişmiş modeller morfolojik analiz ve sentezdir. Sözdizimi modelleri, önerilen çok sayıda formalizm ve yönteme rağmen henüz istikrarlı ve verimli çalışan modüller düzeyine getirilmemiştir. Her ne kadar birçok uygulamada söylemin otomatik olarak işlenmesi gerekli olsa da, anlambilim ve pragmatik düzeyindeki modeller daha az çalışılmış ve resmileştirilmiştir. Hesaplamalı dilbilimin halihazırda var olan araçlarının, yani makine öğreniminin ve metin derlemlerinin kullanılmasının, bu sorunların çözümünü önemli ölçüde ilerletebileceğini unutmayın.

Edebiyat

1. Baeza-Yates, R. ve Ribeiro-Neto, B. Modern Bilgi Erişimi, Adison Wesley, 1999.

2. Bateman, J., Zock M. Doğal Dil Üretimi. İçinde: Oxford Hesaplamalı Dilbilim El Kitabı. Mitkov R. (ed.). Oxford University Press, 2003, s.304.

3. Biber, D., Conrad S. ve Reppen D. Corpus Linguistics. Dil Yapısının ve Kullanımının Araştırılması. Cambridge University Press, Cambridge, 1998.

4. Bolshakov, I. A., Gelbukh Putational Linguistics. Modeller, Kaynaklar, Uygulamalar. Meksika, IPN, 2004.

5. Brown P., Pietra S., Mercer R., Pietra V. İstatistiksel Makine Çevirisinin Matematiği. // Hesaplamalı Dilbilim, Cilt. 19(2): 263-3

6. Carroll J R. Ayrıştırma. İçinde: Oxford Hesaplamalı Dilbilim El Kitabı. Mitkov R. (ed.). Oxford University Press, 2003, s. 233-248.

7. Chomsky, N. Sözdizimsel Yapılar. Lahey: Mouton, 1957.

8. Grishman R. Bilgi çıkarma. İçinde: Oxford Hesaplamalı Dilbilim El Kitabı. Mitkov R. (ed.). Oxford University Press, 2003, s. 545-559.

9. Harabagiu, S., Moldovan D. Soru Cevaplama. İçinde: Oxford Hesaplamalı Dilbilim El Kitabı. Mitkov R. (ed.). Oxford University Press, 2003, s. 560-582.

10. Hearst, M. A. WordNet İlişkilerinin Otomatik Keşfi. İçinde: Fellbaum, C. (ed.) WordNet: Elektronik Sözcüksel Veritabanı. MIT Press, Cambridge, 1998, s.131-151.

11. Hirst, G. Ontoloji ve Sözlük. İçinde .: Bilgi Sistemlerinde Ontolojiler El Kitabı. Berlin, Springer, 2003.

12. Jacquemin C., Bourigault D. Terim çıkarma ve otomatik indeksleme // Mitkov R. (ed.): Hesaplamalı Dilbilim El Kitabı. Oxford University Press, 2003. s. 599-615.

13. Kilgarriff, A., G. Grefenstette. Varsayılan dilbilim olarak Web'deki Özel Sayıya Giriş, V. 29, No. 3, 2003, s. 333-347.

14. Manning, Ch. D., H. Schütze. İstatistiksel Doğal Dil İşlemenin Temelleri. MIT Press, 1999.

15. Matsumoto Y. Sözcüksel Bilgi Edinme. İçinde: Oxford Hesaplamalı Dilbilim El Kitabı. Mitkov R. (ed.). Oxford University Press, 2003, s. 395-413.

16. Oxford Hesaplamalı Dilbilim El Kitabı. R. Mitkov (Ed.). Oxford University Press, 2005.

17. Oakes, M., Paice C.D. Otomatik soyutlama için terim çıkarma. Hesaplamalı Terminolojideki Son Gelişmeler. D. Bourigault, C. Jacquemin ve M. L'Homme (Eds), John Benjamins Publishing Company, Amsterdam, 2001, s.353-370.

18. Pedersen, T. Bigramlardan oluşan bir karar ağacı, kelime anlamlarının doğru bir tahmincisidir. Proc. NAC ACL 2. Yıllık Toplantısı, Pittsburgh, PA, 2001, s. 79-86.

19. Samuelsson C. İstatistiksel Yöntemler. İçinde: Oxford Hesaplamalı Dilbilim El Kitabı. Mitkov R. (ed.). Oxford University Press, 2003, s. 358-375.

20. Salton, G. Otomatik Metin İşleme: Bilginin Bilgisayar Tarafından Dönüştürülmesi, Analizi ve Geri Alınması. Okuma, MA: Addison-Wesley, 1988.

21. Somers, H. Makine Çevirisi: Son Gelişmeler. İçinde: Oxford Hesaplamalı Dilbilim El Kitabı. Mitkov R. (ed.). Oxford University Press, 2003, s. 512-528.

22. Strzalkowski, T. (ed.) Doğal Dil Bilgi Erişimi. Kluwer, 19s.

23. Woods W. A. ​​​​Doğal Dil Analizi için Geçiş Ağı Gramerleri / ACM İletişimi, V. 13, 1970, N 10, s. 591-606.

24. Word Net: Elektronik Sözcüksel Veritabanı. / Christiane Fellbaum. Cambridge, MIT Press, 1998.

25. Wu J., Yu-Chia Chang Y., Teruko Mitamura T., Chang J. Akademik Yazımda Otomatik Sıralama Önerisi // ACL 2010 Konferansı Kısa Makaleleri Bildirileri, 2010.

26. ve diğerleri ETAP-2 sisteminin dil desteği. M.: Nauka, 1989.

27. vb. Veri analizi teknolojileri: Veri Madenciliği, Görsel Madencilik, Metin Madenciliği, OLAP – 2. baskı. – St. Petersburg: BHV-Petersburg, 2008.

28. Bolshakov, Lexika - Rusça kelimelerin kombinasyonları ve anlamsal bağlantılarından oluşan geniş bir elektronik sözlük. //Bileşik dilbilim ve zeka. teknoloji: Bildiriler int. Konf. "Diyalog 2009". Sayı: Rusya Devlet Beşeri Bilimler Üniversitesi, 2009, s. 45-50.

29. Bolshakova E.I., Bolshakov'un Rus malapropizmlerinin tespiti ve otomatik düzeltilmesi // NTI. Ser. 2, Sayı. 5, 2007, s. 27-40.

30. Wang, Kinch V. Bağlantılı bir metni anlama stratejisi // Yabancı dilbilimde yeni. Cilt XXIII– M., İlerleme, 1988, s. 153-211.

31. Vasiliev V. G., Krivenko M. P. Otomatik metin işleme yöntemleri. – M.: IPI RAS, 2008.

32. Vinograd T. Doğal dili anlayan bir program - M., Mir, 1976.

33. Otomatik iletişim sistemlerinde düzgün doğal dil yapıları. – M., Nauka, 1985.

34. Gusev, V. D., Salomatina paronim sözlüğü: versiyon 2. // NTI, Ser. 2, Sayı. 7, 2001, s. 26-33.

35. Zakharov - bir dil külliyatı olarak uzay // Bilgisayar dil bilimi ve entelektüel teknolojiler: Enternasyonal Bildirileri. Konferans Diyaloğu ‘2005 / Ed. , – M.: Nauka, 2005, s. 166-171.

36. Genel dilbilimden Kasevich. - M., Nauka, 1977.

37. Leontief'in metin anlayışı: Sistemler, modeller, kaynaklar: Ders Kitabı - M.: Akademi, 2006.

38. Dilbilimsel ansiklopedik sözlük / Ed. V. N. Yartseva, M .: Sovyet Ansiklopedisi, 1990, 685 s.

39. , Otomatik indeksleme ve sınıflandırma için Salyum: geliştirme, yapı, bakım. // NTI, Ser. 2, Sayı 1, 1996.

40. Luger J. Yapay zeka: karmaşık sorunları çözmeye yönelik stratejiler ve yöntemler. M., 2005.

41. McQueen K. Doğal dilde metin sentezi için söylemsel stratejiler // Yabancı dilbilimde yeni. Cilt XXIV. M.: İlerleme, 1989, s. 311-356.

42. Melchuk dilsel model teorisi “METİN” ANLAMI. - M., Nauka, 1974.

43. Rus Dili Ulusal Külliyatı. http://*****

44. Khoroshevsky V. F. OntosMiner: çok dilli belge koleksiyonlarından bilgi çıkarmak için bir sistem ailesi // Uluslararası Katılımlı Dokuzuncu Ulusal Yapay Zeka Konferansı KII-2004. T. 2. – M.: Fizmatlit, 2004, s.573-581.

dilbilim istatistiksel dilbilim yazılımı

Hesaplamalı dilbilimin gelişim tarihi

Doğal dil bilimi olarak modern dilbilimin oluşum ve oluşum süreci, dil bilgisinin uzun bir tarihsel gelişimini temsil eder. Dil bilgisi, sözlü konuşma yapısının gelişimi, yazının ortaya çıkışı, daha da geliştirilmesi ve iyileştirilmesi, yazmayı öğrenmenin yanı sıra metinlerin yorumlanması ve kod çözülmesi ile ayrılmaz bir şekilde bağlantılı faaliyetler sürecinde oluşan unsurlara dayanmaktadır.

Dilbilimin bir nesnesi olarak doğal dil, bu bilimde merkezi bir yere sahiptir. Dilin gelişimi sürecinde onunla ilgili fikirler de değişti. Daha önce dilin iç organizasyonuna özel bir önem verilmediyse ve öncelikle dış dünyayla olan ilişkisi bağlamında değerlendirildiyse, 19. yüzyılın sonlarından 20. yüzyılın başlarından itibaren iç dünyaya özel bir rol verildi. Dilin biçimsel yapısı. Ünlü İsviçreli dilbilimci Ferdinand de Saussure'ün göstergebilim ve yapısal dilbilim gibi bilimlerin temellerini bu dönemde geliştirdiği ve "Genel Dilbilimde Bir Kurs" (1916) adlı kitabında ayrıntılı olarak ortaya koyduğu bir dönemdir.

Bilim adamı, dili tek bir mekanizma, bütünleşik bir işaretler sistemi olarak düşünme fikrini ortaya attı ve bu da dili matematiksel olarak tanımlamayı mümkün kıldı. Saussure dile yapısal bir yaklaşım öneren ilk kişiydi: dilin birimleri arasındaki ilişkileri inceleyerek tanımlanması. Birimlerden veya "işaretlerden" hem anlamı hem de sesi birleştiren bir kelimeyi anladı. İsviçreli bilim adamı tarafından önerilen kavram, üç bölümden oluşan bir işaretler sistemi olarak dil teorisine dayanmaktadır: dil (Fransız dilinden), konuşma (Fransızca şartlı tahliyeden) ve konuşma etkinliği (Fransız dilinden).

Bilim adamı, göstergebilim olarak yarattığı bilimi, "toplum yaşamı çerçevesinde işaretlerin yaşamını inceleyen bir bilim" olarak tanımladı. Dil bir işaret sistemi olduğundan dilbilimin diğer bilimler arasında nasıl bir yer tuttuğu sorusuna cevap arayan Saussure, dilbilimin göstergebilimin bir parçası olduğunu ileri sürmüştür. Dilbilimde yeni bir yönelimin teorik temelini atan, modern dilbilimin kurucusu ve "babası" olanın İsviçreli filolog olduğu genel olarak kabul edilir.

F. de Saussure tarafından öne sürülen kavram, birçok seçkin bilim insanının çalışmalarında daha da geliştirildi: Danimarka'da - L. Hjelmslev, Çek Cumhuriyeti'nde - N. Trubetskoy, ABD'de - L. Bloomfield, Z. Harris, N. Chomsky. Ülkemize gelince, burada yapısal dilbilim Batı'dakiyle yaklaşık olarak aynı dönemde, 19.-20. yüzyılların başında gelişmeye başladı. - F. Fortunatov ve I. Baudouin de Courtenay'ın eserlerinde. I. Baudouin de Courtenay'ın F. de Saussure ile yakın çalıştığını belirtmek gerekir. Saussure yapısal dilbilimin teorik temelini attıysa, Baudouin de Courtenay, İsviçreli bilim adamının önerdiği yöntemlerin pratik uygulamasının temellerini atan kişi olarak düşünülebilir. Dilbilimi istatistiksel yöntemleri ve işlevsel bağımlılıkları kullanan bir bilim olarak tanımlayıp filolojiden ayıran oydu. Dilbilimde matematiksel yöntemlerin uygulanmasındaki ilk deneyim, bir dilin seslerinin yapısının bilimi olan fonolojiydi.

F. de Saussure'ün öne sürdüğü varsayımların, 20. yüzyılın ortalarında geçerli olan dilbilimin sorunlarına yansıyabildiğini belirtmek gerekir. Bu dönemde dil biliminin matematikleştirilmesine yönelik açık bir eğilim vardı. Hemen hemen tüm büyük ülkelerde bilim ve bilgisayar teknolojisinde hızlı bir gelişme başlıyor ve bu da giderek daha fazla yeni dilsel temeller gerektiriyor. Tüm bunların sonucu, kesin bilimler ile beşeri bilimlerin hızlı bir şekilde yakınlaşmasının yanı sıra, acil bilimsel sorunların çözümünde pratik uygulama bulan matematik ve dilbilimin aktif etkileşimiydi.

20. yüzyılın 50'li yıllarında, matematik, dilbilim, bilgisayar bilimi ve yapay zeka gibi bilimlerin kavşağında, yeni bir bilim dalı ortaya çıktı - bilgisayar dilbilimi (makine dilbilimi veya doğal dilde otomatik metin işleme olarak da bilinir). Bu yönün gelişiminin ana aşamaları, yapay zeka yöntemlerinin evrimi zemininde gerçekleşti. Bilgisayar dilbiliminin gelişmesinde güçlü bir itici güç, ilk bilgisayarların yaratılmasıydı. Ancak 60'lı yıllarda yeni nesil bilgisayarların ve programlama dillerinin ortaya çıkmasıyla birlikte, bu bilimin gelişiminde temelde yeni bir aşama başlıyor. Hesaplamalı dilbilimin kökenlerinin ünlü Amerikalı dilbilimci N. Chomsky'nin dilin yapısını biçimlendirme alanındaki çalışmalarına kadar uzandığını da belirtmek gerekir. Dilbilim ve matematiğin kesiştiği noktada elde ettiği araştırmasının sonuçları, özellikle hem doğal hem de yapay dilleri tanımlamak için yaygın olarak kullanılan biçimsel diller ve dilbilgisi (üretken dilbilgisi) teorisinin geliştirilmesinin temelini oluşturdu. Programlama dilleri. Daha doğrusu bu teori tamamen matematiksel bir disiplindir. Matematiksel dilbilim gibi uygulamalı dilbilim alanında ilklerden biri olarak kabul edilebilir.

Hesaplamalı dilbilimdeki ilk deneyler ve ilk gelişmeler, makine çeviri sistemlerinin yanı sıra insan dili yeteneklerini modelleyen sistemlerin oluşturulmasıyla ilgilidir. 80'li yılların sonlarında, İnternet'in ortaya çıkışı ve aktif gelişimi ile birlikte, elektronik biçimde mevcut olan metin bilgilerinin hacminde hızlı bir büyüme yaşandı. Bu, bilgi erişim teknolojilerinin gelişimlerinin niteliksel olarak yeni bir aşamasına geçmesine yol açtı. Metinlerin doğal dilde otomatik olarak işlenmesi ihtiyacı ortaya çıktı ve tamamen yeni görevler ve teknolojiler ortaya çıktı. Bilim adamları, büyük miktarda yapılandırılmamış veri akışını hızlı bir şekilde işleme sorunuyla karşı karşıyadır. Bu soruna çözüm bulmak amacıyla otomatik metin işleme alanında istatistiksel yöntemlerin geliştirilmesine ve uygulanmasına büyük önem verilmiştir. Metinleri ortak bir temayla birleştirilmiş kümelere bölmek, metindeki belirli parçaları vurgulamak vb. gibi sorunları çözmek onların yardımıyla mümkün hale geldi. Ek olarak, matematiksel istatistik ve makine öğrenimi yöntemlerinin kullanılması, konuşma tanıma ve arama motorlarının oluşturulması sorunlarının çözülmesini mümkün kılmıştır.

Bilim adamları elde edilen sonuçlarla yetinmediler: kendilerine yeni amaç ve hedefler belirlemeye, yeni teknikler ve araştırma yöntemleri geliştirmeye devam ettiler. Bütün bunlar, dilbilimin, bir dizi diğer bilimi birleştirerek uygulamalı bir bilim olarak hareket etmeye başlamasına yol açtı; bunların arasında lider rolü, çeşitli niceliksel yöntemleriyle matematiğe aitti ve bunları fenomeni daha derinlemesine anlamak için kullanma yeteneğiydi. inceleniyor. Matematiksel dilbilimin oluşumu ve gelişimi bu şekilde başladı. Şu anda bu oldukça "genç" bir bilimdir (yaklaşık elli yıldır varlığını sürdürmektedir), ancak çok "genç yaşına" rağmen, birçok başarılı başarıya sahip, halihazırda yerleşik bir bilimsel bilgi alanını temsil etmektedir.

Makalenin içeriği

BİLGİSAYAR DİLBİLİMİ, uygulamalı dilbilimde yön, dilin belirli koşullar, durumlar, sorunlu alanlar vb. işleyişinin yanı sıra tüm uygulama kapsamını modellemek için bilgisayar araçlarının - programlar, verileri düzenlemek ve işlemek için bilgisayar teknolojileri - kullanımına odaklanmıştır. Dilbilim ve ilgili disiplinlerde dilin bilgisayar modelleri. Aslında, yalnızca ikinci durumda uygulamalı dilbilimden tam anlamıyla bahsediyoruz, çünkü dilin bilgisayarla modellenmesi aynı zamanda bilgisayar bilimi ve programlama teorisinin dil bilimindeki sorunların çözümüne yönelik bir uygulama alanı olarak da düşünülebilir. Ancak pratikte hesaplamalı dilbilim, bilgisayarların dilbilimde kullanımına ilişkin hemen hemen her şeyi içerir.

Hesaplamalı dilbilim 1960'lı yıllarda özel bir bilimsel alan olarak şekillendi. Rusça “bilgisayar dilbilimi” terimi İngilizce hesaplamalı dilbilimden bir çeviridir. Rusça'daki hesaplamalı sıfatı "bilgisayarlı" olarak da tercüme edilebildiğinden, "bilgisayarlı dilbilim" terimi de literatürde bulunur, ancak Rus biliminde "nicel dilbilim" kavramına yaklaşan daha dar bir anlam kazanır. Bu alandaki yayın akışı oldukça fazladır. Tematik koleksiyonlara ek olarak, Computer Linguistics dergisi Amerika Birleşik Devletleri'nde üç ayda bir yayınlanmaktadır. Bölgesel yapılara (özellikle bir Avrupa şubesine) sahip olan Hesaplamalı Dilbilim Derneği tarafından birçok organizasyonel ve bilimsel çalışma yürütülmektedir. Her iki yılda bir, hesaplamalı dilbilim (COLING) üzerine uluslararası konferanslar düzenlenmektedir. İlgili konular genellikle yapay zeka ile ilgili çeşitli konferanslarda geniş çapta temsil edilmektedir.

Hesaplamalı Dilbilim için Araç Seti.

Özel bir uygulamalı disiplin olarak hesaplamalı dilbilim, öncelikle aracıyla ayırt edilir; Dil verilerinin işlenmesi için bilgisayar araçlarının kullanımına ilişkin. Bir dilin işleyişinin belirli yönlerini modelleyen bilgisayar programları çeşitli programlama araçlarını kullanabildiğinden, bilgisayar dilbiliminin genel kavramsal aygıtlarından bahsetmeye gerek yok gibi görünüyor. Ancak öyle değil. Herhangi bir bilgisayar modelinde bir şekilde uygulanan, düşünmenin bilgisayar modellemesinin genel ilkeleri vardır. Başlangıçta yapay zeka alanında geliştirilen ve daha sonra bilişsel bilimin dallarından biri haline gelen bilgi teorisine dayanmaktadırlar. Bilgisayar dilbiliminin en önemli kavramsal kategorileri, “çerçeveler” (kavramsal veya dedikleri gibi, tematik olarak birleştirilmiş tipik bir durum hakkındaki bilginin bildirimsel temsili için kavramsal yapılar), “senaryolar” (prosedürel süreçler için kavramsal yapılar) gibi bilgi yapılarıdır. basmakalıp bir durum veya basmakalıp davranış hakkındaki bilginin temsili), “planlar” (belirli bir hedefe ulaşmaya yol açan olası eylemler hakkındaki fikirleri yakalayan bilgi yapıları). Çerçeve kategorisiyle yakından ilgili olan “sahne” kavramıdır. Sahne kategorisi ağırlıklı olarak hesaplamalı dilbilim literatüründe, bir konuşma eyleminde gerçekleştirilen ve dilsel araçlarla (sözcük birimleri, sözdizimsel yapılar, dilbilgisi kategorileri vb.) vurgulanan durumların ve bunların parçalarının bildirimsel temsili için kavramsal bir yapının belirlenmesi olarak kullanılır. .

Belirli bir organize bilgi yapıları dizisi, bilişsel sistemin ve onun bilgisayar modelinin “dünya modelini” oluşturur. Yapay zeka sistemlerinde dünya modeli, seçilen mimariye bağlı olarak dünya hakkında genel bilgileri (“kışın soğuktur” gibi basit önermeler şeklinde veya üretim kuralları şeklinde) içerebilen özel bir blok oluşturur. “dışarıda yağmur yağıyorsa, o zaman yağmurluk giymeniz veya şemsiye almanız gerekir”), bazı spesifik gerçekler (“Dünyanın en yüksek zirvesi Everest'tir”) ve bazen değerler ve bunların hiyerarşileri özel “aksiyolojik blok”.

Hesaplamalı dilbilim araçlarının kavramlarının çoğu öğesi eşseslidir: aynı anda insanın bilişsel sisteminin bazı gerçek varlıklarını ve teorik tanımlarında ve modellemelerinde kullanılan bu varlıkları temsil etme yollarını belirtirler. Başka bir deyişle, bilgisayar dilbiliminin kavramsal aygıtının öğelerinin ontolojik ve araçsal yönleri vardır. Örneğin, ontolojik açıdan, bildirimsel ve prosedürel bilginin bölünmesi, bir kişinin kullanabileceği farklı bilgi türlerine karşılık gelir - sözde bilgi NE (bildirimsel; örneğin, bazı NN'nin posta adresinin bilgisi), bir yanda NASIL bilgisi (prosedürel; örneğin, bu NN'nin dairesini resmi adresini bilmeden bile bulmanızı sağlayan bilgi) - diğer yanda. Araçsal açıdan bilgi, bir yandan bir dizi açıklamada (açıklamalarda), bir dizi veride ve bir algoritmada, bir bilgisayar veya başka bir bilişsel sistem modeli tarafından gerçekleştirilen bir talimatta somutlaştırılabilir, Diğer yandan.

Hesaplamalı dilbilimin yönleri.

CL alanı çok çeşitlidir ve iletişimin bilgisayar modellemesi, olay örgüsü yapısının modellemesi, metin sunumu için hiper metin teknolojileri, makine çevirisi ve bilgisayar sözlükbilimi gibi alanları içerir. Dar anlamda, CL'nin sorunları genellikle biraz talihsiz bir isim olan "doğal dil işleme" (İngilizce Doğal Dil İşleme teriminin çevirisi) olan disiplinlerarası bir uygulama alanıyla ilişkilendirilir. 1960'ların sonlarında ortaya çıktı ve "yapay zeka" bilimsel ve teknolojik disiplini içinde gelişti. Dahili haliyle “doğal dil işleme” ifadesi, bilgisayarların dil verilerini işlemek için kullanıldığı tüm alanları kapsar. Bu arada, bu terimin daha dar bir anlayışı pratikte benimsendi - insanın bir bilgisayarla doğal veya sınırlı doğal dilde iletişimini sağlayan yöntemlerin, teknolojilerin ve özel sistemlerin geliştirilmesi.

"Doğal dil işleme" alanının hızlı gelişimi 1970'lerde meydana geldi ve bu, bilgisayar son kullanıcılarının sayısında beklenmedik bir üstel artışla ilişkilendirildi. Dilleri ve programlama teknolojisini tüm kullanıcılara öğretmek imkansız olduğundan, bilgisayar programlarıyla etkileşimi organize etme sorunu ortaya çıkmıştır. Bu iletişim sorununun çözümü iki ana yol izledi. İlk durumda programlama dillerinin ve işletim sistemlerinin son kullanıcıya uyarlanması için girişimlerde bulunuldu. Sonuç olarak, Visual Basic gibi üst düzey dillerin yanı sıra, insanlara tanıdık gelen metaforların (MASA, KÜTÜPHANE) kavramsal alanında inşa edilmiş kullanışlı işletim sistemleri ortaya çıktı. İkinci yol ise belirli bir problem alanındaki bilgisayarla doğal dilde veya onun sınırlı bir versiyonunda etkileşime girilmesini sağlayacak sistemler geliştirmektir.

Genel durumda doğal dil işleme sistemlerinin mimarisi, kullanıcının konuşma mesajını analiz etmek için bir blok, mesajı yorumlamak için bir blok, yanıtın anlamını oluşturmak için bir blok ve ifadenin yüzey yapısını sentezlemek için bir blok içerir. Sistemin özel bir kısmı, diyalog yürütme stratejilerini, bu stratejileri kullanma koşullarını ve olası iletişim başarısızlıklarının (iletişim sürecindeki başarısızlıklar) üstesinden gelme yollarını kaydeden diyalog bileşenidir.

Bilgisayar doğal dil işleme sistemleri arasında genellikle soru-cevap sistemleri, etkileşimli problem çözme sistemleri ve bağlantılı metin işleme sistemleri öne çıkar. Başlangıçta bilgi erişim sistemlerinde bilgi ararken sorgu kodlamanın kalitesizliğine tepki olarak soru-cevap sistemleri geliştirilmeye başlandı. Bu tür sistemlerin sorun alanı çok sınırlı olduğundan, bu, sorguları resmi bir dildeki bir temsile çevirmek için kullanılan algoritmaları ve resmi bir temsili doğal bir dildeki ifadelere dönüştürmek için ters prosedürü bir şekilde basitleştirdi. Yurt içi gelişmeler arasında bu tür programlar arasında E.V Popov liderliğinde bir araştırma ekibi tarafından oluşturulan POET sistemi yer alıyor. Sistem, Rusça istekleri (küçük kısıtlamalarla) işler ve yanıtı sentezler. Program akış şeması, analizin tüm aşamalarından (morfolojik, sözdizimsel ve anlamsal) ve ilgili sentez aşamalarından geçmeyi içerir.

Konuşmalı problem çözme sistemleri, önceki türdeki sistemlerden farklı olarak iletişimde aktif bir rol oynar, çünkü görevleri, içinde sunulan bilgiye ve kullanıcıdan alınabilecek bilgilere dayanarak soruna bir çözüm elde etmektir. Sistem, belirli bir problem alanındaki sorunların çözümüne yönelik tipik eylem dizilerinin yanı sıra gerekli kaynaklar hakkındaki bilgileri kaydeden bilgi yapılarını içerir. Kullanıcı bir soru sorduğunda veya belirli bir görevi belirlediğinde ilgili komut dosyası etkinleştirilir. Bazı komut dosyası bileşenleri eksikse veya bazı kaynaklar eksikse sistem iletişimi başlatır. Örneğin SNUKA sistemi bu şekilde çalışıyor ve askeri operasyonların planlanması sorunlarını çözüyor.

Bağlantılı metinleri işlemeye yönelik sistemler yapı açısından oldukça çeşitlidir. Bunların ortak özelliği bilgi temsili teknolojilerinin yaygın kullanımı olarak düşünülebilir. Bu tür sistemlerin işlevi metni anlamak ve içeriğiyle ilgili soruları yanıtlamaktır. Anlama evrensel bir kategori olarak değil, belirli bir iletişimsel niyetle belirlenen bir metinden bilgi çıkarma süreci olarak kabul edilir. Başka bir deyişle, metin yalnızca potansiyel kullanıcının onun hakkında tam olarak ne bilmek istediği varsayımıyla "okunur". Böylece, bağlantılı metinleri işlemeye yönelik sistemlerin hiçbir şekilde evrensel olmadığı, sorun odaklı olduğu ortaya çıkıyor. Tartışılan türdeki sistemlerin tipik örnekleri, kullanıcının karmaşık fiziksel nesneleri açıklayan patent özetlerinden bilgi edinmesine olanak tanıyan tek bir yazılım paketi oluşturan RESEARCHER ve TAILOR sistemleridir.

Bilgisayar dilbiliminin en önemli alanı bilgi erişim sistemlerinin (IRS) geliştirilmesidir. İkincisi, bilimsel ve teknik bilgi hacmindeki keskin artışa bir yanıt olarak 1950'lerin sonlarında ve 1960'ların başlarında ortaya çıktı. Saklanan ve işlenen bilgilerin türüne ve arama özelliklerine bağlı olarak bilgi erişim sistemleri, belgesel ve gerçek olmak üzere iki büyük gruba ayrılır. Belgesel bilgi erişim sistemleri, belgelerin metinlerini veya açıklamalarını (özetler, bibliyografik kartlar vb.) saklar. Gerçek IRS, belirli gerçeklerin açıklamasıyla ilgilenir ve mutlaka metin biçiminde olması gerekmez. Bunlar tablolar, formüller ve diğer veri sunumu türleri olabilir. Hem belgeleri hem de gerçek bilgileri içeren karma bilgi sistemleri de vardır. Şu anda, gerçek bilgi sistemleri veritabanı teknolojileri (DB) temelinde inşa edilmektedir. Bilgi erişim sisteminde bilgi erişimini sağlamak için, bilgi erişim eşanlamlılarını temel alan özel bilgi erişim dilleri oluşturulur. Bilgi alma dili, bilgi alma sisteminde saklanan belgelerin ve talebin içerik planının belirli yönlerini tanımlamak için tasarlanmış resmi bir dildir. Bir belgeyi bilgi erişim dilinde tanımlama prosedürüne indeksleme adı verilir. İndekslemenin bir sonucu olarak, her belgeye, bilgi erişim dilindeki resmi açıklaması (belgenin arama görseli) atanır. Sorgu, bir arama sorgusu görselinin ve bir arama reçetesinin atandığı benzer şekilde indekslenir. Bilgi erişim algoritmaları, arama reçetesini sorgunun arama görseliyle karşılaştırmaya dayanır. Bir talebe belge verme kriteri, belgenin arama görseli ile arama talimatının tam veya kısmi eşleşmesi olabilir. Bazı durumlarda, kullanıcının ihraç kriterlerini kendisi formüle etme olanağı vardır. Bu onun bilgi ihtiyacına göre belirlenir. Otomatik bilgi erişim sistemleri genellikle tanımlayıcı bilgi erişim dillerini kullanır. Bir belgenin konusu bir dizi tanımlayıcıyla tanımlanır. Tanımlayıcılar, problem alanının basit, oldukça temel kategorilerini ve kavramlarını ifade eden kelimeler ve terimlerdir. Belgede ele alınan farklı konular olduğundan, belgenin arama görseline çok sayıda tanımlayıcı girilir. Tanımlayıcıların sayısı sınırlı değildir; bu, belgeyi çok boyutlu bir özellikler matrisinde tanımlamanıza olanak tanır. Genellikle bir tanımlayıcı bilgi alma dilinde, tanımlayıcıların uyumluluğuna kısıtlamalar getirilir. Bu durumda bilgi erişim dilinin sözdizimine sahip olduğunu söyleyebiliriz.

Tanımlayıcı dille çalışan ilk sistemlerden biri M. Taube tarafından oluşturulan Amerikan UNITERM sistemiydi. Belge anahtar sözcükleri (birim terimler) bu sistemde tanımlayıcılar olarak işlev görüyordu. Bu IRS'nin özelliği, başlangıçta bilgi dili sözlüğünün belirtilmemiş olması, ancak belgenin ve sorgunun indekslenmesi sürecinde ortaya çıkmasıdır. Modern bilgi erişim sistemlerinin gelişimi, eş anlamlılar sözlüğü tipi olmayan bilgi erişim sistemlerinin gelişimi ile ilişkilidir. Bu tür bilgi sistemleri kullanıcıyla sınırlı bir doğal dilde çalışır ve arama, belge özetlerinin metinleri, bibliyografik açıklamaları ve çoğu zaman belgelerin kendisi aracılığıyla gerçekleştirilir. Eş anlamlılar sözlüğü olmayan IRS türünde indeksleme için doğal dildeki kelimeler ve ifadeler kullanılır.

Belirli bir dereceye kadar, bilgisayar dilbilimi alanı, metni düzenlemenin özel bir yolu olarak ve hatta temelde yeni bir metin türü olarak kabul edilen, birçok özelliğinde oluşturulan sıradan metinle çelişen hiper metin sistemleri oluşturma alanındaki çalışmaları içerebilir. Gutenberg'in matbaacılık geleneği. Hiper metin fikri, Başkan F. Roosevelt'in bilim danışmanı Vannevar Bush'un adıyla ilişkilendiriliyor. V. Bush, kullanıcının metinleri ve parçalarını çeşitli bağlantı türlerini kullanarak, esas olarak çağrışımsal ilişkiler yoluyla birbirine bağlamasına olanak tanıyan Memex teknik sistemi projesini teorik olarak doğruladı. Bilgisayar teknolojisinin olmayışı, mekanik sistemin pratik uygulama için fazla karmaşık olması nedeniyle projenin uygulanmasını zorlaştırdı.

Bush'un fikri 1960'larda T. Nelson'ın halihazırda bilgisayar teknolojisinin kullanımını içeren Xanadu sisteminde yeniden doğdu. "Xanadu", kullanıcının sisteme girilen bir dizi metni farklı şekillerde, farklı sıralarda okumasına olanak tanıyordu; yazılım, hem görüntülenen metinlerin sırasını hatırlamayı hem de herhangi bir zamanda hemen hemen herhangi birini seçmeyi mümkün kılıyordu. Onları birbirine bağlayan ilişkilere sahip bir dizi metin (bir geçiş sistemi), T. Nelson tarafından hiper metin olarak adlandırıldı. Pek çok araştırmacı, hipermetin oluşumunu matbaa çağının aksine yeni bir bilgi çağının başlangıcı olarak görüyor. Konuşmanın doğrusallığını dışa doğru yansıtan yazının doğrusallığı, insanın metni düşünmesini ve anlamasını sınırlayan temel bir kategori olarak ortaya çıkıyor. Anlam dünyası doğrusal değildir, bu nedenle anlamsal bilginin doğrusal bir konuşma bölümünde sıkıştırılması, özel bir "iletişimsel paketleme" kullanılmasını gerektirir - temaya ve reme'ye bölünme, bir ifadenin içerik planının açık bir şekilde bölünmesi (ifade, teklif, odak) ve örtülü (önvarsayım, sonuç, söylemin ima edilmesi) katmanları. Teorisyenlere göre metnin hem okuyucuya sunulma sürecinde (yani okuma ve anlama sırasında) hem de sentez sürecinde doğrusallığının reddedilmesi, düşünmenin “özgürleşmesine” ve hatta onun ortaya çıkmasına katkıda bulunacaktır. yeni formlar.

Bir bilgisayar sisteminde hiper metin, düğümleri geleneksel metinleri veya bunların parçalarını, resimlerini, tablolarını, videolarını vb. içeren bir grafik biçiminde sunulur. Düğümler, türleri hiper metin yazılım geliştiricileri veya okuyucunun kendisi tarafından belirlenen çeşitli ilişkilerle bağlanır. İlişkiler, hiper metinde hareketin veya gezinmenin potansiyel olanaklarını tanımlar. İlişkiler tek yönlü veya çift yönlü olabilir. Buna göre çift yönlü oklar kullanıcının her iki yönde hareket etmesini sağlarken, tek yönlü oklar kullanıcının yalnızca tek yönde hareket etmesini sağlar. Okuyucunun metnin bileşenlerini görüntülerken geçtiği düğümler zinciri bir yol veya güzergah oluşturur.

Köprü metninin bilgisayar uygulamaları hiyerarşik veya ağ bağlantılı olabilir. Hipermetnin hiyerarşik - ağaç benzeri - yapısı, bileşenleri arasındaki geçiş olanaklarını önemli ölçüde sınırlandırır. Böyle bir hiper metinde bileşenler arasındaki ilişkiler, cins-tür ilişkilerine dayalı bir eş anlamlılar sözlüğü yapısına benzemektedir. Ağ hiper metni, cins-tür ilişkileriyle sınırlı kalmayıp, bileşenler arasında çeşitli ilişki türlerinin kullanılmasına olanak tanır. Hipermetnin varoluş yöntemine göre statik ve dinamik hipermetinler ayırt edilir. Statik hiper metin işlem sırasında değişmez; Kullanıcı yorumlarını buraya kaydedebilir ancak bunlar konunun özünü değiştirmez. Dinamik hiper metin için değişim, varoluşun normal bir şeklidir. Tipik olarak dinamik hiper metinler, bilgi akışının sürekli olarak analiz edilmesinin gerekli olduğu yerlerde çalışır; çeşitli türlerde bilgi hizmetlerinde. Köprü metni, örneğin ayda 300-500 özet ile güncellenen Arizona Bilgi Sistemi'dir (AAIS).

Köprü metni öğeleri arasındaki ilişkiler başlangıçta yaratıcılar tarafından düzeltilebilir veya kullanıcı köprü metne eriştiğinde oluşturulabilir. İlk durumda, sert bir yapıya sahip hiper metinlerden, ikincisinde ise yumuşak bir yapıya sahip hiper metinlerden bahsediyoruz. Sert yapı teknolojik olarak oldukça anlaşılır. Yumuşak bir yapı düzenleme teknolojisi, belgelerin (veya diğer bilgi kaynaklarının) birbirine yakınlığının anlamsal analizine dayanmalıdır. Bu, hesaplamalı dilbilimde önemsiz olmayan bir görevdir. Günümüzde anahtar kelimelerde yumuşak yapı teknolojilerinin kullanımı yaygındır. Bir hiper metin ağında bir düğümden diğerine geçiş, anahtar kelimelerin aranması sonucunda gerçekleştirilir. Anahtar kelime kümesi her seferinde farklı olabileceğinden, hiper metnin yapısı da her seferinde değişir.

Hipermetin sistemleri oluşturma teknolojisi, metinli ve metinsiz bilgiler arasında ayrım yapmaz. Bu arada, görsel ve işitsel bilgilerin (videolar, resimler, fotoğraflar, ses kayıtları vb.) dahil edilmesi, kullanıcı arayüzünde önemli bir değişiklik ve daha güçlü yazılım ve bilgisayar desteği gerektirir. Bu tür sistemlere hipermedya veya multimedya denir. Multimedya sistemlerinin görünürlüğü, bunların öğretimde ve ansiklopedilerin bilgisayar versiyonlarının oluşturulmasında yaygın kullanımını önceden belirlemiştir. Örneğin, Dorlin Kindersley tarafından yayınlanan çocuk ansiklopedilerine dayanan, multimedya sistemli, güzelce üretilmiş CD-rom'lar var.

Bilgisayar sözlükbilimi çerçevesinde sözlüklerin derlenmesi ve çalıştırılması için bilgisayar teknolojileri geliştirilmektedir. Özel programlar - veritabanları, bilgisayar dosya dolapları, kelime işlem programları - otomatik olarak sözlük girişleri oluşturmanıza, sözlük bilgilerini saklamanıza ve işlemenize olanak tanır. Birçok farklı bilgisayar sözlükbilimi programı iki büyük gruba ayrılır: sözlükbilimsel çalışmaları destekleyen programlar ve sözlükbilimsel veritabanları da dahil olmak üzere çeşitli türlerdeki otomatik sözlükler. Otomatik sözlük, bir kullanıcı veya bilgisayarın kelime işlem programı tarafından bilgisayarda kullanılması amaçlanan özel makine formatındaki bir sözlüktür. Başka bir deyişle, insan son kullanıcıya yönelik otomatik sözlükler ile kelime işlem programlarına yönelik otomatik sözlükler arasında bir ayrım vardır. Son kullanıcıya yönelik otomatik sözlükler, sözlük girişinin arayüzü ve yapısı bakımından makine çeviri sistemleri, otomatik özetleme sistemleri, bilgi erişim sistemleri vb.'de yer alan otomatik sözlüklerden önemli ölçüde farklılık gösterir. Çoğu zaman bunlar, iyi bilinen geleneksel sözlüklerin bilgisayar versiyonlarıdır. Yazılım pazarında, İngilizce açıklayıcı sözlüklerinin bilgisayar analogları vardır (otomatik Webster, Collins tarafından yayınlanan İngilizce dilinin otomatik açıklayıcı sözlüğü, Yu.D. Apresyan tarafından düzenlenen Yeni Büyük İngilizce-Rusça Sözlüğün otomatik versiyonu). ve E.M. Mednikova), Ozhegov'un sözlüğünün bilgisayar versiyonu da var. Kelime işlem programlarına yönelik otomatik sözlükler, tam anlamıyla otomatik sözlükler olarak adlandırılabilir. Genellikle ortalama kullanıcıya yönelik değildirler. Yapılarının özellikleri ve kelime materyalinin kapsamı, onlarla etkileşime giren programlar tarafından belirlenir.

Konu yapısının bilgisayar modellemesi, bilgisayar dilbiliminin gelecek vaat eden bir başka alanıdır. Konu yapısının incelenmesi, yapısal edebiyat eleştirisi (geniş anlamda), göstergebilim ve kültürel çalışmaların sorunlarıyla ilgilidir. Konu modellemeye yönelik mevcut bilgisayar programları, olay örgüsü temsili için üç temel formalizme dayanmaktadır: olay örgüsü temsilinin morfolojik ve sözdizimsel yönleri ve bilişsel yaklaşım. Olay örgüsünün morfolojik yapısına ilişkin fikirler, V.Ya Propp'un ünlü eserlerine kadar uzanır. santimetre.) bir Rus masalı hakkında. Propp, bir masaldaki karakterlerin ve olayların çokluğu nedeniyle, karakterlerin işlevlerinin sayısının sınırlı olduğunu fark etmiş ve bu işlevleri açıklamak için bir aygıt önermiştir. Propp'un fikirleri, bir peri masalı olay örgüsünün oluşumunu simüle eden TALE bilgisayar programının temelini oluşturdu. TALE programının algoritması, masaldaki karakterlerin görev sırasına dayanmaktadır. Aslında Propp'un işlevleri, ampirik materyalin analizine dayalı olarak sıralanan bir dizi tipik durumu tanımlıyordu. Çeşitli durumları nesil kurallarına bağlama olasılıkları, masal metinlerinden belirlenebileceği biçimde, tipik bir işlev dizisi ile belirlendi. Programda tipik fonksiyon dizileri, tipik karakter karşılaşma senaryoları olarak tanımlandı.

Bir metnin olay örgüsüne sözdizimsel yaklaşımın teorik temeli “hikaye gramerleri” veya “hikaye gramerleri” idi. 1970'lerin ortalarında N. Chomsky'nin üretken dilbilgisi fikirlerinin metnin makro yapısının tanımına aktarılması sonucu ortaya çıktılar. Üretken bir dilbilgisindeki sözdizimsel yapının en önemli bileşenleri fiil ve isim cümleleriyse, o zaman çoğu olay örgüsü dilbilgisinde anlatım (ortam), olay ve bölüm temel olanlar olarak seçilmiştir. Olay örgüsü gramerleri teorisinde minimallik koşulları, yani bir dizi olay örgüsünün normal bir olay örgüsü olarak durumunu belirleyen kısıtlamalar geniş çapta tartışılmıştır. Ancak bunun yalnızca dilsel yöntemlerle yapılamayacağı ortaya çıktı. Kısıtlamaların çoğu doğası gereği sosyokültüreldir. Olay örgüsü gramerleri, nesil ağacındaki kategoriler kümesinde önemli ölçüde farklılık gösterse de, anlatı yapısını değiştirmek için çok sınırlı bir kurallar dizisine izin veriyordu.

1980'lerin başında, R. Schenk'in öğrencilerinden biri olan V. Lehnert, bir bilgisayar olay örgüsü oluşturucusu oluşturma çalışmasının bir parçası olarak, güçlü bir araç olduğu ortaya çıkan duygusal olay örgüsü birimlerinin (Duygusal Olay örgüsü Birimleri) orijinal bir formalizmini önerdi. arsa yapısını temsil etme. Başlangıçta bir yapay zeka sistemi için geliştirilmiş olmasına rağmen bu formalizm tamamen teorik çalışmalarda kullanıldı. Lehnert'in yaklaşımının özü olay örgüsünün karakterlerin bilişsel-duygusal durumlarındaki sıralı bir değişiklik olarak tanımlanmasıydı. Bu nedenle, Lehnert'in formalizminin odak noktası olay örgüsünün dış bileşenleri (sergileme, olay, bölüm, ahlak) değil, içerik özellikleridir. Bu bakımdan Lehnert'in formalizmi kısmen Propp'un fikirlerine bir geri dönüş niteliğindedir.

Bilgisayar dilbiliminin yetkinliği, şu anda yeniden doğuş yaşayan makine çevirisini de içermektedir.

Edebiyat:

Popov E.V. Bilgisayarla doğal dilde iletişim. M., 1982
Sadur V.G. Elektronik bilgisayarlarla konuşma iletişimi ve gelişim sorunları. – Kitapta: Konuşma iletişimi: sorunlar ve beklentiler. M., 1983
Baranov A.N. Dilsel anlambilimde yapay zeka kategorileri. Çerçeveler ve komut dosyaları. M., 1987
Kobozeva I.M., Laufer N.I., Saburova I.G. İnsan-makine sistemlerinde iletişimin modellenmesi. – Bilgi sistemlerinin dilsel desteği. M., 1987
Olker H.R. Peri masalları, trajediler ve dünya tarihini sunma yolları. – Kitapta: Sosyal etkileşimin dili ve modellenmesi. M., 1987
Gorodetsky B.Yu. Hesaplamalı dilbilim: dil iletişimini modelleme
McQueen K. Doğal dilde metin sentezi için söylem stratejileri. – Yabancı dilbilimde yeni. Cilt XXIV, Hesaplamalı Dilbilim. M., 1989
Popov E.V., Preobrazhensky A.B. . NL sistemlerinin uygulanmasının özellikleri
Preobrazhensky A.B. Modern NL sistemlerinin gelişim durumu. - Yapay zeka. Kitap 1, İletişim sistemleri ve uzman sistemler. M., 1990
Subbotin M.M. Hipermetin. Yeni bir yazılı iletişim şekli. – VINITI, Ser. Bilgisayar Bilimi, 1994, cilt 18.
Baranov A.N. Uygulamalı Dilbilime Giriş. M., 2000



DERS ÇALIŞMASI

"Bilişim" disiplininde

konuyla ilgili: “Hesaplamalı dilbilim”


GİRİİŞ

2. Hesaplamalı dilbilim için modern arayüzler

ÇÖZÜM

EDEBİYAT


giriiş

Otomatik bilgi teknolojileri modern toplumun yaşamında önemli bir rol oynamaktadır. Zamanla önemleri giderek artıyor. Ancak bilgi teknolojisinin gelişimi çok dengesizdir: Eğer modern bilgisayar teknolojisi ve iletişim seviyesi şaşırtıcıysa, o zaman bilginin anlamsal işlenmesi alanında başarılar çok daha mütevazıdır. Bu başarılar, her şeyden önce, insan düşünme süreçlerinin, insanlar arasındaki sözlü iletişim süreçlerinin ve bu süreçlerin bilgisayarda simüle edilebilmesinin incelenmesindeki başarılara bağlıdır.

Gelecek vaat eden bilgi teknolojileri yaratma söz konusu olduğunda, doğal dillerde sunulan metinsel bilgilerin otomatik olarak işlenmesi sorunları ön plana çıkmaktadır. Bu, bir kişinin düşüncesinin diliyle yakından bağlantılı olmasıyla belirlenir. Üstelik doğal dil, düşünmenin bir aracıdır. Aynı zamanda insanlar arasında evrensel bir iletişim aracıdır; bilginin algılanması, biriktirilmesi, depolanması, işlenmesi ve iletilmesi aracıdır. Bilgisayar dilbilimi bilimi, otomatik bilgi işlem sistemlerinde doğal dilin kullanılmasıyla ilgili sorunlarla ilgilenir. Bu bilim nispeten yakın zamanda ortaya çıktı - geçen yüzyılın ellili ve altmışlı yıllarının başında. Geçtiğimiz yarım yüzyıl boyunca, bilgisayar dilbilimi alanında önemli bilimsel ve pratik sonuçlar elde edilmiştir: metinlerin bir doğal dilden diğerine makine çevirisi için sistemler, metinlerde otomatik bilgi alma sistemleri, sözlü dilin otomatik analizi ve sentezi için sistemler. konuşma ve daha birçokları yaratıldı. Bu çalışma, dilbilimsel araştırma yaparken bilgisayar dilbilimini kullanarak en uygun bilgisayar arayüzünün oluşturulmasına ayrılmıştır.


1. Hesaplamalı dilbilimin dil araştırmalarındaki yeri ve rolü

Modern dünyada, hesaplamalı dilbilim, çeşitli dilbilimsel çalışmaları yürütmek için giderek daha fazla kullanılmaktadır.

Hesaplamalı dilbilim, doğal dilde sunulan bilgilerin otomatik olarak işlenmesiyle ilgili sorunların çözümüyle ilgili bir bilgi alanıdır. Bilgisayar dilbiliminin temel bilimsel sorunları, metinlerin anlamını anlama sürecini modelleme sorunu (metinden anlamının resmileştirilmiş bir temsiline geçiş) ve konuşma sentezi sorunu (anlamın resmileştirilmiş bir temsilinden doğal metinlerdeki metinlere geçiş) dil). Bu problemler, bir dizi uygulamalı problemi çözerken ortaya çıkar ve özellikle metinleri bilgisayara girerken hataların otomatik olarak algılanması ve düzeltilmesi, sözlü konuşmanın otomatik analizi ve sentezi, metinlerin bir dilden diğerine otomatik olarak çevrilmesi, doğal dilde bir bilgisayar, metin belgelerinin otomatik olarak sınıflandırılması ve indekslenmesi, bunların otomatik olarak özetlenmesi, tam metin veritabanlarında belgelerin aranması.

Hesaplamalı dilbilimde oluşturulan ve kullanılan dil araçları iki bölüme ayrılabilir: bildirimsel ve prosedürel. Bildirimsel kısım, dil ve konuşma birimlerinin sözlüklerini, metinleri ve çeşitli dilbilgisi tablolarını içerir; prosedürel kısım, dil ve konuşma birimlerini, metinleri ve dilbilgisi tablolarını değiştirme araçlarını içerir. Bilgisayar arayüzü, hesaplamalı dilbilimin prosedürel kısmını ifade eder.

Bilgisayar dilbiliminin uygulamalı problemlerini çözmedeki başarı, her şeyden önce, bildirim araçlarının bilgisayar belleğindeki temsilinin eksiksizliğine ve doğruluğuna ve prosedür araçlarının kalitesine bağlıdır. Dünyanın tüm gelişmiş ülkelerinde (Rusya, ABD, İngiltere, Fransa, Almanya, Japonya vb.) hesaplamalı dilbilim alanında çalışmalar yapılmasına rağmen bugüne kadar bu sorunların çözümü için gerekli seviyeye henüz ulaşılamamıştır. ).

Bununla birlikte, hesaplamalı dilbilim alanında ciddi bilimsel ve pratik başarılara dikkat çekilebilir. Böylece, bazı ülkelerde (Rusya, ABD, Japonya vb.) metinlerin bir dilden diğerine makine çevirisi için deneysel ve endüstriyel sistemler inşa edilmiş, bilgisayarlarla doğal dilde iletişim kurmak için bir dizi deneysel sistem inşa edilmiştir. , terminolojik veri bankaları, eş anlamlılar sözlüğü, iki dilli ve çok dilli makine sözlükleri (Rusya, ABD, Almanya, Fransa vb.) oluşturma çalışmaları devam ediyor, sözlü konuşmanın otomatik analizi ve sentezi için sistemler oluşturuluyor (Rusya, ABD, Japonya vb.) .), doğal dil modellerinin oluşturulması alanında araştırmalar yürütülmektedir.

Uygulamalı hesaplamalı dilbilimin önemli bir metodolojik sorunu, otomatik metin bilgi işleme sistemlerinin bildirimsel ve prosedürel bileşenleri arasındaki gerekli ilişkinin doğru değerlendirilmesidir. Ne tercih edilmeli: Zengin gramer ve semantik bilgiye sahip nispeten küçük kelime dağarcığı sistemlerine dayanan güçlü hesaplama prosedürleri mi, yoksa nispeten basit bilgisayar arayüzlerine sahip güçlü bir bildirim bileşeni mi? Çoğu bilim adamı ikinci yolun tercih edildiğine inanıyor. Daha az çıkmaz sokak ve aşılması zor engeller olacağından, pratik hedeflere daha hızlı ulaşılmasına yol açacak ve burada araştırma ve geliştirmeyi otomatikleştirmek için bilgisayarları daha büyük ölçekte kullanmak mümkün olacak.

Her şeyden önce, otomatik metin bilgi işleme sistemlerinin bildirimsel bileşeninin geliştirilmesine yönelik çabaları harekete geçirme ihtiyacı, bilgisayar dilbiliminin geliştirilmesindeki yarım asırlık deneyimle doğrulanmaktadır. Sonuçta burada, bu bilimin yadsınamaz başarılarına rağmen algoritmik prosedürlere olan tutku beklenen başarıyı getirmedi. Hatta usul araçlarının yetenekleri konusunda bazı hayal kırıklıkları bile yaşandı.

Yukarıdakilerin ışığında, ana çabaların güçlü dil ve konuşma birimleri sözlükleri oluşturmayı, anlamsal-sözdizimsel yapılarını incelemeyi ve morfolojik için temel prosedürleri oluşturmayı amaçladığı bilgisayar dilbiliminin böyle bir gelişim yolunu geliştirmek umut verici görünüyor. Metinlerin anlamsal-sözdizimsel ve kavramsal analizi ve sentezi. Bu, gelecekte çok çeşitli uygulamalı sorunları çözmemize olanak sağlayacaktır.

Bilgisayar dilbilimi, her şeyden önce, bilgi toplama, biriktirme, işleme ve alma süreçlerine yönelik dilsel destek görevleriyle karşı karşıyadır. Bunlardan en önemlileri şunlardır:

1. Makine sözlüklerinin derlenmesinin ve dilsel işlenmesinin otomasyonu;

2. Bilgisayara metin girerken hataları tespit etme ve düzeltme süreçlerinin otomasyonu;

3. Belgelerin ve bilgi taleplerinin otomatik olarak indekslenmesi;

4. Belgelerin otomatik olarak sınıflandırılması ve özetlenmesi;

5. Tek dilli ve çok dilli veritabanlarında bilgi alma süreçlerine yönelik dil desteği;

6. Metinlerin bir doğal dilden diğerine makine çevirisi;

7. Otomatik akıllı bilgi sistemleri (özellikle uzman sistemler) ile doğal dilde veya doğala yakın bir dilde kullanıcı iletişimini sağlayan dil işlemcilerinin inşası;

8. Gayri resmi metinlerden gerçek bilgileri çıkarmak.

Araştırma konusuyla en alakalı sorunlar üzerinde ayrıntılı olarak duralım.

Bilgi merkezlerinin pratik faaliyetlerinde, metinlerdeki hataların bilgisayara girildiğinde otomatik olarak algılanması ve düzeltilmesi sorununun çözülmesine ihtiyaç vardır. Bu karmaşık görev şartlı olarak üç göreve ayrılabilir - metinlerin ortografik, sözdizimsel ve anlamsal kontrolü görevleri. Bunlardan ilki, oldukça güçlü bir referans makinesi kelime kökleri sözlüğünü kullanan bir morfolojik analiz prosedürü kullanılarak çözülebilir. Yazım denetimi sürecinde metnin sözcükleri morfolojik incelemeye tabi tutulur ve tabanları referans sözlüğünün tabanları ile özdeşleştirilirse doğru kabul edilir; tanımlanmazlarsa, bir mikro bağlam eşliğinde bir kişiye görüntülenmesi için sunulurlar. Bir kişi çarpık kelimeleri tespit edip düzeltir ve ilgili yazılım sistemi bu düzeltmeleri düzeltilmiş metne dönüştürür.

Metinlerdeki hataları tespit etmek için sözdizimsel kontrol görevi, yazım kontrolü görevinden çok daha zordur. Birincisi, yazım denetimi görevini zorunlu bir bileşen olarak içermesi ve ikincisi, resmi olmayan metinlerin sözdizimsel analizi sorununun henüz tam olarak çözülmemiş olmasıdır. Ancak metinlerin kısmi sözdizimsel kontrolü oldukça mümkündür. Burada iki yoldan gidebilirsiniz: ya referans sözdizimsel yapıların oldukça temsili makine sözlüklerini derleyin ve analiz edilen metnin sözdizimsel yapılarını bunlarla karşılaştırın; veya metin öğelerinin dilbilgisel tutarlılığını kontrol etmek için karmaşık bir kurallar sistemi geliştirin. İlk yol bize daha umut verici görünüyor, ancak elbette ikinci yolun öğelerini kullanma olasılığını dışlamıyor. Metinlerin sözdizimsel yapısı, kelimelerin dilbilgisel sınıfları (daha kesin olarak, kelimeler için dilbilgisi bilgisi kümelerinin dizileri şeklinde) açısından tanımlanmalıdır.

Metinlerdeki anlamsal hataları tespit etmek için metinlerin anlamsal kontrolü görevi, bir yapay zeka görevleri sınıfı olarak sınıflandırılmalıdır. Tamamen ancak insan düşünme süreçlerinin modellenmesi temelinde çözülebilir. Bu durumda, güçlü ansiklopedik bilgi tabanları ve bilgi manipülasyonu için yazılım araçları oluşturmak gerekli olacaktır. Bununla birlikte, sınırlı konu alanları ve resmileştirilmiş bilgiler için bu görev tamamen çözülebilir. Metinlerin anlamsal-sözdizimsel kontrolü sorunu olarak ortaya konulmalı ve çözülmelidir.

Belgelerin ve sorguların indekslenmesinin otomatikleştirilmesi sorunu, otomatik metin bilgisi alma sistemleri için gelenekseldir. Başlangıçta indeksleme, tematik içeriklerini yansıtan belgelere ve sorgulara sınıflandırma indeksleri atama süreci olarak anlaşıldı. Daha sonra bu kavram dönüştürüldü ve "indeksleme" terimi, belge ve sorguların açıklamalarının doğal dilden resmi dile, özellikle "arama görselleri" diline çevrilmesi sürecini ifade etmeye başladı. Belgelerin arama görselleri, kural olarak, tematik içeriklerini yansıtan anahtar kelime ve kelime öbekleri listeleri şeklinde ve sorguların arama görselleri - anahtar kelimelerin ve kelime öbeklerinin birbirine bağlandığı mantıksal yapılar biçiminde hazırlanmaya başlandı. mantıksal ve sözdizimsel operatörler tarafından.

Özetler, belgelerin ana içeriğini konsantre bir biçimde yansıttığından, belgeleri (varsa) özetlerinin metinlerine göre otomatik olarak indekslemek uygundur. İndeksleme, eş anlamlılar sözlüğü kontrolü ile veya olmadan gerçekleştirilebilir. İlk durumda, belgenin başlık metninde ve özetinde referans makinesi sözlüğünün anahtar kelimeleri ve cümleleri aranır ve yalnızca sözlükte bulunanlar AML'ye dahil edilir. İkinci durumda, anahtar kelimeler ve ifadeler, herhangi bir referans sözlüğüne ait olup olmadıklarına bakılmaksızın metinden izole edilir ve POD'a dahil edilir. AML'nin makine eş anlamlılar sözlüğündeki terimlerin yanı sıra belge özetinin başlığından ve ilk cümlesinden alınan terimleri de içerdiği üçüncü bir seçenek de uygulandı. Deneyler, belgelerin başlıkları ve özetleri kullanılarak otomatik olarak derlenen POD'ların, manuel olarak derlenen POD'lardan daha fazla arama bütünlüğü sağladığını göstermiştir. Bu, otomatik indeksleme sisteminin, belge içeriğinin çeşitli yönlerini manuel indeksleme sistemine göre daha iyi yansıtmasıyla açıklanmaktadır.

Sorguların otomatik indekslenmesi, belgelerin otomatik indekslenmesiyle yaklaşık olarak aynı sorunları doğurur. Burada ayrıca metinden anahtar kelimeleri ve cümleleri çıkarmanız ve sorgu metninde yer alan kelimeleri normalleştirmeniz gerekir. Anahtar kelimeler ve ifadeler ile bağlamsal operatörler arasındaki mantıksal bağlantılar manuel olarak veya otomatik bir prosedür kullanılarak girilebilir. Bir sorgunun otomatik indekslenmesi sürecinin önemli bir unsuru, onu oluşturan anahtar kelimelerin ve kelime öbeklerinin eşanlamlıları ve alt anlamlılarıyla (bazen orijinal sorgu terimleriyle ilişkili hiperonimler ve diğer terimler de) eklenmesidir. Bu, bir makine eş anlamlılar sözlüğü kullanılarak otomatik veya etkileşimli olarak yapılabilir.

Otomatik indeksleme göreviyle bağlantılı olarak belgesel bilgi aramanın otomatikleştirilmesi sorununu zaten kısmen değerlendirdik. Burada en umut verici olanı, belgeleri tam metinlerini kullanarak aramaktır, çünkü bu amaç için her türlü ikamenin kullanılması (bibliyografik açıklamalar, belgelerin arama görselleri ve özet metinleri), arama sırasında bilgi kaybına yol açar. En büyük kayıplar bibliyografik açıklamalar birincil belgelerin yerine kullanıldığında meydana gelirken, en küçük kayıplar özetler kullanıldığında meydana gelir.

Bilgi erişiminin kalitesinin önemli özellikleri tamlığı ve doğruluğudur. Aramanın tamlığı, dil ve konuşma birimleri (kelimeler ve deyimler) arasındaki paradigmatik bağlantıların maksimum düzeyde dikkate alınmasıyla ve bunların sentagmatik bağlantıları dikkate alınarak doğrulukla sağlanabilir. Aramanın eksiksizliği ve doğruluğunun ters orantılı olduğuna dair bir görüş var: bu özelliklerden birini iyileştirmeye yönelik önlemler diğerinde bozulmaya yol açıyor. Ancak bu yalnızca sabit arama mantığı için geçerlidir. Bu mantık geliştirilirse her iki özellik de aynı anda geliştirilebilir.

Tam metin veritabanlarında bilgi arama sürecinin, kullanıcı ile bilgi erişim sistemi (IRS) arasında mantıksal koşulları karşılayan metin parçalarını (paragraflar) sırayla görüntülediği etkileşimli bir iletişim süreci olarak oluşturulması tavsiye edilir. isteği yerine getirir ve kendisini ilgilendirenleri seçer. Hem belgelerin tam metinleri hem de bunların herhangi bir parçası, nihai arama sonuçları olarak döndürülebilir.

Önceki tartışmalardan da anlaşılacağı üzere otomatik olarak bilgi ararken metinlerde aynı anlamın temsil biçimlerinin çeşitliliği nedeniyle kullanıcı ile bilgi sistemi arasında ortaya çıkan dil engelinin aşılması gerekmektedir. Aramanın çok dilli veritabanlarında yapılması gerekiyorsa bu engel daha da önemli hale gelir. Buradaki soruna radikal bir çözüm, belge metinlerinin bir dilden diğerine makine çevirisi olabilir. Bu, belgeleri bir arama motoruna yüklemeden önce veya bilgi arama sürecinde önceden yapılabilir. İkinci durumda, kullanıcının isteğinin, aramanın yapıldığı belge dizisinin diline çevrilmesi ve arama sonuçlarının da isteğin diline çevrilmesi gerekir. Bu tür arama motorları zaten internette çalışmaktadır. VINITI RAS ayrıca, İngilizce sorguları kullanarak Rusça metinlerdeki bilgileri aramanıza ve arama sonuçlarının yine kullanıcının dilinde olmasına olanak tanıyan bir Kiril Tarayıcı sistemi de oluşturdu.

Bilgisayar dilbiliminin önemli ve umut verici bir görevi, doğal dilde veya doğala yakın bir dilde akıllı otomatik bilgi sistemleri (özellikle uzman sistemler) ile kullanıcı iletişimini sağlayan dil işlemcilerinin inşasıdır. Modern akıllı sistemlerde bilgi resmileştirilmiş bir biçimde depolandığından, bir kişi ile bilgisayar arasında aracı görevi gören dil işlemcileri aşağıdaki ana görevleri çözmelidir: 1) giriş bilgi taleplerinin ve mesajlarının metinlerinden doğal olarak geçiş görevi anlamlarını resmileştirilmiş bir dilde temsil etme dili (bilgisayara bilgi girerken); 2) çıktı mesajlarının anlamının resmileştirilmiş bir temsilinden doğal dilde temsiline geçiş görevi (bir kişiye bilgi verirken). İlk görev, girdi sorgularının ve mesajlarının morfolojik, sözdizimsel ve kavramsal analiziyle, ikincisi ise çıktı mesajlarının kavramsal, sözdizimsel ve morfolojik senteziyle çözülmelidir.

Bilgi isteklerinin ve mesajlarının kavramsal analizi, kavramsal yapılarının (metindeki kavram adlarının sınırları ve kavramlar arasındaki ilişkilerin) belirlenmesi ve bu yapının resmi bir dile çevrilmesinden oluşur. İstek ve mesajların morfolojik ve sözdizimsel analizi sonrasında gerçekleştirilir. Mesajların kavramsal sentezi, yapılarının unsurlarının resmileştirilmiş bir dilde temsilinden sözlü (sözlü) temsile geçişi içerir. Bundan sonra mesajlara gerekli sözdizimsel ve morfolojik format verilir.

Metinlerin bir doğal dilden diğerine makine çevirisi için kavram adları arasındaki çeviri sözlüklerine sahip olmak gerekir. Bu tür çeviri yazışmaları hakkındaki bilgiler birçok kuşak insan tarafından biriktirilmiş ve özel yayınlar (iki dilli veya çok dilli sözlükler) biçiminde derlenmiştir. Biraz yabancı dil bilgisi olan uzmanlar için bu sözlükler metinlerin çevrilmesinde değerli yardımcılar olarak hizmet etti.

Geleneksel iki dilli ve çok dilli genel amaçlı sözlüklerde, çeviri eşdeğerleri öncelikle tek tek kelimeler ve ifadeler için - çok daha az sıklıkla - belirtildi. Cümlelerin çeviri eşdeğerlerinin belirtilmesi, özel terminolojik sözlükler için daha tipiktir. Bu nedenle öğrenciler çok anlamlı kelimeler içeren metinlerin bölümlerini çevirirken sıklıkla zorluklarla karşılaştılar.

Aşağıda “okul” konularında birkaç İngilizce ve Rusça kelime öbeği çifti arasındaki çeviri yazışmaları bulunmaktadır.

1) Yarasa kanatlı bir fareye benziyor – Yarasa kanatlı bir fareye benziyor.

2) Çocuklar sahilde kumda oynamayı severler - Çocuklar deniz kıyısındaki kumda oynamayı severler.

3) Elime bir damla yağmur düştü - Elime bir yağmur damlası düştü.

4) Kuru odun kolayca yanar; kuru odun iyi yanar.

5) Beni duymuyormuş gibi yaptı - Beni duymuyormuş gibi yaptı.

Burada İngilizce ifadeler deyimsel ifadeler değildir. Bununla birlikte, Rusçaya çevirileri, yalnızca bir miktar esnemeyle, basit bir kelime kelime çeviri olarak kabul edilebilir, çünkü bunların içerdiği kelimelerin neredeyse tamamı belirsizdir. Bu nedenle burada öğrencilere yalnızca bilgisayar dilbiliminin kazanımları yardımcı olabilir.



Makaleyi beğendin mi? Arkadaşlarınla ​​paylaş!