Linguistik komputasi. Leksikografi teoritis dan komputer

Linguistik komputasional: metode, sumber daya, aplikasi

Perkenalan

Ketentuan linguistik komputasi(CL) menjadi semakin umum dalam beberapa tahun terakhir sehubungan dengan pengembangan berbagai sistem perangkat lunak aplikasi, termasuk produk perangkat lunak komersial. Hal ini disebabkan oleh pesatnya pertumbuhan informasi tekstual di masyarakat, termasuk di Internet, dan kebutuhan akan pemrosesan teks secara otomatis dalam bahasa alami (NL). Keadaan ini mendorong berkembangnya linguistik komputer sebagai bidang ilmu pengetahuan dan berkembangnya teknologi informasi dan linguistik baru.

Dalam kerangka linguistik komputasi, yang telah ada selama lebih dari 50 tahun (dan juga dikenal sebagai linguistik mesin, pemrosesan teks otomatis di NL) banyak metode dan ide yang menjanjikan telah diusulkan, tetapi belum semuanya terungkap dalam produk perangkat lunak yang digunakan dalam praktik. Tujuan kami adalah untuk mengkarakterisasi kekhususan bidang penelitian ini, merumuskan tugas utamanya, menunjukkan hubungannya dengan ilmu-ilmu lain, memberikan gambaran singkat tentang pendekatan utama dan sumber daya yang digunakan, dan juga menjelaskan secara singkat penerapan CL yang ada. Untuk pengenalan lebih rinci mengenai masalah ini, kami dapat merekomendasikan buku.

1. Masalah linguistik komputasi

Linguistik komputasional muncul di persimpangan ilmu-ilmu seperti linguistik, matematika, ilmu komputer (Ilmu Komputer) dan kecerdasan buatan. Asal usul CL berawal dari penelitian ilmuwan terkenal Amerika N. Chomsky di bidang formalisasi struktur bahasa alami; perkembangannya didasarkan pada hasil-hasil di bidang linguistik umum (linguistik). Linguistik mempelajari hukum umum bahasa alami - struktur dan fungsinya, dan mencakup bidang-bidang berikut:

Ø Fonologi– mempelajari bunyi ujaran dan aturan hubungannya selama pembentukan ujaran;

Ø Morfologi– berkaitan dengan struktur internal dan bentuk eksternal kata-kata, termasuk jenis-jenis kata dan kategorinya;

Ø Sintaksis– mempelajari struktur kalimat, kaidah kesesuaian dan susunan kata dalam suatu kalimat, serta sifat-sifat umum sebagai satuan bahasa.

Ø Semantikdan pragmatik– bidang yang berkaitan erat: semantik berkaitan dengan makna kata, kalimat, dan unit ucapan lainnya, dan pragmatik berkaitan dengan kekhasan mengungkapkan makna ini sehubungan dengan tujuan komunikasi tertentu;

Ø Leksikografi menggambarkan leksikon NL tertentu - kata-kata individualnya dan sifat tata bahasanya, serta metode pembuatan kamus.

Hasil N. Chomsky, yang diperoleh di persimpangan linguistik dan matematika, meletakkan dasar bagi teori bahasa dan tata bahasa formal (sering disebut generatif, atau menghasilkan ahli tata bahasa). Teori ini sekarang berlaku untuk linguistik matematika dan digunakan untuk memproses tidak banyak NL, tetapi bahasa buatan, terutama bahasa pemrograman. Berdasarkan sifatnya, ini adalah disiplin matematika sepenuhnya.

Linguistik matematika juga mencakup linguistik kuantitatif, yang mempelajari ciri-ciri frekuensi bahasa - kata, kombinasinya, struktur sintaksis, dll, dan menggunakan metode statistik matematika, sehingga cabang ilmu ini dapat disebut linguistik statistik.

CL juga terkait erat dengan bidang ilmiah interdisipliner seperti kecerdasan buatan (AI), di mana model komputer dari fungsi intelektual individu dikembangkan. Salah satu program kerja pertama di bidang AI dan CL adalah program terkenal T. Winograd, yang memahami perintah manusia paling sederhana untuk mengubah dunia kubus, yang dirumuskan pada subset terbatas NL. Perhatikan bahwa meskipun penelitian di bidang CL dan AI jelas bersinggungan (karena kemahiran bahasa berkaitan dengan fungsi intelektual), AI tidak menyerap semua CL, karena memiliki landasan teori dan metodologinya sendiri. Kesamaan dari ilmu-ilmu ini adalah pemodelan komputer sebagai metode utama dan tujuan akhir penelitian.

Dengan demikian, tugas CL dapat dirumuskan sebagai pengembangan program komputer untuk pemrosesan teks otomatis di NL. Dan meskipun pemrosesan dipahami secara luas, tidak semua jenis pemrosesan dapat disebut linguistik, dan prosesor terkait disebut linguistik. Prosesor linguistik harus menggunakan satu atau beberapa model bahasa formal (bahkan yang sangat sederhana), yang berarti model tersebut harus bergantung pada bahasa dalam satu atau lain cara (yaitu, bergantung pada NL tertentu). Jadi, misalnya, editor teks Mycrosoft Word bisa disebut linguistik (jika hanya karena menggunakan kamus), tetapi editor NotePad tidak bisa.

Kompleksitas tugas CL disebabkan oleh fakta bahwa NL adalah sistem tanda multi-level kompleks yang muncul untuk pertukaran informasi antar manusia, berkembang dalam proses aktivitas praktis manusia, dan terus berubah sehubungan dengan aktivitas tersebut. Kesulitan lain dalam mengembangkan metode CL (dan kesulitan mempelajari NL dalam kerangka linguistik) dikaitkan dengan keragaman bahasa alami, perbedaan signifikan dalam kosa kata, morfologi, sintaksis bahasa yang berbeda memberikan cara yang berbeda untuk mengungkapkan hal yang sama .

2. Fitur sistem NL: level dan koneksi

Objek pengolah linguistik adalah teks NL. Teks dipahami sebagai contoh ucapan apa pun - lisan dan tulisan, dari genre apa pun, tetapi CL terutama mempertimbangkan teks tertulis. Teks mempunyai struktur satu dimensi, linier, dan juga membawa makna tertentu, sedangkan bahasa berperan sebagai sarana untuk mengubah makna yang disampaikan ke dalam teks (sintesis tuturan) dan sebaliknya (analisis tuturan). Teks tersusun atas satuan-satuan yang lebih kecil, dan terdapat beberapa kemungkinan cara untuk membagi (membagi) teks menjadi satuan-satuan yang mempunyai tingkatan yang berbeda-beda.

Keberadaan tingkatan berikut ini diterima secara umum:

· tingkat proposal (pernyataan) – tingkat sintaksis;

· Leksiko-morfologis homonimi (jenis yang paling umum) terjadi ketika bentuk kata dari dua leksem berbeda bertepatan, misalnya, puisi– kata kerja dalam bentuk tunggal, maskulin, dan kata benda dalam bentuk tunggal, kasus nominatif),

· Homonimi sintaksis berarti ambiguitas struktur sintaksis, yang menimbulkan beberapa penafsiran: Siswa dari Lvov pergi ke Kyiv,Penerbangan pesawat terbang Bisa menjadi berbahaya(contoh terkenal dari Chomsky), dll.

3. Pemodelan dalam linguistik komputasi

Pengembangan pengolah linguistik (LP) melibatkan deskripsi sifat linguistik teks NL yang diproses, dan deskripsi ini disusun sebagai model bahasa. Seperti halnya pemodelan dalam matematika dan pemrograman, model dipahami sebagai sistem tertentu yang menampilkan sejumlah sifat penting dari fenomena yang dimodelkan (yaitu SE) dan oleh karena itu memiliki kesamaan struktural atau fungsional.

Model bahasa yang digunakan dalam PA biasanya dibangun atas dasar teori-teori yang dibuat oleh para ahli bahasa dengan mempelajari berbagai teks dan atas dasar intuisi linguistiknya (introspeksi). Apa kekhususan model CL? Ciri-ciri berikut dapat dibedakan:

· Formalitas dan, pada akhirnya, kemampuan algoritma;

· Fungsionalitas (tujuan pemodelan adalah untuk mereproduksi fungsi suatu bahasa sebagai “kotak hitam”, tanpa membangun model sintesis dan analisis ucapan manusia yang akurat);

· Sifat umum dari model, yaitu memperhitungkan kumpulan teks yang cukup besar;

· Validitas eksperimental, yang melibatkan pengujian model pada teks yang berbeda;

· Ketergantungan pada kamus sebagai komponen wajib model.

Kompleksitas NL, deskripsi dan pemrosesannya mengarah pada pembagian proses ini menjadi tahapan-tahapan terpisah sesuai dengan tingkatan bahasa. Kebanyakan piringan hitam modern bertipe modular, di mana setiap tingkat analisis atau sintesis linguistik berhubungan secara terpisah modul prosesor. Khususnya, dalam hal analisis teks, masing-masing modul LP melakukan:

Ø Analisis grafematis, yaitu penyorotan bentuk kata dalam teks (peralihan dari simbol ke kata);

Ø Analisis morfologi – peralihan dari bentuk kata ke bentuk kata lemma(bentuk kamus leksem) atau dasar-dasar(bagian inti kata, dikurangi morfem infleksional);

Ø Analisis sintaksis, yaitu mengidentifikasi struktur gramatikal kalimat teks;

Ø Analisis semantik dan pragmatis, yang menentukan makna frasa dan reaksi yang sesuai dari sistem di mana LP beroperasi.

Skema interaksi modul-modul ini yang berbeda dimungkinkan (operasi berurutan atau analisis intermiten paralel), namun, tingkat individu - morfologi, sintaksis, dan semantik masih diproses oleh mekanisme yang berbeda.

Dengan demikian, LP dapat dianggap sebagai konverter multi-tahap, yang, dalam kasus analisis teks, menerjemahkan setiap kalimatnya menjadi representasi internal maknanya dan sebaliknya dalam kasus sintesis. Model bahasa yang sesuai dapat dipanggil struktural.

Meskipun model CL yang lengkap memerlukan pertimbangan semua level utama bahasa dan keberadaan modul yang sesuai, ketika memecahkan beberapa masalah terapan, dimungkinkan untuk melakukannya tanpa mewakili level individu dalam LP. Misalnya, dalam program CL eksperimental awal, teks yang diproses termasuk dalam area masalah yang sangat sempit (dengan kumpulan kata yang terbatas dan urutannya yang ketat), sehingga huruf awalnya dapat digunakan untuk mengenali kata, menghilangkan tahapan morfologi dan sintaksis. analisa.

Contoh lain model tereduksi yang kini cukup sering digunakan adalah model bahasa frekuensi simbol dan kombinasinya (bigram, trigram, dll) dalam teks NL tertentu. Seperti model statistik menampilkan informasi kebahasaan pada tingkat karakter (huruf) teks, dan cukup, misalnya, untuk mengidentifikasi kesalahan ketik dalam teks atau untuk mengenali identitas kebahasaannya. Model serupa yang didasarkan pada statistik kata-kata individual dan kemunculannya dalam teks (bigram, trigram kata) digunakan, misalnya, untuk mengatasi ambiguitas leksikal atau menentukan bagian ucapan suatu kata (dalam bahasa seperti bahasa Inggris ).

Perhatikan bahwa itu mungkin model struktural-statistik, di mana, ketika mewakili tingkat NL individu, satu atau beberapa statistik diperhitungkan - kata-kata, struktur sintaksis, dll.

Dalam LP tipe modular, pada setiap tahap analisis atau sintesis teks, model yang sesuai (morfologi, sintaksis, dll.) digunakan.

Model morfologi analisis bentuk kata yang ada di CL berbeda terutama dalam parameter berikut:

· hasil karya - lemma atau batang dengan seperangkat ciri morfologi (jenis kelamin, jumlah, kasus, aspek, orang, dll.) dari bentuk kata tertentu;

· metode analisis - berdasarkan kamus bentuk kata suatu bahasa atau kamus dasar, atau metode bebas kamus;

· kemampuan mengolah bentuk kata suatu leksem yang tidak terdapat dalam kamus.

Dalam sintesis morfologi, data awal adalah leksem dan ciri-ciri morfologi spesifik dari bentuk kata yang diminta dari leksem tersebut; juga dimungkinkan adanya permintaan sintesis semua bentuk leksem tertentu. Hasil analisis morfologi dan sintesis umumnya ambigu.

Untuk memodelkan sintaksis dalam kerangka CL, sejumlah besar ide dan metode berbeda telah diusulkan, berbeda dalam cara menggambarkan sintaksis bahasa, cara menggunakan informasi ini dalam analisis atau sintesis kalimat NL, seperti serta cara merepresentasikan struktur sintaksis kalimat. Secara konvensional, kita dapat membedakan tiga pendekatan utama dalam menciptakan model: pendekatan generatif, kembali ke gagasan Chomsky, pendekatan yang kembali ke gagasan I. Melchuk dan diwakili oleh model “Teks Makna”, serta sebuah pendekatan di mana upaya-upaya tertentu dilakukan untuk mengatasi keterbatasan dua pendekatan pertama, khususnya teori kelompok sintaksis.

Dalam pendekatan generatif, analisis sintaksis biasanya dilakukan berdasarkan tata bahasa formal bebas konteks yang mendeskripsikan struktur frasa suatu kalimat, atau berdasarkan perluasan tata bahasa bebas konteks. Tata bahasa ini didasarkan pada pembagian linier yang konsisten dari sebuah kalimat menjadi frasa (konstruksi sintaksis, misalnya, frasa kata benda) dan oleh karena itu secara bersamaan mencerminkan struktur sintaksis dan liniernya. Struktur sintaksis hierarki kalimat NL yang diperoleh dari hasil analisis dijelaskan pohon komponen, daunnya berisi kata-kata dalam kalimat, subpohon sesuai dengan konstruksi sintaksis (frasa) yang termasuk dalam kalimat, dan busur mengungkapkan hubungan bersarang dari konstruksi tersebut.

Pendekatan yang dipertimbangkan dapat mencakup tata bahasa jaringan, yang merupakan alat untuk mendeskripsikan sistem bahasa dan untuk menentukan prosedur analisis kalimat berdasarkan konsep mesin keadaan terbatas, misalnya, jaringan transisi yang diperluas ATN.

Dalam pendekatan kedua, metode yang lebih visual dan umum digunakan untuk mewakili struktur sintaksis sebuah kalimat - pohon ketergantungan. Simpul-simpul pohon berisi kata-kata dalam sebuah kalimat (akar biasanya merupakan predikat kata kerja), dan setiap busur pohon yang menghubungkan sepasang simpul ditafsirkan sebagai sintaksis. berpangkat lebih rendah koneksi di antara mereka, dan arah sambungan sesuai dengan arah busur yang diberikan. Karena dalam hal ini hubungan sintaksis kata dan urutan kata dalam suatu kalimat dipisahkan, maka berdasarkan pohon subordinasi, dipecah dan non-proyektif konstruksi yang cukup sering muncul dalam bahasa dengan urutan kata bebas.

Pohon komponen lebih cocok untuk mendeskripsikan bahasa dalam urutan kata yang kaku; merepresentasikan konstruksi yang rusak dan non-proyektif, dengan bantuannya memerlukan perluasan formalisme tata bahasa yang digunakan. Namun dalam kerangka pendekatan ini, konstruksi dengan hubungan non-subordinasi lebih alami dijelaskan. Pada saat yang sama, kesulitan umum untuk kedua pendekatan ini adalah representasi anggota kalimat yang homogen.

Model sintaksis dalam semua pendekatan mencoba memperhitungkan batasan yang dikenakan pada hubungan unit linguistik dalam ucapan, sementara konsep valensi digunakan dalam satu atau lain cara. Valensi- ini adalah kemampuan suatu kata atau satuan bahasa lain untuk menghubungkan satuan lain dengan cara sintaksis tertentu; aktan adalah kata atau konstruksi sintaksis yang mengisi valensi ini. Misalnya, kata kerja bahasa Rusia menyerahkan memiliki tiga valensi utama, yang dapat diungkapkan dengan kata tanya berikut: Siapa? kepada siapa? Apa? Dalam kerangka pendekatan generatif, valensi kata (terutama kata kerja) digambarkan terutama dalam bentuk bingkai khusus ( subkategorisasi bingkai) , dan dalam kerangka pendekatan berdasarkan pohon ketergantungan - caranya model manajemen.

Model semantik bahasa adalah yang paling sedikit dikembangkan dalam kerangka CL. Untuk analisis semantik kalimat, yang disebut tata bahasa kasus dan kasus semantik(valensi), atas dasar itu semantik suatu kalimat digambarkan baik melalui hubungan kata utama (kata kerja) dengan aktan semantiknya, yaitu melalui kasus semantik. Misalnya kata kerja menyerahkan dijelaskan oleh kasus semantik memberi(agen), penerima Dan memindahkan objek.

Untuk merepresentasikan semantik keseluruhan teks, dua formalisme yang setara secara logis biasanya digunakan (keduanya dijelaskan secara rinci dalam kerangka AI):

· Rumus kalkulus predikat yang menyatakan sifat, keadaan, proses, tindakan dan hubungan;

· Jaringan semantik diberi label graf yang simpulnya berhubungan dengan konsep, dan simpul berhubungan dengan hubungan di antara konsep tersebut.

Adapun model pragmatik dan wacana, yang memungkinkan pemrosesan tidak hanya kalimat individual, tetapi juga teks secara keseluruhan, gagasan Van Dyck terutama digunakan untuk membangunnya. Salah satu model yang langka dan berhasil adalah model sintesis diskursif teks koheren. Model seperti itu harus memperhitungkan referensi anaforis dan fenomena tingkat wacana lainnya.

Menyimpulkan karakterisasi model bahasa dalam kerangka CL, mari kita membahas lebih detail tentang teori model linguistik “Teks-Makna”, dan di dalam kerangka tersebut banyak muncul ide-ide bermanfaat yang mendahului zamannya dan sedang berkembang. masih relevan saat ini.

Sesuai dengan teori ini, NL dianggap sebagai jenis transformator khusus yang memproses makna tertentu menjadi teks yang bersesuaian dan teks tertentu menjadi makna yang sesuai. Maknanya dipahami sebagai invarian dari semua transformasi teks yang sinonim. Isi suatu penggalan tuturan yang runtut tanpa pembagian menjadi frasa dan bentuk kata ditampilkan dalam bentuk representasi semantik khusus, yang terdiri dari dua komponen: grafik semantik dan informasi tentang organisasi makna yang komunikatif.

Ciri-ciri khas teori ini harus ditunjukkan:

o orientasi terhadap sintesis teks (kemampuan menghasilkan teks yang benar dianggap sebagai kriteria utama kompetensi linguistik);

o sifat model yang multi-level dan modular, dengan level bahasa utama dibagi menjadi level dangkal dan dalam: keduanya berbeda, misalnya, dalam(semantisasi) dan permukaan sintaksis (“murni”), serta tingkat morfologi permukaan dan morfologi dalam;

o sifat integral dari model bahasa; penyimpanan informasi yang disajikan di setiap level oleh modul yang sesuai, melakukan transisi dari level ini ke level berikutnya;

o sarana khusus untuk menggambarkan sintaksis (aturan untuk menghubungkan unit) di setiap tingkat; satu set diusulkan untuk menggambarkan kompatibilitas leksikal fungsi leksikal, yang dengannya aturan parafrase sintaksis dirumuskan;

o penekanan pada kosakata daripada tata bahasa; kamus menyimpan informasi yang berkaitan dengan berbagai tingkat bahasa; khususnya, model kontrol kata yang menggambarkan valensi sintaksis dan semantiknya digunakan untuk analisis sintaksis.

Teori dan model bahasa ini diwujudkan dalam sistem terjemahan mesin ETAP.

4. Sumber linguistik

Perkembangan pengolah linguistik memerlukan representasi informasi linguistik yang tepat tentang bahasa yang diproses. Informasi ini ditampilkan dalam berbagai kamus komputer dan tata bahasa.

Kamus adalah bentuk paling tradisional dalam merepresentasikan informasi leksikal; mereka berbeda dalam unitnya (biasanya kata atau frasa), struktur, dan cakupan kosakata (kamus istilah dalam bidang masalah tertentu, kamus kosakata umum, dll.). Satuan kosakata disebut entri kamus, ini memberikan informasi tentang token. Homonim leksikal biasanya disajikan dalam entri kamus yang berbeda.

Yang paling umum di CL adalah kamus morfologi yang digunakan untuk analisis morfologi; entri kamusnya menyajikan informasi morfologis tentang kata yang bersangkutan - bagian dari ucapan, kelas infleksional (untuk bahasa infleksional), daftar makna kata, dll. pengolah linguistik dalam kamus informasi tata bahasa juga dapat ditambahkan, misalnya model kontrol kata.

Ada kamus yang memberikan informasi lebih luas tentang kata-kata. Misalnya, model linguistik “Makna-Teks” sangat bergantung pada kamus kombinatorial penjelasan, dalam entri kamus yang, selain informasi morfologis, sintaksis, dan semantik (valensi sintaksis dan semantik), disajikan informasi tentang kompatibilitas leksikal kata ini.

Sejumlah prosesor linguistik digunakan kamus sinonim. Jenis kamus yang relatif baru - kamus paronim, yaitu kata-kata yang tampak serupa tetapi berbeda maknanya, misalnya, lebih aneh Dan asing, pengeditan Dan referensi .

Jenis sumber daya leksikal lainnya adalah database frase, di mana frasa paling umum dari bahasa tertentu dipilih. Basis data frasa bahasa Rusia ini (sekitar satu juta unit) merupakan inti dari sistem CrossLexica.

Jenis sumber daya leksikal yang lebih kompleks adalah tesauri dan ontologi. Tesaurus adalah kamus semantik, yaitu kamus yang menyajikan hubungan semantik kata-kata - sinonim, hubungan tipe genus (kadang-kadang disebut hubungan atas-bawah), sebagian-keseluruhan, asosiasi. Penyebaran tesaurus dikaitkan dengan pemecahan masalah pencarian informasi.

Terkait erat dengan konsep tesaurus adalah konsep ontologi. Ontologi adalah seperangkat konsep dan entitas dari bidang pengetahuan tertentu, yang berorientasi pada penggunaan kembali untuk berbagai tugas. Ontologi dapat dibuat berdasarkan kosakata yang ada dalam suatu bahasa - dalam hal ini disebut linguistik Dan.

Ontologi linguistik serupa dianggap sebagai sistem WordNet - sumber leksikal besar yang berisi kata-kata bahasa Inggris: kata benda, kata sifat, kata kerja dan kata keterangan, dan menyajikan beberapa jenis hubungan semantiknya. Untuk setiap bagian pidato tertentu, kata-kata tersebut dikelompokkan ke dalam kelompok sinonim ( synset), di antaranya terjalin hubungan antonim, hiponimi (hubungan genus-spesies), meronimi (hubungan sebagian-keseluruhan). Sumber daya berisi sekitar 25 ribu kata, jumlah tingkat hierarki untuk hubungan genus-spesies rata-rata 6-7, terkadang mencapai 15. Tingkat teratas hierarki membentuk ontologi umum - sistem konsep dasar tentang dunia.

Berdasarkan skema WordNet bahasa Inggris, sumber daya leksikal serupa untuk bahasa Eropa lainnya dibangun, disatukan dengan nama umum EuroWordNet.

Jenis sumber daya linguistik yang sama sekali berbeda adalah tata bahasa NL, jenisnya bergantung pada model sintaksis yang digunakan dalam prosesor. Sebagai perkiraan pertama, tata bahasa adalah seperangkat aturan yang mengungkapkan sifat sintaksis umum kata dan kelompok kata. Jumlah total aturan tata bahasa juga bergantung pada model sintaksis, bervariasi dari beberapa puluh hingga beberapa ratus. Pada dasarnya, masalah yang muncul di sini adalah hubungan antara tata bahasa dan kosa kata dalam suatu model bahasa: semakin banyak informasi yang disajikan dalam kamus, semakin pendek tata bahasanya dan sebaliknya.

Perhatikan bahwa pembuatan kamus komputer, tesaurus, dan tata bahasa adalah pekerjaan yang banyak dan memakan waktu, terkadang bahkan lebih memakan waktu daripada pengembangan model linguistik dan prosesor yang sesuai. Oleh karena itu, salah satu tugas bawahan CL adalah otomatisasi pembangunan sumber daya linguistik.

Kamus komputer sering kali dibentuk dengan mengonversi kamus teks biasa, tetapi konstruksinya seringkali memerlukan pekerjaan yang jauh lebih rumit dan melelahkan. Hal ini biasanya terjadi ketika membuat kamus dan tesauri untuk bidang ilmu yang berkembang pesat - biologi molekuler, ilmu komputer, dll. Bahan sumber untuk mengekstraksi informasi linguistik yang diperlukan dapat berupa koleksi dan korpora teks.

Korpus teks adalah kumpulan teks yang dikumpulkan menurut prinsip keterwakilan tertentu (menurut genre, kepengarangan, dll.), di mana semua teks ditandai, yaitu dilengkapi dengan beberapa tanda linguistik (anotasi) - morfologis, aksentual, sintaksis, dll. n. Saat ini, setidaknya ada seratus korpora yang berbeda - untuk bahasa yang berbeda dan dengan tanda yang berbeda di Rusia, yang paling terkenal adalah Korpus Nasional Bahasa Rusia.

Korpora berlabel dibuat oleh ahli bahasa dan digunakan baik untuk penelitian linguistik maupun untuk penyetelan (pelatihan) model dan prosesor yang digunakan dalam CL menggunakan metode pembelajaran mesin matematika yang terkenal. Oleh karena itu, pembelajaran mesin digunakan untuk mengonfigurasi metode untuk menyelesaikan ambiguitas leksikal, mengenali jenis kata, dan menyelesaikan referensi anaforis.

Karena corpora dan kumpulan teks selalu terbatas dalam hal fenomena linguistik yang direpresentasikan di dalamnya (dan corpora juga membutuhkan waktu yang cukup lama untuk dibuat), akhir-akhir ini teks Internet semakin dianggap sebagai sumber linguistik yang lebih lengkap. Tentu saja, Internet adalah sumber sampel ucapan modern yang paling representatif, tetapi penggunaannya sebagai korpus memerlukan pengembangan teknologi khusus.

5. Penerapan linguistik komputasi

Bidang penerapan linguistik komputasional terus berkembang, jadi di sini kami akan menjelaskan masalah terapan paling terkenal yang diselesaikan dengan alatnya.

Terjemahan mesin– penerapan CL paling awal, yang dengannya bidang ini muncul dan berkembang. Program penerjemahan pertama dibuat lebih dari 50 tahun yang lalu dan didasarkan pada strategi penerjemahan kata demi kata yang sederhana. Namun, segera disadari bahwa terjemahan mesin memerlukan model linguistik lengkap yang mempertimbangkan semua tingkatan bahasa, hingga semantik dan pragmatik, yang berulang kali menghambat perkembangan bidang ini. Model yang cukup lengkap digunakan dalam sistem ETAP dalam negeri, yang menerjemahkan teks ilmiah dari bahasa Prancis ke bahasa Rusia.

Namun perlu diperhatikan bahwa dalam hal penerjemahan ke bahasa terkait, misalnya, ketika menerjemahkan dari Spanyol ke Portugis atau dari Rusia ke Ukraina (yang memiliki banyak kesamaan dalam sintaksis dan morfologi), prosesor dapat diimplementasikan berdasarkan bahasa yang disederhanakan. model, misalnya, berdasarkan penggunaan strategi penerjemahan kata demi kata yang sama.

Saat ini, terdapat berbagai macam sistem penerjemahan komputer (dengan kualitas yang berbeda-beda), mulai dari proyek penelitian internasional besar hingga penerjemah otomatis komersial. Yang menarik adalah proyek penerjemahan multibahasa menggunakan bahasa perantara yang makna frasa terjemahannya dikodekan. Arah modern lainnya adalah terjemahan statistik, berdasarkan statistik terjemahan kata dan frasa (ide-ide ini, misalnya, diterapkan di penerjemah mesin pencari Google).

Namun terlepas dari perkembangan selama beberapa dekade di seluruh bidang ini, secara umum masalah penerjemahan mesin masih jauh dari penyelesaian sepenuhnya.

Penerapan linguistik komputasional lainnya yang cukup lama adalah pencarian informasi dan tugas terkait pengindeksan, abstraksi, klasifikasi dan rubrikasi dokumen.

Pencarian dokumen teks lengkap dalam database dokumen yang besar (terutama ilmiah, teknis, bisnis) biasanya dilakukan berdasarkan mencari gambar, yang kami maksud adalah himpunan kata kunci– kata-kata yang mencerminkan topik utama dokumen. Pada awalnya, hanya kata-kata NL individual yang dianggap sebagai kata kunci, dan pencarian dilakukan tanpa memperhitungkan infleksinya, yang tidak penting untuk bahasa dengan infleksi lemah seperti bahasa Inggris. Untuk bahasa infleksi, misalnya bahasa Rusia, perlu menggunakan model morfologi yang memperhitungkan infleksi.

Kueri penelusuran juga disajikan sebagai kumpulan kata; dokumen yang sesuai (relevan) ditentukan berdasarkan kesamaan kueri dan gambar penelusuran dokumen tersebut. Membuat gambar pencarian suatu dokumen melibatkan pengindeksan teksnya, yaitu menyorot kata-kata kunci di dalamnya. Karena sering kali topik dan isi dokumen tercermin jauh lebih akurat bukan dengan kata-kata individual, tetapi dengan frasa, frasa mulai dianggap sebagai kata kunci. Hal ini secara signifikan memperumit prosedur pengindeksan dokumen, karena berbagai kombinasi kriteria statistik dan linguistik perlu digunakan untuk memilih frasa penting dalam teks.

Faktanya, pencarian informasi terutama menggunakan model teks vektor(kadang-kadang dipanggil tas dari kata-kata– sekumpulan kata), di mana dokumen direpresentasikan sebagai vektor (kumpulan) kata kuncinya. Mesin pencari Internet modern juga menggunakan model ini, mengindeks teks berdasarkan kata-kata yang digunakan di dalamnya (pada saat yang sama, mereka menggunakan prosedur pemeringkatan yang sangat canggih untuk menghasilkan dokumen yang relevan).

Model teks tertentu (dengan beberapa komplikasi) juga digunakan dalam masalah pengambilan informasi terkait yang dibahas di bawah.

Meringkas teks– memperkecil volumenya dan memperoleh ringkasannya – abstrak (konten yang diringkas), sehingga pencarian koleksi dokumen menjadi lebih cepat. Abstrak umum juga dapat disusun untuk beberapa dokumen yang berkaitan dengan topik tersebut.

Metode utama pengabstraksian otomatis masih berupa pemilihan kalimat paling signifikan dari teks yang diabstraksi, yang biasanya kata kunci teks tersebut dihitung terlebih dahulu dan koefisien signifikansi kalimat teks tersebut dihitung. Pemilihan kalimat penting diperumit oleh hubungan anaforis kalimat, yang pemecahannya tidak diinginkan - untuk mengatasi masalah ini, strategi tertentu untuk memilih kalimat sedang dikembangkan.

Tugas yang dekat dengan abstrak adalah anotasi teks dokumen, yaitu menyusun anotasinya. Dalam bentuknya yang paling sederhana, abstrak adalah daftar topik utama teks yang dapat digunakan untuk mengidentifikasi prosedur pengindeksan.

Saat membuat koleksi dokumen dalam jumlah besar, tugas-tugas berikut ini relevan: klasifikasi Dan kekelompokan teks untuk membuat kelas dokumen yang terkait dengan topik. Klasifikasi berarti menugaskan setiap dokumen ke kelas tertentu dengan parameter yang diketahui sebelumnya, dan pengelompokan berarti membagi sekumpulan dokumen ke dalam kelompok, yaitu subkumpulan dokumen yang tematisnya serupa. Untuk mengatasi masalah tersebut digunakan metode pembelajaran mesin, oleh karena itu masalah terapan ini disebut Text Mining dan termasuk dalam arahan ilmiah yang dikenal sebagai Data Mining, atau data mining.

Masalahnya sangat dekat dengan klasifikasi rubrikasi teks - penugasannya ke salah satu judul tematik yang diketahui sebelumnya (biasanya judul membentuk pohon hierarki topik).

Masalah klasifikasi menjadi semakin luas; hal ini terpecahkan, misalnya dalam pengenalan spam, dan aplikasi yang relatif baru adalah klasifikasi pesan SMS di perangkat seluler. Arah penelitian baru dan relevan untuk masalah umum pencarian informasi adalah pencarian dokumen multibahasa.

Tugas lain yang relatif baru terkait dengan pencarian informasi adalah menghasilkan jawaban atas pertanyaan(Menjawab Pertanyaan) . Masalah ini diselesaikan dengan menentukan jenis pertanyaan, mencari teks yang berpotensi memuat jawaban atas pertanyaan tersebut, dan mengekstraksi jawaban dari teks tersebut.

Arah penerapan yang sama sekali berbeda, yang berkembang, meskipun perlahan tapi pasti, adalah otomatisasi persiapan dan pengeditan teks di EA. Salah satu aplikasi pertama dalam arah ini adalah program untuk secara otomatis menentukan tanda hubung kata dan program ejaan teks (ejaan, atau korektor otomatis). Terlepas dari kesederhanaan masalah transfer, solusi yang tepat untuk banyak bahasa (misalnya, bahasa Inggris) memerlukan pengetahuan tentang struktur morfemik kata-kata dalam bahasa yang bersangkutan, dan oleh karena itu, kamus yang sesuai.

Pemeriksaan ejaan telah lama diterapkan dalam sistem komersial dan bergantung pada kamus dan model morfologi yang sesuai. Model sintaksis yang tidak lengkap juga digunakan, yang menjadi dasar semua kesalahan sintaksis yang cukup sering diidentifikasi (misalnya, kesalahan kesepakatan kata). Pada saat yang sama, korektor otomatis belum menerapkan deteksi kesalahan yang lebih kompleks, misalnya penggunaan preposisi yang salah. Banyak kesalahan leksikal juga tidak terdeteksi, khususnya kesalahan akibat kesalahan ketik atau kesalahan penggunaan kata-kata serupa (misalnya, berat bukannya berat). Penelitian CL modern mengusulkan metode untuk deteksi otomatis dan koreksi kesalahan tersebut, serta beberapa jenis kesalahan gaya lainnya. Metode ini menggunakan statistik kemunculan kata dan frasa.

Tugas terapan yang dekat dengan mendukung penyusunan teks adalah pengajaran bahasa alami, dalam kerangka arah ini, sistem komputer untuk pengajaran bahasa - Inggris, Rusia, dll. sering dikembangkan (sistem serupa dapat ditemukan di Internet). Biasanya, sistem ini mendukung studi aspek bahasa tertentu (morfologi, kosa kata, sintaksis) dan didasarkan pada model yang sesuai, misalnya model morfologi.

Sedangkan untuk mempelajari kosa kata, kamus teks analog elektronik (yang pada dasarnya tidak memiliki model bahasa) juga digunakan untuk ini. Namun, kamus komputer multifungsi juga sedang dikembangkan yang tidak memiliki analog teks dan ditujukan untuk berbagai pengguna - misalnya, kamus Crosslexics untuk frasa bahasa Rusia. Sistem ini mencakup berbagai kosakata - kata-kata dan kombinasi kata yang dapat diterima, dan juga memberikan bantuan dalam model pengelolaan kata, sinonim, antonim, dan korelasi semantik kata lainnya, yang jelas berguna tidak hanya bagi mereka yang mempelajari bahasa Rusia, tetapi juga juga untuk penutur asli.

Area aplikasi berikutnya yang layak disebutkan adalah generasi otomatis teks di EA. Pada prinsipnya, tugas ini dapat dianggap sebagai subtugas dari tugas terjemahan mesin yang telah dibahas di atas, namun ada sejumlah tugas khusus dalam arahannya. Tugas semacam itu adalah pembuatan multibahasa, yaitu pembuatan otomatis dokumen khusus dalam beberapa bahasa - formula paten, instruksi pengoperasian untuk produk teknis atau sistem perangkat lunak, berdasarkan spesifikasinya dalam bahasa formal. Untuk mengatasi masalah ini, digunakan model bahasa yang cukup detail.

Masalah terapan yang semakin relevan, sering disebut sebagai Text Mining, adalah ekstraksi informasi dari teks, atau Ekstraksi Informasi, yang diperlukan ketika memecahkan masalah analisis ekonomi dan produksi. Untuk melakukan ini, objek tertentu diidentifikasi dalam tes NL - entitas bernama (nama, kepribadian, nama geografis), hubungannya, dan peristiwa yang terkait dengannya. Biasanya, ini diterapkan berdasarkan penguraian sebagian teks, yang memungkinkan pemrosesan aliran berita dari kantor berita. Karena tugasnya cukup rumit tidak hanya secara teoritis, tetapi juga secara teknologi, penciptaan sistem yang signifikan untuk mengekstraksi informasi dari teks dapat dilakukan di perusahaan komersial.

Area Penambangan Teks juga mencakup dua tugas terkait lainnya – penambangan opini (Penambangan Opini) dan analisis sentimen (Analisis Sentimen), yang menarik perhatian semakin banyak peneliti. Tugas pertama melibatkan pencarian (di blog, forum, toko online, dll.) pendapat pengguna tentang produk dan objek lain, dan juga menganalisis pendapat tersebut. Tugas kedua mirip dengan tugas klasik analisis isi teks komunikasi massa; tugas ini mengevaluasi nada umum pernyataan.

Aplikasi lain yang layak disebutkan adalah dukungan dialog dengan pengguna di EA dalam kerangka sistem perangkat lunak informasi apa pun. Paling sering, masalah ini diselesaikan untuk database khusus - dalam hal ini, bahasa kueri cukup terbatas (secara leksikal dan tata bahasa), yang memungkinkan penggunaan model bahasa yang disederhanakan. Kueri ke database, dirumuskan dalam NL, diterjemahkan ke dalam bahasa formal, setelah itu informasi yang diperlukan dicari dan frasa respons yang sesuai dibuat.

Sebagai yang terakhir dalam daftar aplikasi CL kami (tetapi tidak kalah pentingnya), kami tunjukkan pengenalan dan sintesis ucapan. Kesalahan pengenalan yang pasti timbul dalam tugas-tugas ini dikoreksi dengan metode otomatis berdasarkan kamus dan pengetahuan linguistik morfologi. Pembelajaran mesin juga akan digunakan di area ini.

Kesimpulan

Linguistik komputasional menunjukkan hasil yang cukup nyata dalam berbagai aplikasi pemrosesan teks otomatis di NL. Perkembangan selanjutnya bergantung pada munculnya aplikasi baru dan pengembangan independen berbagai model bahasa, di mana banyak masalah yang belum terpecahkan. Model yang paling berkembang adalah analisis morfologi dan sintesis. Model sintaksis belum mencapai tingkat modul kerja yang stabil dan efisien, meskipun banyak formalisme dan metode yang diusulkan. Yang lebih sedikit dipelajari dan diformalkan adalah model-model pada tingkat semantik dan pragmatik, meskipun pemrosesan wacana secara otomatis sudah diperlukan dalam sejumlah aplikasi. Perhatikan bahwa alat linguistik komputasional yang sudah ada, penggunaan pembelajaran mesin dan corpora teks, dapat memajukan solusi masalah ini secara signifikan.

Literatur

1. Baeza-Yates, R. dan Ribeiro-Neto, B. Pengambilan Informasi Modern, Adison Wesley, 1999.

2. Bateman, J., Zock M. Generasi Bahasa Alami. Dalam: Buku Panduan Linguistik Komputasi Oxford. Mitkov R. (ed.). Oxford University Press, 2003, hal.304.

3. Biber, D., Conrad S., dan Reppen D. Corpus Linguistik. Menyelidiki Struktur dan Penggunaan Bahasa. Pers Universitas Cambridge, Cambridge, 1998.

4. Bolshakov, I. A., Linguistik putasional Gelbukh. Model, Sumber Daya, Aplikasi. Meksiko, IPN, 2004.

5. Brown P., Pietra S., Mercer R., Pietra V. Matematika Terjemahan Mesin Statistik. // Linguistik Komputasi, Vol. 19(2): 263-3

6. Carroll J R. Penguraian. Dalam: Buku Panduan Linguistik Komputasi Oxford. Mitkov R. (ed.). Oxford University Press, 2003, hal. 233-248.

7. Chomsky, N. Struktur Sintaksis. Den Haag: Mouton, 1957.

8. Grishman R. Ekstraksi informasi. Dalam: Buku Panduan Linguistik Komputasi Oxford. Mitkov R. (ed.). Oxford University Press, 2003, hal. 545-559.

9. Harabagu, S., Moldova D. Menjawab Pertanyaan. Dalam: Buku Panduan Linguistik Komputasi Oxford. Mitkov R. (ed.). Oxford University Press, 2003, hal. 560-582.

10. Hearst, MA Penemuan Otomatis Hubungan WordNet. Dalam: Fellbaum, C. (ed.) WordNet: Database Leksikal Elektronik. MIT Press, Cambridge, 1998, hal.131-151.

11. Pertama, G. Ontologi dan Leksikon. Dalam: Buku Pegangan Ontologi dalam Sistem Informasi. Berlin, Springer, 2003.

12. Jacquemin C., Bourigault D. Ekstraksi istilah dan pengindeksan otomatis // Mitkov R. (ed.): Buku Pegangan Linguistik Komputasi. Oxford University Press, 2003. hal. 599-615.

13. Kilgarriff, A., G. Grefenstette. Pengantar Edisi Khusus di Web sebagai Linguistik Putasional, V. 29, No. 3, 2003, hal. 333-347.

14. Manning, Bab. D., H.Schutze. Dasar-dasar Pemrosesan Bahasa Alami Statistik. MIT Pers, 1999.

15. Matsumoto Y. Akuisisi Pengetahuan Leksikal. Dalam: Buku Panduan Linguistik Komputasi Oxford. Mitkov R. (ed.). Oxford University Press, 2003, hal. 395-413.

16. Buku Pegangan Oxford tentang Linguistik Komputasi. R.Mitkov (Ed.). Pers Universitas Oxford, 2005.

17. Oakes, M., Paice C. D. Ekstraksi istilah untuk abstraksi otomatis. Kemajuan Terkini dalam Terminologi Komputasi. D. Bourigault, C. Jacquemin dan M. L'Homme (Eds), John Benjamins Publishing Company, Amsterdam, 2001, hal.353-370.

18. Pedersen, T. Pohon keputusan bigram adalah prediktor arti kata yang akurat. Proses. Pertemuan Tahunan ke-2 NAC ACL, Pittsburgh, PA, 2001, hal. 79-86.

19. Samuelsson C. Metode Statistik. Dalam: Buku Panduan Linguistik Komputasi Oxford. Mitkov R. (ed.). Oxford University Press, 2003, hal. 358-375.

20. Salton, G. Pemrosesan Teks Otomatis: Transformasi, Analisis, dan Pengambilan Informasi dengan Komputer. Membaca, MA: Addison-Wesley, 1988.

21. Somers, H. Terjemahan Mesin: Perkembangan Terkini. Dalam: Buku Panduan Linguistik Komputasi Oxford. Mitkov R. (ed.). Oxford University Press, 2003, hal. 512-528.

22. Strzalkowski, T. (ed.) Pengambilan Informasi Bahasa Alami. Kluwer, 19p.

23. Woods W. A. Transition Network Grammers untuk Analisis Bahasa Alami/ Komunikasi ACM, V. 13, 1970, N 10, hal. 591-606.

24. Word Net: Database Leksikal Elektronik. / Christiane Fellbaum. Cambridge, MIT Pers, 1998.

25. Wu J., Yu-Chia Chang Y., Teruko Mitamura T., Chang J. Saran Kolokasi Otomatis dalam Penulisan Akademik // Prosiding Makalah Pendek Konferensi ACL 2010, 2010.

26. dan lain-lain. Dukungan linguistik sistem ETAP-2. M.: Nauka, 1989.

27. dll. Teknologi analisis data: Data Mining, Visual Mining, Text Mining, OLAP – edisi ke-2. – Sankt Peterburg: BHV-Petersburg, 2008.

28. Bolshakov, Lexika - kamus elektronik besar tentang kombinasi dan hubungan semantik kata-kata Rusia. // Komp. linguistik dan kecerdasan. teknologi: Prosiding int. Konf. "Dialog 2009". Edisi: Universitas Negeri Rusia untuk Kemanusiaan, 2009, hlm.45-50.

29. Bolshakova E.I., Deteksi Bolshakov dan koreksi otomatis malapropisme Rusia // NTI. Ser. 2, No.5, 2007, hlm.27-40.

30. Wang, Kinch V. Strategi memahami teks yang koheren. // Baru dalam linguistik asing. Jil. XXIII– M., Kemajuan, 1988, hal. 153-211.

31. Vasiliev V. G., Krivenko M. P. Metode pemrosesan teks otomatis. – M.: IPI RAS, 2008.

32. Vinograd T. Sebuah program yang memahami bahasa alami - M., Mir, 1976.

33. Struktur bahasa alami yang lancar dalam sistem komunikasi otomatis. – M., Nauka, 1985.

34. Gusev, V.D., Kamus paronim Salomatina: versi 2. // NTI, Ser. 2, No. 7, 2001, hal. 26-33.

35. Zakharov - ruang sebagai korpus bahasa // Linguistik komputer dan teknologi intelektual: Prosiding Internasional. Dialog Konferensi ‘2005 / Ed. , – M.: Nauka, 2005, hal. 166-171.

36. Kasevich dari linguistik umum. - M., Nauka, 1977.

37. Pemahaman Leontief Teks: Sistem, Model, Sumber: Buku Ajar - M.: Academy, 2006.

38. Kamus ensiklopedis linguistik / Ed. V. N. Yartseva, M.: Ensiklopedia Soviet, 1990, 685 hal.

39. , Salium untuk pengindeksan dan kategorisasi otomatis: pengembangan, struktur, pemeliharaan. // NTI, Ser. 2, Nomor 1, 1996.

40. Luger J. Kecerdasan buatan: strategi dan metode untuk memecahkan masalah yang kompleks. M., 2005.

41. McQueen K. Strategi diskursif untuk sintesis teks dalam bahasa alami // Baru dalam linguistik asing. Jil. XXIV. M.: Kemajuan, 1989, hal.311-356.

42. Teori Melchuk tentang model linguistik “MAKNA “TEKS”. - M., Nauka, 1974.

43. Korpus Nasional Bahasa Rusia. http://******

44. Khoroshevsky V. F. OntosMiner: rangkaian sistem untuk mengekstraksi informasi dari kumpulan dokumen multibahasa // Konferensi Nasional Kesembilan tentang Kecerdasan Buatan dengan Partisipasi Internasional KII-2004. T.2. – M.: Fizmatlit, 2004, hal.573-581.

perangkat lunak linguistik statistik linguistik

Sejarah perkembangan linguistik komputasi

Proses pembentukan dan pembentukan linguistik modern sebagai ilmu bahasa alami merupakan sejarah perkembangan ilmu linguistik yang panjang. Pengetahuan linguistik didasarkan pada unsur-unsur yang terbentuk dalam proses kegiatan yang tidak dapat dipisahkan dari perkembangan struktur tuturan lisan, kemunculan, pengembangan lebih lanjut dan penyempurnaan tulisan, pembelajaran menulis, serta penafsiran dan penguraian teks.

Bahasa alam sebagai objek linguistik menempati tempat sentral dalam ilmu ini. Dalam proses perkembangan bahasa, gagasan tentangnya pun berubah. Jika sebelumnya tidak ada kepentingan khusus yang diberikan pada organisasi internal bahasa, dan itu dianggap terutama dalam konteks hubungannya dengan dunia luar, maka, mulai dari akhir abad ke-19 - awal abad ke-20, peran khusus diberikan kepada internal. struktur formal bahasa. Pada periode inilah ahli bahasa Swiss terkenal Ferdinand de Saussure mengembangkan dasar-dasar ilmu-ilmu seperti semiologi dan linguistik struktural, dan menguraikannya secara rinci dalam bukunya A Course in General Linguistics (1916).

Ilmuwan mendapat ide untuk menganggap bahasa sebagai mekanisme tunggal, sistem tanda yang integral, yang pada gilirannya memungkinkan untuk menggambarkan bahasa secara matematis. Saussure adalah orang pertama yang mengemukakan pendekatan struktural terhadap bahasa, yaitu: deskripsi bahasa dengan mempelajari hubungan antar unit-unitnya. Berdasarkan satuan, atau “tanda”, ia memahami sebuah kata yang menggabungkan makna dan bunyi. Konsep yang dikemukakan oleh ilmuwan Swiss ini didasarkan pada teori bahasa sebagai sistem tanda yang terdiri dari tiga bagian: bahasa (dari bahasa Perancis langue), ucapan (dari bahasa Perancis parole) dan aktivitas bicara (dari bahasa Perancis langage).

Ilmuwan itu sendiri mendefinisikan ilmu yang diciptakannya, semiologi, sebagai “ilmu yang mempelajari kehidupan tanda-tanda dalam kerangka kehidupan masyarakat”. Karena bahasa merupakan suatu sistem tanda, maka dalam mencari jawaban atas pertanyaan apa kedudukan linguistik di antara ilmu-ilmu lainnya, Saussure berpendapat bahwa linguistik merupakan bagian dari semiologi. Secara umum diterima bahwa filolog Swiss-lah yang meletakkan landasan teoretis bagi arah baru dalam linguistik, menjadi pendiri dan “bapak” linguistik modern.

Konsep yang dikemukakan oleh F. de Saussure dikembangkan lebih lanjut dalam karya banyak ilmuwan terkemuka: di Denmark - L. Hjelmslev, di Republik Ceko - N. Trubetskoy, di AS - L. Bloomfield, Z. Harris, N. Chomsky. Adapun di negara kita, di sini linguistik struktural mulai berkembang pada periode waktu yang kira-kira sama dengan di Barat - pada pergantian abad ke-19-20. - dalam karya F. Fortunatov dan I. Baudouin de Courtenay. Perlu dicatat bahwa I. Baudouin de Courtenay bekerja sama dengan F. de Saussure. Jika Saussure meletakkan landasan teori linguistik struktural, maka Baudouin de Courtenay dapat dianggap sebagai orang yang meletakkan dasar bagi penerapan praktis metode yang dikemukakan oleh ilmuwan Swiss tersebut. Dialah yang mendefinisikan linguistik sebagai ilmu yang menggunakan metode statistik dan ketergantungan fungsional, serta memisahkannya dari filologi. Pengalaman pertama penerapan metode matematika dalam linguistik adalah fonologi - ilmu tentang struktur bunyi suatu bahasa.

Perlu dicatat bahwa dalil-dalil yang dikemukakan oleh F. de Saussure mampu tercermin dalam permasalahan linguistik yang relevan pada pertengahan abad ke-20. Pada periode inilah terdapat kecenderungan yang jelas terhadap matematisasi ilmu bahasa. Di hampir semua negara besar, perkembangan pesat ilmu pengetahuan dan teknologi komputer dimulai, yang pada gilirannya membutuhkan landasan linguistik yang semakin baru. Hasil dari semua ini adalah konvergensi yang cepat antara ilmu-ilmu eksakta dan humaniora, serta interaksi aktif antara matematika dan linguistik, yang menemukan penerapan praktis dalam memecahkan masalah-masalah ilmiah yang mendesak.

Pada tahun 50-an abad ke-20, di persimpangan ilmu-ilmu seperti matematika, linguistik, ilmu komputer, dan kecerdasan buatan, muncul arah ilmu baru - linguistik komputer (juga dikenal sebagai linguistik mesin atau pemrosesan teks otomatis dalam bahasa alami). Tahapan utama pengembangan arah ini terjadi dengan latar belakang evolusi metode kecerdasan buatan. Dorongan kuat bagi perkembangan linguistik komputer adalah penciptaan komputer pertama. Namun, dengan munculnya komputer dan bahasa pemrograman generasi baru di tahun 60an, tahap baru yang mendasar dalam pengembangan ilmu ini dimulai. Perlu juga dicatat bahwa asal usul linguistik komputasional berasal dari karya ahli bahasa Amerika terkenal N. Chomsky di bidang formalisasi struktur bahasa. Hasil penelitiannya yang diperoleh pada titik temu antara linguistik dan matematika menjadi landasan bagi berkembangnya teori bahasa dan tata bahasa formal (tata bahasa generatif atau generatif), yang banyak digunakan untuk menggambarkan alam dan buatan. bahasa, khususnya bahasa pemrograman. Lebih tepatnya, teori ini sepenuhnya merupakan disiplin matematika. Ini dapat dianggap sebagai salah satu yang pertama dalam arah linguistik terapan seperti linguistik matematika.

Eksperimen pertama dan perkembangan pertama dalam linguistik komputasi berkaitan dengan penciptaan sistem terjemahan mesin, serta sistem yang memodelkan kemampuan bahasa manusia. Pada akhir tahun 80an, dengan munculnya dan perkembangan aktif Internet, terjadi pertumbuhan pesat dalam jumlah informasi teks yang tersedia dalam bentuk elektronik. Hal ini mengarah pada fakta bahwa teknologi pencarian informasi telah berpindah ke tahap perkembangan yang secara kualitatif baru. Ada kebutuhan untuk memproses teks secara otomatis dalam bahasa alami, dan tugas serta teknologi yang benar-benar baru pun muncul. Para ilmuwan dihadapkan pada masalah dalam memproses sejumlah besar data tidak terstruktur dengan cepat. Untuk menemukan solusi terhadap masalah ini, pengembangan dan penerapan metode statistik di bidang pemrosesan teks otomatis sangat penting. Dengan bantuan mereka, menjadi mungkin untuk memecahkan masalah seperti membagi teks menjadi kelompok-kelompok yang disatukan oleh tema yang sama, menyorot bagian-bagian tertentu dalam teks, dll. Selain itu, penggunaan metode statistik matematika dan pembelajaran mesin memungkinkan pemecahan masalah pengenalan suara dan pembuatan mesin pencari.

Para ilmuwan tidak berhenti pada hasil yang dicapai: mereka terus menetapkan tujuan dan sasaran baru, mengembangkan teknik dan metode penelitian baru. Semua ini mengarah pada fakta bahwa linguistik mulai bertindak sebagai ilmu terapan, menggabungkan sejumlah ilmu lain, peran utama di antaranya adalah matematika dengan keragaman metode kuantitatif dan kemampuan menggunakannya untuk pemahaman yang lebih dalam tentang fenomena tersebut. sedang dipelajari. Dari sinilah linguistik matematika memulai pembentukan dan perkembangannya. Saat ini merupakan ilmu yang cukup “muda” (sudah ada sekitar lima puluh tahun), namun meskipun usianya sangat “muda”, ilmu ini merupakan bidang ilmu pengetahuan yang sudah mapan dengan banyak prestasi yang berhasil.

Isi artikel

LINGUISTIKA KOMPUTER, arah dalam linguistik terapan, berfokus pada penggunaan alat komputer - program, teknologi komputer untuk mengatur dan memproses data - untuk memodelkan fungsi bahasa dalam kondisi, situasi, area masalah tertentu, dll., serta seluruh ruang lingkup penerapan bahasa model bahasa komputer dalam linguistik dan disiplin ilmu terkait. Sebenarnya, hanya dalam kasus terakhir kita berbicara tentang linguistik terapan dalam arti sempit, karena pemodelan bahasa komputer juga dapat dianggap sebagai bidang penerapan ilmu komputer dan teori pemrograman untuk memecahkan masalah dalam ilmu bahasa. Namun dalam praktiknya, linguistik komputasional mencakup hampir semua hal yang berkaitan dengan penggunaan komputer dalam linguistik.

Linguistik komputasional mulai terbentuk sebagai bidang ilmiah khusus pada tahun 1960an. Istilah Rusia "linguistik komputer" adalah terjemahan dari linguistik komputasi bahasa Inggris. Karena kata sifat komputasi dalam bahasa Rusia juga dapat diterjemahkan sebagai “komputasi”, istilah “linguistik komputasi” juga ditemukan dalam literatur, namun dalam sains Rusia, istilah ini mempunyai arti yang lebih sempit, mendekati konsep “linguistik kuantitatif”. Aliran publikasi di bidang ini sangat besar. Selain koleksi tematik, jurnal Computer Linguistics diterbitkan setiap triwulan di Amerika. Banyak pekerjaan organisasi dan ilmiah dilakukan oleh Asosiasi Linguistik Komputasi, yang memiliki struktur regional (khususnya, cabang Eropa). Setiap dua tahun, konferensi internasional tentang linguistik komputasi – COLING – diadakan. Isu-isu terkait biasanya terwakili secara luas di berbagai konferensi tentang kecerdasan buatan.

Perangkat untuk Linguistik Komputasi.

Linguistik komputasional sebagai disiplin terapan khusus dibedakan terutama berdasarkan instrumennya - yaitu. tentang penggunaan alat komputer untuk mengolah data bahasa. Karena program komputer yang memodelkan aspek-aspek tertentu dari fungsi suatu bahasa dapat menggunakan berbagai alat pemrograman, tampaknya tidak perlu membicarakan perangkat konseptual umum linguistik komputer. Namun, hal ini tidak benar. Ada prinsip-prinsip umum pemikiran pemodelan komputer, yang entah bagaimana dapat diterapkan dalam model komputer mana pun. Hal tersebut didasarkan pada teori pengetahuan yang pada mulanya dikembangkan dalam bidang kecerdasan buatan, dan kemudian menjadi salah satu cabang ilmu kognitif. Kategori konseptual linguistik komputer yang paling penting adalah struktur pengetahuan seperti "bingkai" (struktur konseptual, atau, seperti yang mereka katakan, struktur konseptual untuk representasi deklaratif pengetahuan tentang situasi terpadu tematis yang khas), "skenario" (struktur konseptual untuk prosedural representasi pengetahuan tentang situasi stereotip atau perilaku stereotip), “rencana” (struktur pengetahuan yang menangkap gagasan tentang kemungkinan tindakan yang mengarah pada pencapaian tujuan tertentu). Terkait erat dengan kategori bingkai adalah konsep “adegan”. Kategori adegan terutama digunakan dalam literatur linguistik komputer sebagai sebutan struktur konseptual untuk representasi deklaratif situasi dan bagian-bagiannya yang diaktualisasikan dalam tindak tutur dan disorot melalui sarana linguistik (leksem, konstruksi sintaksis, kategori tata bahasa, dll.) .

Seperangkat struktur pengetahuan yang terorganisir dengan cara tertentu membentuk “model dunia” dari sistem kognitif dan model komputernya. Dalam sistem kecerdasan buatan, model dunia membentuk blok khusus, yang bergantung pada arsitektur yang dipilih, dapat mencakup pengetahuan umum tentang dunia (dalam bentuk proposisi sederhana seperti “di musim dingin dingin” atau dalam bentuk aturan produksi “jika di luar hujan, maka Anda perlu memakai jas hujan atau membawa payung”), beberapa fakta spesifik (“Puncak tertinggi di dunia adalah Everest”), serta nilai-nilai dan hierarkinya, terkadang dipisahkan menjadi a “blok aksiologis” khusus.

Sebagian besar elemen konsep alat linguistik komputasi bersifat homonim: elemen tersebut secara bersamaan menunjukkan beberapa entitas nyata dari sistem kognitif manusia dan cara merepresentasikan entitas ini yang digunakan dalam deskripsi dan pemodelan teoretisnya. Dengan kata lain, unsur perangkat konseptual linguistik komputer memiliki aspek ontologis dan instrumental. Misalnya, dalam aspek ontologis, pembagian pengetahuan deklaratif dan prosedural sesuai dengan berbagai jenis pengetahuan yang tersedia bagi seseorang - yang disebut pengetahuan APA (deklaratif; seperti, misalnya, pengetahuan tentang alamat pos beberapa NN), di satu sisi, dan pengetahuan BAGAIMANA (prosedural; misalnya, pengetahuan yang memungkinkan Anda menemukan apartemen NN ini, bahkan tanpa mengetahui alamat resminya) - di sisi lain. Dalam aspek instrumental, pengetahuan dapat diwujudkan dalam sekumpulan deskripsi (deskripsi), dalam sekumpulan data, di satu sisi, dan dalam suatu algoritma, suatu instruksi yang dilakukan oleh komputer atau model sistem kognitif lainnya, di sisi lain.

Arah linguistik komputasi.

Bidang CL sangat beragam dan mencakup bidang-bidang seperti pemodelan komunikasi komputer, pemodelan struktur plot, teknologi hypertext untuk presentasi teks, terjemahan mesin, dan leksikografi komputer. Dalam arti sempit, masalah CL sering dikaitkan dengan bidang penerapan interdisipliner dengan nama yang agak disayangkan “pemrosesan bahasa alami” (terjemahan dari istilah bahasa Inggris Natural Language Processing). Ini muncul pada akhir tahun 1960an dan berkembang dalam disiplin ilmu pengetahuan dan teknologi “kecerdasan buatan”. Dalam bentuk internalnya, frasa “pemrosesan bahasa alami” mencakup semua area di mana komputer digunakan untuk memproses data bahasa. Sementara itu, pemahaman yang lebih sempit tentang istilah ini telah diterapkan dalam praktik - pengembangan metode, teknologi, dan sistem khusus yang menjamin komunikasi manusia dengan komputer dalam bahasa alami atau bahasa alami terbatas.

Perkembangan pesat bidang “pemrosesan bahasa alami” terjadi pada tahun 1970-an, yang dikaitkan dengan pertumbuhan eksponensial yang tidak terduga dalam jumlah pengguna akhir komputer. Karena pengajaran bahasa dan teknologi pemrograman kepada semua pengguna tidak mungkin dilakukan, masalah pengorganisasian interaksi dengan program komputer telah muncul. Solusi terhadap masalah komunikasi ini mengikuti dua jalur utama. Dalam kasus pertama, upaya dilakukan untuk mengadaptasi bahasa pemrograman dan sistem operasi kepada pengguna akhir. Hasilnya, bahasa tingkat tinggi seperti Visual Basic muncul, serta sistem operasi nyaman yang dibangun dalam ruang konseptual metafora yang akrab bagi manusia - MEJA, PERPUSTAKAAN. Cara kedua adalah mengembangkan sistem yang memungkinkan interaksi dengan komputer dalam area masalah tertentu dalam bahasa alami atau versi terbatasnya.

Arsitektur sistem pemrosesan bahasa alami dalam kasus umum mencakup blok untuk menganalisis pesan ucapan pengguna, blok untuk menafsirkan pesan, blok untuk menghasilkan makna respons, dan blok untuk mensintesis struktur permukaan pernyataan. Bagian khusus dari sistem adalah komponen dialog, yang mencatat strategi melakukan dialog, kondisi penggunaan strategi tersebut, dan cara mengatasi kemungkinan kegagalan komunikasi (kegagalan dalam proses komunikasi).

Di antara sistem pemrosesan bahasa alami komputer, sistem tanya jawab, sistem pemecahan masalah interaktif, dan sistem pemrosesan teks terhubung biasanya dibedakan. Awalnya, sistem tanya jawab mulai dikembangkan sebagai reaksi terhadap buruknya kualitas pengkodean kueri ketika mencari informasi dalam sistem pencarian informasi. Karena area masalah sistem tersebut sangat terbatas, ini agak menyederhanakan algoritma untuk menerjemahkan pertanyaan ke dalam representasi dalam bahasa formal dan prosedur sebaliknya untuk mengubah representasi formal menjadi pernyataan dalam bahasa alami. Di antara perkembangan dalam negeri, program jenis ini termasuk sistem POET, yang dibuat oleh tim peneliti di bawah kepemimpinan E.V. Sistem memproses permintaan dalam bahasa Rusia (dengan sedikit batasan) dan menyatukan jawabannya. Diagram alur program melibatkan melalui semua tahapan analisis (morfologis, sintaksis, dan semantik) dan tahapan sintesis yang sesuai.

Sistem pemecahan masalah percakapan, berbeda dengan sistem tipe sebelumnya, berperan aktif dalam komunikasi, karena tugasnya adalah memperoleh solusi masalah berdasarkan pengetahuan yang disajikan di dalamnya dan informasi yang dapat diperoleh dari pengguna. Sistem berisi struktur pengetahuan yang mencatat urutan tindakan khas untuk memecahkan masalah di area masalah tertentu, serta informasi tentang sumber daya yang diperlukan. Ketika pengguna mengajukan pertanyaan atau menetapkan tugas tertentu, skrip terkait diaktifkan. Jika beberapa komponen skrip hilang atau beberapa sumber daya hilang, sistem akan memulai komunikasi. Misalnya saja cara kerja sistem SNUKA dalam memecahkan masalah perencanaan operasi militer.

Sistem untuk memproses teks yang koheren memiliki struktur yang cukup beragam. Ciri umum mereka adalah meluasnya penggunaan teknologi representasi pengetahuan. Fungsi sistem semacam ini adalah untuk memahami teks dan menjawab pertanyaan tentang isinya. Pemahaman tidak dianggap sebagai kategori universal, tetapi sebagai proses penggalian informasi dari sebuah teks, yang ditentukan oleh maksud komunikatif tertentu. Dengan kata lain, teks tersebut “dibaca” hanya dengan asumsi bahwa sebenarnya apa yang ingin diketahui oleh calon pengguna tentang teks tersebut. Dengan demikian, sistem pemrosesan teks yang koheren ternyata tidak bersifat universal, tetapi berorientasi pada masalah. Contoh umum dari sistem yang dibahas adalah sistem RESEARCHER dan TAILOR, yang membentuk satu paket perangkat lunak yang memungkinkan pengguna memperoleh informasi dari abstrak paten yang menggambarkan objek fisik kompleks.

Bidang linguistik komputer yang paling penting adalah pengembangan sistem pengambilan informasi (IRS). Yang terakhir ini muncul pada akhir tahun 1950an dan awal tahun 1960an sebagai respon terhadap peningkatan tajam dalam volume informasi ilmiah dan teknis. Berdasarkan jenis informasi yang disimpan dan diproses, serta fitur pencariannya, sistem pencarian informasi dibagi menjadi dua kelompok besar - dokumenter dan faktual. Sistem pengambilan informasi dokumenter menyimpan teks dokumen atau deskripsinya (abstrak, kartu bibliografi, dll). IRS faktual berhubungan dengan deskripsi fakta spesifik, dan tidak harus dalam bentuk teks. Ini bisa berupa tabel, rumus, dan jenis penyajian data lainnya. Ada juga sistem informasi campuran, termasuk dokumen dan informasi faktual. Saat ini, sistem informasi faktual dibangun berdasarkan teknologi database (DB). Untuk menjamin temu kembali informasi dalam sistem temu kembali informasi, dibuatlah bahasa temu kembali informasi khusus yang didasarkan pada tesauri temu kembali informasi. Bahasa pengambilan informasi adalah bahasa formal yang dirancang untuk menggambarkan aspek-aspek tertentu dari rencana isi dokumen yang disimpan dalam sistem pengambilan informasi dan permintaan. Prosedur untuk mendeskripsikan suatu dokumen dalam bahasa temu kembali informasi disebut pengindeksan. Sebagai hasil pengindeksan, setiap dokumen diberi deskripsi formalnya sendiri dalam bahasa pencarian informasi - gambar pencarian dokumen. Kueri diindeks dengan cara yang sama, yang mana gambar kueri penelusuran dan resep penelusuran ditetapkan. Algoritma pengambilan informasi didasarkan pada perbandingan resep pencarian dengan gambar permintaan pencarian. Kriteria untuk menerbitkan dokumen atas permintaan dapat berupa kecocokan penuh atau sebagian antara gambar pencarian dokumen dan instruksi pencarian. Dalam beberapa kasus, pengguna memiliki kesempatan untuk merumuskan sendiri kriteria penerbitannya. Hal ini ditentukan oleh kebutuhan informasinya. Sistem pengambilan informasi otomatis sering kali menggunakan bahasa pengambilan informasi deskriptor. Subyek suatu dokumen dijelaskan oleh sekumpulan deskriptor. Deskriptor adalah kata-kata dan istilah yang menunjukkan kategori dan konsep yang sederhana dan cukup mendasar dari bidang masalah. Banyaknya deskriptor yang dimasukkan ke dalam gambar pencarian dokumen karena ada topik berbeda yang tercakup dalam dokumen tersebut. Jumlah deskriptor tidak dibatasi, yang memungkinkan Anda mendeskripsikan dokumen dalam matriks fitur multidimensi. Seringkali dalam bahasa pengambilan informasi deskriptor, pembatasan dikenakan pada kompatibilitas deskriptor. Dalam hal ini, kita dapat mengatakan bahwa bahasa pengambilan informasi memiliki sintaksis.

Salah satu sistem pertama yang bekerja dengan bahasa deskriptor adalah sistem UNITERM Amerika, yang dibuat oleh M. Taube. Kata kunci dokumen—uniterms—berfungsi sebagai deskriptor dalam sistem ini. Keunikan IRS ini adalah awalnya kamus bahasa informasi tidak ditentukan, tetapi muncul dalam proses pengindeksan dokumen dan query. Perkembangan sistem temu kembali informasi modern dikaitkan dengan berkembangnya sistem temu kembali informasi bertipe non tesaurus. Sistem informasi semacam itu bekerja dengan pengguna dalam bahasa alami yang terbatas, dan pencarian dilakukan melalui teks abstrak dokumen, melalui deskripsi bibliografinya, dan seringkali melalui dokumen itu sendiri. Untuk pengindeksan di IRS tipe non-tesaurus, kata dan frasa bahasa alami digunakan.

Sampai batas tertentu, bidang linguistik komputer dapat mencakup pekerjaan di bidang pembuatan sistem hypertext, yang dianggap sebagai cara khusus untuk mengatur teks dan bahkan sebagai jenis teks yang pada dasarnya baru, yang dalam banyak sifatnya kontras dengan teks biasa yang dibentuk dalam tradisi pencetakan Gutenberg. Ide hiperteks dikaitkan dengan nama Vannevar Bush, penasihat sains Presiden F. Roosevelt. V. Bush secara teoritis mendukung proyek sistem teknis Memex, yang memungkinkan pengguna untuk menghubungkan teks dan fragmennya menggunakan berbagai jenis koneksi, terutama melalui hubungan asosiatif. Kurangnya teknologi komputer membuat proyek ini sulit dilaksanakan, karena sistem mekanisnya ternyata terlalu rumit untuk implementasi praktis.

Ide Bush terlahir kembali pada tahun 1960an dalam sistem Xanadu karya T. Nelson, yang sudah melibatkan penggunaan teknologi komputer. “Xanadu” memungkinkan pengguna untuk membaca sekumpulan teks yang dimasukkan ke dalam sistem dengan cara berbeda, dalam urutan berbeda; perangkat lunak memungkinkan untuk mengingat urutan teks yang dilihat dan memilih hampir semua teks kapan saja. Sekumpulan teks yang memiliki hubungan yang menghubungkannya (sistem transisi) disebut hypertext oleh T. Nelson. Banyak peneliti memandang penciptaan hypertext sebagai awal dari era informasi baru, berlawanan dengan era pencetakan. Linearitas tulisan, yang secara lahiriah mencerminkan linearitas ucapan, ternyata merupakan kategori mendasar yang membatasi pemikiran dan pemahaman manusia terhadap teks. Dunia makna bersifat nonlinier, oleh karena itu, kompresi informasi semantik dalam segmen tuturan linier memerlukan penggunaan “paket komunikatif” khusus - pembagian menjadi tema dan rema, pembagian rencana isi ujaran menjadi eksplisit (pernyataan, proposisi, fokus ) dan lapisan implisit (praanggapan, konsekuensi, implikatur wacana). Penolakan terhadap linearitas teks baik dalam proses penyajiannya kepada pembaca (yaitu selama membaca dan memahami) maupun dalam proses sintesis, menurut para ahli teori, akan berkontribusi pada “pembebasan” pemikiran dan bahkan munculnya pemikirannya. bentuk-bentuk baru.

Dalam sistem komputer, hypertext disajikan dalam bentuk grafik, yang simpulnya berisi teks tradisional atau fragmennya, gambar, tabel, video, dll. Node-node tersebut dihubungkan oleh berbagai hubungan, yang jenisnya ditentukan oleh pengembang perangkat lunak hypertext atau oleh pembaca itu sendiri. Hubungan menentukan kemungkinan potensial pergerakan, atau navigasi, melalui hypertext. Hubungan bisa bersifat satu arah atau dua arah. Oleh karena itu, panah dua arah memungkinkan pengguna untuk bergerak ke dua arah, sedangkan panah satu arah memungkinkan pengguna untuk bergerak hanya dalam satu arah. Rantai simpul yang dilalui pembaca saat melihat komponen teks membentuk jalur, atau rute.

Implementasi komputer dari hypertext dapat bersifat hierarkis atau jaringan. Struktur hiperteks yang hierarkis – seperti pohon – secara signifikan membatasi kemungkinan transisi antar komponennya. Dalam hypertext seperti itu, hubungan antar komponen menyerupai struktur tesaurus berdasarkan hubungan genus-spesies. Hypertext jaringan memungkinkan penggunaan berbagai jenis hubungan antar komponen, tidak terbatas pada hubungan genus-spesies. Menurut cara keberadaan hiperteks, hiperteks statis dan dinamis dibedakan. Hiperteks statis tidak berubah selama pengoperasian; di dalamnya pengguna dapat merekam komentarnya, tetapi komentar tersebut tidak mengubah inti permasalahan. Untuk hypertext dinamis, perubahan adalah bentuk keberadaan yang normal. Biasanya, hiperteks dinamis berfungsi ketika diperlukan untuk terus menganalisis aliran informasi, mis. dalam berbagai jenis layanan informasi. Hypertext, misalnya, adalah Arizona Information System (AAIS), yang diperbarui setiap bulan sebanyak 300–500 abstrak per bulan.

Hubungan antara elemen hypertext pada awalnya dapat diperbaiki oleh pembuatnya, atau dapat dihasilkan setiap kali pengguna mengakses hypertext. Dalam kasus pertama kita berbicara tentang hiperteks berstruktur keras, dan yang kedua – tentang hiperteks berstruktur lunak. Struktur kaku secara teknologi cukup dapat dimengerti. Teknologi pengorganisasian struktur lunak harus didasarkan pada analisis semantik kedekatan dokumen (atau sumber informasi lain) satu sama lain. Ini adalah tugas yang tidak sepele dalam linguistik komputasi. Saat ini, penggunaan teknologi struktur lunak pada kata kunci tersebar luas. Peralihan dari satu node ke node lainnya dalam jaringan hypertext dilakukan sebagai hasil pencarian kata kunci. Karena kumpulan kata kunci mungkin berbeda setiap saat, struktur hypertext berubah setiap saat.

Teknologi membangun sistem hypertext tidak membedakan informasi teks dan non teks. Sementara itu, penyertaan informasi visual dan audio (video, gambar, foto, rekaman suara, dll.) memerlukan perubahan signifikan pada antarmuka pengguna dan dukungan perangkat lunak dan komputer yang lebih kuat. Sistem seperti ini disebut hypermedia, atau multimedia. Visibilitas sistem multimedia telah menentukan penggunaannya secara luas dalam pendidikan dan dalam pembuatan ensiklopedia versi komputer. Misalnya, ada CD-rom yang diproduksi dengan indah dengan sistem multimedia berdasarkan ensiklopedia anak-anak yang diterbitkan oleh Dorlin Kindersley.

Dalam kerangka leksikografi komputer, teknologi komputer untuk menyusun dan mengoperasikan kamus sedang dikembangkan. Program khusus - database, lemari arsip komputer, program pengolah kata - memungkinkan Anda membuat entri kamus secara otomatis, menyimpan informasi kamus, dan memprosesnya. Banyak program leksikografis komputer yang berbeda dibagi menjadi dua kelompok besar: program untuk mendukung karya leksikografis dan kamus otomatis dari berbagai jenis, termasuk database leksikografis. Kamus otomatis adalah kamus dalam format mesin khusus yang dimaksudkan untuk digunakan pada komputer oleh pengguna atau program pengolah kata komputer. Dengan kata lain, terdapat perbedaan antara kamus otomatis untuk pengguna akhir manusia dan kamus otomatis untuk program pengolah kata. Kamus otomatis yang ditujukan untuk pengguna akhir berbeda secara signifikan dalam antarmuka dan struktur entri kamus dari kamus otomatis yang termasuk dalam sistem terjemahan mesin, sistem abstrak otomatis, sistem pengambilan informasi, dll. Paling sering itu adalah kamus konvensional terkenal versi komputer. Di pasar perangkat lunak terdapat analog komputer dari kamus penjelasan bahasa Inggris (Webster otomatis, kamus penjelasan otomatis bahasa Inggris yang diterbitkan oleh Collins, versi otomatis Kamus Besar Inggris-Rusia Baru yang diedit oleh Yu.D. Apresyan dan E.M. Mednikova ), ada juga kamus Ozhegov versi komputer. Kamus otomatis untuk program pengolah kata dapat disebut kamus otomatis dalam arti sempit. Biasanya tidak ditujukan untuk pengguna rata-rata. Ciri-ciri struktur dan ruang lingkup materi kosa kata ditentukan oleh program yang berinteraksi dengannya.

Pemodelan komputer dari struktur plot adalah bidang linguistik komputer lain yang menjanjikan. Kajian struktur alur berkaitan dengan permasalahan kritik sastra struktural (dalam arti luas), semiotika, dan kajian budaya. Program komputer yang tersedia untuk pemodelan plot didasarkan pada tiga formalisme dasar untuk representasi plot - arah morfologis dan sintaksis representasi plot, serta pendekatan kognitif. Gagasan tentang struktur morfologi struktur plot kembali ke karya terkenal V.Ya. cm.) tentang dongeng Rusia. Propp memperhatikan bahwa dengan banyaknya tokoh dan peristiwa dalam dongeng, jumlah fungsi tokoh menjadi terbatas, dan ia mengusulkan suatu alat untuk mendeskripsikan fungsi-fungsi tersebut. Ide Propp menjadi dasar program komputer TALE, yang mensimulasikan pembuatan plot dongeng. Algoritma program TALE didasarkan pada urutan fungsi karakter dalam dongeng. Faktanya, fungsi Propp mendefinisikan serangkaian situasi yang dikarakterisasi, diurutkan berdasarkan analisis materi empiris. Kemungkinan menghubungkan berbagai situasi dalam aturan generasi ditentukan oleh urutan fungsi yang khas - dalam bentuk yang dapat ditetapkan dari teks dongeng. Dalam program ini, rangkaian fungsi tipikal dideskripsikan sebagai skenario pertemuan karakter yang khas.

Landasan teori pendekatan sintaksis terhadap alur suatu teks adalah “tata bahasa cerita” atau “tata bahasa cerita”. Mereka muncul pada pertengahan tahun 1970-an sebagai hasil pengalihan gagasan tata bahasa generatif N. Chomsky ke dalam deskripsi struktur makro teks. Jika komponen terpenting dari struktur sintaksis dalam tata bahasa generatif adalah frasa kata kerja dan kata benda, maka di sebagian besar tata bahasa plot, eksposisi (setting), peristiwa, dan episode dipilih sebagai komponen dasar. Dalam teori tata bahasa alur, kondisi minimal, yaitu batasan-batasan yang menentukan status suatu rangkaian unsur alur sebagai alur normal, telah banyak dibahas. Namun ternyata hal ini tidak dapat dilakukan hanya dengan menggunakan metode linguistik. Banyak pembatasan yang bersifat sosiokultural. Tata bahasa plot, meskipun berbeda secara signifikan dalam kumpulan kategori di pohon generasi, memungkinkan seperangkat aturan yang sangat terbatas untuk mengubah struktur naratif.

Pada awal tahun 1980-an, salah satu murid R. Schenk, V. Lehnert, dalam karyanya menciptakan generator plot komputer, mengusulkan formalisme asli dari unit plot emosional (Affective Plot Units), yang ternyata merupakan sarana yang ampuh. mewakili struktur plot. Meskipun pada awalnya dikembangkan untuk sistem kecerdasan buatan, formalisme ini digunakan dalam studi teoritis murni. Inti dari pendekatan Lehnert adalah bahwa plot digambarkan sebagai perubahan berurutan dalam keadaan kognitif-emosional karakter. Dengan demikian, fokus formalisme Lehnert bukan pada komponen eksternal plot – eksposisi, peristiwa, episode, moralitas – tetapi pada karakteristik isinya. Dalam hal ini, formalisme Lehnert sebagian merupakan kembalinya gagasan Propp.

Kompetensi linguistik komputer juga mencakup penerjemahan mesin yang saat ini sedang mengalami kelahiran kembali.

Literatur:

Popov E.V. Komunikasi dengan komputer dalam bahasa alami. M., 1982
Sadur V.G. Komunikasi wicara dengan komputer elektronik dan masalah perkembangannya. – Dalam buku: Komunikasi wicara: masalah dan prospek. M., 1983
Baranov A.N. Kategori kecerdasan buatan dalam semantik linguistik. Bingkai dan skrip. M., 1987
Kobozeva I.M., Laufer N.I., Saburova I.G. Pemodelan komunikasi dalam sistem manusia-mesin. – Dukungan linguistik sistem informasi. M., 1987
Olker H.R. Dongeng, tragedi dan cara menyajikan sejarah dunia. – Dalam buku: Bahasa dan pemodelan interaksi sosial. M., 1987
Gorodetsky B.Yu. Linguistik komputasi: pemodelan komunikasi bahasa
McQueen K. Strategi wacana untuk sintesis teks bahasa alami. – Baru dalam linguistik asing. Jil. XXIV, Linguistik Komputasi. M., 1989
Popov E.V., Preobrazhensky A.B. . Fitur implementasi sistem NL
Preobrazhensky A.B. Keadaan perkembangan sistem NL modern. - Kecerdasan buatan. Buku 1, Sistem komunikasi dan sistem pakar. M., 1990
Subbotin M.M. Hiperteks. Suatu bentuk komunikasi tertulis yang baru. – VINITI, Ser. Ilmu Komputer, 1994, jilid 18
Baranov A.N. Pengantar Linguistik Terapan. M., 2000

PEKERJAAN KURSUS

dalam disiplin "Informatika"

dengan topik: “Linguistik komputasi”

PERKENALAN

2. Antarmuka modern untuk linguistik komputasi

KESIMPULAN

LITERATUR

Perkenalan

Teknologi informasi otomatis memegang peranan penting dalam kehidupan masyarakat modern. Seiring waktu, kepentingannya terus meningkat. Namun perkembangan teknologi informasi sangat tidak merata: jika tingkat teknologi komputer dan komunikasi saat ini luar biasa, maka di bidang pemrosesan informasi semantik, keberhasilannya jauh lebih sederhana. Keberhasilan ini terutama bergantung pada pencapaian dalam mempelajari proses berpikir manusia, proses komunikasi verbal antara manusia dan kemampuan untuk memodelkan proses ini di komputer.

Dalam hal menciptakan teknologi informasi yang menjanjikan, masalah pemrosesan otomatis informasi tekstual yang disajikan dalam bahasa alami mengemuka. Hal ini ditentukan oleh kenyataan bahwa pemikiran seseorang erat kaitannya dengan bahasanya. Selain itu, bahasa alami adalah alat untuk berpikir. Ini juga merupakan sarana komunikasi universal antar manusia - sarana persepsi, akumulasi, penyimpanan, pemrosesan, dan transmisi informasi. Ilmu linguistik komputer membahas masalah penggunaan bahasa alami dalam sistem pemrosesan informasi otomatis. Ilmu ini muncul relatif baru - pada pergantian tahun lima puluhan dan enam puluhan abad yang lalu. Selama setengah abad terakhir, hasil ilmiah dan praktis yang signifikan telah diperoleh di bidang linguistik komputer: sistem terjemahan mesin teks dari satu bahasa alami ke bahasa lain, sistem pengambilan informasi otomatis dalam teks, sistem analisis otomatis dan sintesis lisan pidato, dan banyak lainnya telah diciptakan. Karya ini dikhususkan untuk pembangunan antarmuka komputer yang optimal menggunakan linguistik komputer ketika melakukan penelitian linguistik.

1. Tempat dan peran linguistik komputasi dalam penelitian linguistik

Di dunia modern, linguistik komputasional semakin banyak digunakan dalam melakukan berbagai penelitian linguistik.

Linguistik komputasional adalah bidang pengetahuan yang terkait dengan pemecahan masalah pemrosesan otomatis informasi yang disajikan dalam bahasa alami. Masalah ilmiah utama linguistik komputer adalah masalah pemodelan proses pemahaman makna teks (transisi dari teks ke representasi makna yang diformalkan) dan masalah sintesis ucapan (transisi dari representasi makna yang diformalkan ke teks dalam bentuk alami). bahasa). Masalah-masalah ini muncul ketika menyelesaikan sejumlah masalah terapan dan, khususnya, masalah deteksi otomatis dan koreksi kesalahan saat memasukkan teks ke komputer, analisis otomatis dan sintesis ucapan lisan, terjemahan otomatis teks dari satu bahasa ke bahasa lain, komunikasi dengan komputer dalam bahasa alami, klasifikasi otomatis dan pengindeksan dokumen teks, abstraksi otomatisnya, pencarian dokumen dalam database teks lengkap.

Alat linguistik yang dibuat dan digunakan dalam linguistik komputasi dapat dibagi menjadi dua bagian: deklaratif dan prosedural. Bagian deklaratif meliputi kamus satuan bahasa dan tuturan, teks dan berbagai macam tabel tata bahasa, bagian prosedural meliputi sarana manipulasi satuan bahasa dan tuturan, teks dan tabel tata bahasa. Antarmuka komputer mengacu pada bagian prosedural linguistik komputasi.

Keberhasilan dalam memecahkan masalah terapan linguistik komputer terutama bergantung pada kelengkapan dan keakuratan representasi sarana deklaratif dalam memori komputer dan kualitas sarana prosedural. Sampai saat ini, tingkat penyelesaian masalah-masalah ini yang diperlukan belum tercapai, meskipun pekerjaan di bidang linguistik komputasi sedang dilakukan di semua negara maju di dunia (Rusia, Amerika Serikat, Inggris, Prancis, Jerman, Jepang, dll. ).

Namun demikian, pencapaian ilmiah dan praktis yang serius di bidang linguistik komputasi dapat dicatat. Jadi, di sejumlah negara (Rusia, AS, Jepang, dll.) sistem eksperimental dan industri untuk terjemahan mesin teks dari satu bahasa ke bahasa lain telah dibangun, sejumlah sistem eksperimental untuk berkomunikasi dengan komputer dalam bahasa alami telah dibangun. , pekerjaan sedang dilakukan untuk membuat bank data terminologis, tesaurus, kamus mesin bilingual dan multibahasa (Rusia, AS, Jerman, Prancis, dll.), sistem untuk analisis otomatis dan sintesis ucapan lisan sedang dibangun (Rusia, AS, Jepang, dll. .), penelitian sedang dilakukan di bidang konstruksi model bahasa alami.

Masalah metodologis penting dari linguistik komputasi terapan adalah penilaian yang benar tentang hubungan yang diperlukan antara komponen deklaratif dan prosedural dari sistem pemrosesan informasi teks otomatis. Mana yang lebih disukai: prosedur komputasi yang kuat berdasarkan sistem kosa kata yang relatif kecil dengan informasi tata bahasa dan semantik yang kaya, atau komponen deklaratif yang kuat dengan antarmuka komputer yang relatif sederhana? Kebanyakan ilmuwan percaya bahwa cara kedua lebih disukai. Hal ini akan mempercepat pencapaian tujuan praktis, karena akan lebih sedikit jalan buntu dan hambatan yang sulit diatasi, dan di sini dimungkinkan untuk menggunakan komputer dalam skala yang lebih luas untuk mengotomatisasi penelitian dan pengembangan.

Kebutuhan untuk memobilisasi upaya, pertama-tama, pada pengembangan komponen deklaratif dari sistem pemrosesan informasi teks otomatis dikonfirmasi oleh pengalaman setengah abad dalam pengembangan linguistik komputer. Memang, di sini, terlepas dari keberhasilan ilmu pengetahuan ini yang tidak dapat disangkal, ketertarikan terhadap prosedur algoritmik belum membawa kesuksesan yang diharapkan. Bahkan ada beberapa kekecewaan terhadap kemampuan sarana prosedural.

Mengingat hal di atas, tampaknya menjanjikan untuk mengembangkan jalur pengembangan linguistik komputer, ketika upaya utama akan ditujukan untuk menciptakan kamus bahasa dan unit bicara yang kuat, mempelajari struktur semantik-sintaksisnya dan menciptakan prosedur dasar untuk morfologi, analisis semantik-sintaksis dan konseptual serta sintesis teks. Hal ini akan memungkinkan kita untuk memecahkan berbagai masalah terapan di masa depan.

Linguistik komputer, pertama-tama, menghadapi tugas dukungan linguistik untuk proses pengumpulan, akumulasi, pemrosesan, dan pengambilan informasi. Yang paling penting di antaranya adalah:

1. Otomatisasi kompilasi dan pemrosesan linguistik kamus mesin;

2. Otomatisasi proses pendeteksian dan koreksi kesalahan saat memasukkan teks ke dalam komputer;

3. Pengindeksan otomatis dokumen dan permintaan informasi;

4. Klasifikasi otomatis dan abstraksi dokumen;

5. Dukungan linguistik untuk proses pencarian informasi dalam database monolingual dan multibahasa;

6. Terjemahan mesin teks dari satu bahasa alami ke bahasa lain;

7. Konstruksi pemroses linguistik yang memastikan komunikasi pengguna dengan sistem informasi cerdas otomatis (khususnya, sistem pakar) dalam bahasa alami, atau dalam bahasa yang mendekati bahasa alami;

8. Menggali informasi faktual dari teks informal.

Mari kita membahas secara rinci masalah-masalah yang paling relevan dengan topik penelitian.

Dalam kegiatan praktis pusat informasi, terdapat kebutuhan untuk memecahkan masalah deteksi otomatis dan koreksi kesalahan dalam teks ketika dimasukkan ke dalam komputer. Tugas kompleks ini secara kondisional dapat dibagi menjadi tiga tugas - tugas kontrol ortografis, sintaksis, dan semantik teks. Yang pertama dapat diselesaikan dengan menggunakan prosedur analisis morfologi yang menggunakan mesin referensi kamus kata dasar yang cukup kuat. Dalam proses pengendalian ejaan, kata-kata dalam teks harus dianalisis secara morfologis, dan jika dasarnya diidentifikasi dengan dasar kamus referensi, maka kata-kata tersebut dianggap benar; jika tidak teridentifikasi, maka disertai dengan konteks mikro, disajikan kepada seseorang untuk dilihat. Seseorang mendeteksi dan mengoreksi kata-kata yang menyimpang, dan sistem perangkat lunak terkait melakukan koreksi ini ke dalam teks yang dikoreksi.

Tugas pengendalian sintaksis teks untuk mendeteksi kesalahan di dalamnya jauh lebih sulit daripada tugas pengendalian ejaan. Pertama, karena memasukkan tugas pengendalian ejaan sebagai komponen wajibnya, dan kedua, karena masalah analisis sintaksis teks informal belum sepenuhnya terselesaikan. Namun, kontrol sintaksis parsial atas teks sangat mungkin dilakukan. Di sini Anda dapat melakukannya dengan dua cara: menyusun kamus mesin yang cukup representatif dari struktur sintaksis referensi dan membandingkan struktur sintaksis teks yang dianalisis dengannya; atau mengembangkan sistem aturan yang kompleks untuk memeriksa konsistensi tata bahasa elemen teks. Jalur pertama tampaknya lebih menjanjikan bagi kami, meskipun tentu saja tidak menutup kemungkinan untuk menggunakan elemen jalur kedua. Struktur sintaksis teks harus digambarkan dalam kelas gramatikal kata (lebih tepatnya, dalam bentuk rangkaian informasi gramatikal kata).

Tugas pengendalian semantik teks untuk mendeteksi kesalahan semantik di dalamnya harus diklasifikasikan sebagai kelas tugas kecerdasan buatan. Hal ini dapat diselesaikan secara penuh hanya berdasarkan pemodelan proses berpikir manusia. Dalam hal ini, tampaknya perlu untuk menciptakan basis pengetahuan ensiklopedis yang kuat dan perangkat lunak untuk manipulasi pengetahuan. Namun demikian, untuk bidang studi yang terbatas dan untuk informasi yang diformalkan, tugas ini dapat diselesaikan sepenuhnya. Ini harus diajukan dan diselesaikan sebagai masalah kontrol semantik-sintaksis teks.

Masalah otomatisasi pengindeksan dokumen dan kueri merupakan masalah tradisional untuk sistem pengambilan informasi teks otomatis. Pada awalnya, pengindeksan dipahami sebagai proses menetapkan indeks klasifikasi ke dokumen dan kueri yang mencerminkan konten tematiknya. Selanjutnya, konsep ini diubah dan istilah “pengindeksan” mulai merujuk pada proses menerjemahkan deskripsi dokumen dan pertanyaan dari bahasa alami ke dalam bahasa formal, khususnya ke dalam bahasa “pencarian gambar”. Gambar pencarian dokumen biasanya mulai dibuat dalam bentuk daftar kata kunci dan frasa yang mencerminkan konten tematiknya, dan gambar pencarian kueri - dalam bentuk struktur logis di mana kata kunci dan frasa dihubungkan satu sama lain. oleh operator logika dan sintaksis.

Lebih mudah untuk mengindeks dokumen secara otomatis berdasarkan teks abstraknya (jika ada), karena abstrak mencerminkan konten utama dokumen dalam bentuk terkonsentrasi. Pengindeksan dapat dilakukan dengan atau tanpa kendali tesaurus. Dalam kasus pertama, dalam teks judul dokumen dan abstraknya, kata kunci dan frasa dari kamus mesin referensi dicari dan hanya yang ditemukan dalam kamus yang dimasukkan ke dalam AML. Dalam kasus kedua, kata dan frasa kunci diisolasi dari teks dan dimasukkan ke dalam POD, terlepas dari milik kamus referensi mana pun. Opsi ketiga juga diterapkan, di mana, bersama dengan istilah-istilah dari tesaurus mesin, AML juga menyertakan istilah-istilah yang diambil dari judul dan kalimat pertama abstrak dokumen. Eksperimen menunjukkan bahwa POD yang dikompilasi secara otomatis menggunakan judul dan abstrak dokumen memberikan kelengkapan pencarian yang lebih baik daripada POD yang dikompilasi secara manual. Hal ini disebabkan sistem pengindeksan otomatis lebih mencerminkan berbagai aspek isi dokumen dibandingkan sistem pengindeksan manual.

Saat mengindeks kueri secara otomatis, masalah yang kira-kira sama muncul seperti saat mengindeks dokumen secara otomatis. Di sini Anda juga harus mengekstrak kata kunci dan frasa dari teks dan menormalkan kata-kata yang termasuk dalam teks kueri. Koneksi logis antara kata kunci dan frasa serta operator kontekstual dapat dimasukkan secara manual atau menggunakan prosedur otomatis. Elemen penting dari proses pengindeksan otomatis suatu kueri adalah penambahan kata kunci dan frasa penyusunnya dengan sinonim dan hiponimnya (terkadang juga hiperonim dan istilah lain yang terkait dengan istilah kueri asli). Hal ini dapat dilakukan secara otomatis atau interaktif menggunakan mesin tesaurus.

Kami telah mempertimbangkan sebagian masalah otomatisasi pencarian informasi dokumenter sehubungan dengan tugas pengindeksan otomatis. Hal yang paling menjanjikan di sini adalah pencarian dokumen menggunakan teks lengkapnya, karena penggunaan segala macam pengganti untuk tujuan ini (deskripsi bibliografi, gambar pencarian dokumen dan teks abstraknya) menyebabkan hilangnya informasi selama pencarian. Kerugian terbesar terjadi ketika deskripsi bibliografi digunakan sebagai pengganti dokumen primer, dan kerugian terkecil terjadi ketika abstrak digunakan.

Karakteristik penting dari kualitas pencarian informasi adalah kelengkapan dan keakuratannya. Kelengkapan pencarian dapat dipastikan dengan mempertimbangkan secara maksimal hubungan paradigmatik antara satuan bahasa dan ucapan (kata dan frasa), dan keakuratan - dengan memperhatikan hubungan sintagmatiknya. Ada pendapat bahwa kelengkapan dan keakuratan pencarian berbanding terbalik: tindakan untuk meningkatkan salah satu karakteristik ini akan memperburuk karakteristik lainnya. Namun ini hanya berlaku untuk logika pencarian tetap. Jika logika ini diperbaiki, maka kedua karakteristik tersebut dapat ditingkatkan secara bersamaan.

Disarankan untuk membangun proses pencarian informasi dalam database teks lengkap sebagai proses komunikasi interaktif antara pengguna dan sistem pencarian informasi (IRS), di mana ia secara berurutan melihat fragmen teks (paragraf) yang memenuhi kondisi logis dari permintaannya, dan memilih hal-hal yang relevan baginya. Baik teks lengkap dokumen maupun bagiannya dapat dikembalikan sebagai hasil pencarian akhir.

Terlihat dari pembahasan sebelumnya, dalam pencarian informasi secara otomatis, hambatan bahasa yang muncul antara pengguna dan sistem informasi perlu diatasi karena beragamnya bentuk representasi makna yang sama yang terdapat dalam teks. Hambatan ini menjadi lebih signifikan jika pencarian harus dilakukan dalam database multibahasa. Solusi radikal untuk masalah ini adalah terjemahan mesin teks dokumen dari satu bahasa ke bahasa lain. Hal ini dapat dilakukan terlebih dahulu, sebelum memuat dokumen ke mesin pencari, atau selama proses pencarian informasi. Dalam kasus terakhir, permintaan pengguna harus diterjemahkan ke dalam bahasa susunan dokumen tempat pencarian dilakukan, dan hasil pencarian harus diterjemahkan ke dalam bahasa permintaan. Mesin pencari semacam ini sudah beroperasi di Internet. VINITI RAS juga membangun sistem Browser Sirilik, yang memungkinkan Anda mencari informasi dalam teks berbahasa Rusia menggunakan kueri dalam bahasa Inggris dengan hasil pencarian juga dalam bahasa pengguna.

Tugas linguistik komputer yang penting dan menjanjikan adalah pembangunan prosesor linguistik yang memastikan komunikasi pengguna dengan sistem informasi otomatis yang cerdas (khususnya, sistem pakar) dalam bahasa alami atau dalam bahasa yang mendekati bahasa alami. Karena dalam sistem cerdas modern, informasi disimpan dalam bentuk formal, pemroses linguistik, yang bertindak sebagai perantara antara manusia dan komputer, harus menyelesaikan tugas-tugas utama berikut: 1) tugas transisi dari teks permintaan informasi masukan dan pesan ke alam bahasa untuk merepresentasikan maknanya dalam bahasa formal (saat memasukkan informasi ke dalam komputer); 2) tugas transisi dari representasi formal dari makna pesan keluaran ke representasinya dalam bahasa alami (saat mengeluarkan informasi kepada seseorang). Tugas pertama harus diselesaikan dengan analisis morfologis, sintaksis dan konseptual dari permintaan dan pesan masukan, yang kedua - dengan sintesis konseptual, sintaksis dan morfologis dari pesan keluaran.

Analisis konseptual permintaan informasi dan pesan terdiri dari mengidentifikasi struktur konseptualnya (batas nama konsep dan hubungan antar konsep dalam teks) dan menerjemahkan struktur ini ke dalam bahasa formal. Ini dilakukan setelah analisis morfologis dan sintaksis permintaan dan pesan. Sintesis konseptual pesan terdiri dari transisi dari representasi unsur-unsur strukturnya dalam bahasa formal ke representasi verbal (verbal). Setelah itu, pesan-pesan tersebut diberi format sintaksis dan morfologis yang diperlukan.

Untuk penerjemahan mesin teks dari satu bahasa alami ke bahasa lain, diperlukan kamus terjemahan yang sesuai antara nama-nama konsep. Pengetahuan tentang korespondensi terjemahan semacam itu dikumpulkan oleh banyak generasi orang dan disusun dalam bentuk publikasi khusus - kamus bilingual atau multibahasa. Bagi para spesialis yang memiliki pengetahuan tentang bahasa asing, kamus-kamus ini berfungsi sebagai bantuan berharga dalam menerjemahkan teks.

Dalam kamus tujuan umum bilingual dan multibahasa tradisional, padanan terjemahan ditunjukkan terutama untuk kata-kata individual, dan untuk frasa - lebih jarang. Indikasi padanan terjemahan untuk frasa lebih khas untuk kamus terminologi khusus. Oleh karena itu, ketika menerjemahkan bagian teks yang mengandung kata polisemantik, siswa sering kali mengalami kesulitan.

Di bawah ini adalah korespondensi terjemahan antara beberapa pasang frasa bahasa Inggris dan Rusia tentang topik “sekolah”.

1) Kelelawar terlihat seperti tikus bersayap – Kelelawar terlihat seperti tikus bersayap.

2) Anak-anak suka bermain pasir di tepi pantai - Anak-anak suka bermain pasir di tepi pantai.

3) Setetes hujan jatuh di tanganku - Setetes hujan jatuh di tanganku.

4) Kayu kering mudah terbakar - kayu kering mudah terbakar.

5) Dia pura-pura tidak mendengarku - Dia pura-pura tidak mendengarku.

Di sini frasa bahasa Inggris bukanlah ekspresi idiomatik. Namun, terjemahannya ke dalam bahasa Rusia hanya dapat dianggap sebagai terjemahan kata demi kata yang sederhana, karena hampir semua kata yang terkandung di dalamnya bersifat ambigu. Oleh karena itu, hanya prestasi linguistik komputer yang dapat membantu siswa di sini.