Terjemahan mesin. Volume dan penghematan

Pembicara: Irina Rybnikova dan Anastasia Ponomareva.

Kami akan memberi tahu Anda tentang sejarah terjemahan mesin dan cara kami menggunakannya di Yandex.

Pada abad ke-17, para ilmuwan berspekulasi tentang keberadaan beberapa jenis bahasa yang menghubungkan bahasa lain, dan ini mungkin sudah terlalu lama terjadi. Mari kita lihat lebih dekat. Kita semua ingin memahami orang-orang di sekitar kita - ke mana pun kita pergi - kita ingin melihat apa yang tertulis di papan, kita ingin membaca pengumuman, informasi tentang konser. Gagasan tentang ikan Babel menghantui pikiran para ilmuwan dan ditemukan dalam literatur, bioskop, dan di mana pun. Kami ingin mengurangi waktu yang kami perlukan untuk mengakses informasi. Kami ingin membaca artikel tentang teknologi Tiongkok, memahami situs apa pun yang kami lihat, dan kami ingin menerimanya di sini dan saat ini.

Dalam konteks ini, tidak mungkin untuk tidak membicarakan terjemahan mesin. Inilah yang membantu menyelesaikan masalah ini.

Titik awalnya dianggap tahun 1954, ketika di AS, pada mesin IBM 701, 60 kalimat tentang topik umum kimia organik diterjemahkan dari bahasa Rusia ke bahasa Inggris, dan semua ini didasarkan pada 250 istilah glosarium dan enam aturan tata bahasa. Itu disebut Eksperimen Georgetown, dan kenyataan ini sangat mengejutkan karena surat kabar penuh dengan berita utama sehingga dalam tiga hingga lima tahun ke depan, masalahnya akan terselesaikan sepenuhnya, semua orang akan bahagia. Tapi seperti yang Anda tahu, semuanya berjalan sedikit berbeda.

Terjemahan mesin berbasis aturan muncul pada tahun 1970-an. Hal ini juga didasarkan pada kamus bilingual, tetapi juga pada seperangkat aturan yang sama yang membantu mendeskripsikan bahasa apa pun. Siapapun, tapi dengan batasan.

Pakar linguistik yang serius diminta untuk menuliskan aturannya. Ini adalah pekerjaan yang cukup rumit, masih belum bisa mempertimbangkan konteksnya, sepenuhnya mencakup bahasa apa pun, namun mereka ahlinya, dan daya komputasi yang tinggi tidak diperlukan pada saat itu.

Jika kita berbicara tentang kualitas, contoh klasiknya adalah kutipan Alkitab yang kemudian diterjemahkan seperti ini. Belum cukup. Oleh karena itu, masyarakat terus berupaya meningkatkan kualitas. Pada tahun 90-an, muncul model terjemahan statistik, SMT, yang berbicara tentang distribusi probabilistik kata dan kalimat, dan sistem ini pada dasarnya berbeda karena tidak tahu apa-apa tentang aturan dan linguistik. Dia menerima masukan sejumlah besar teks identik, dipasangkan dalam satu bahasa dan bahasa lain, dan kemudian dia membuat keputusan sendiri. Perawatannya mudah, tidak memerlukan banyak ahli, tidak perlu menunggu. Anda dapat mengunduh dan mendapatkan hasilnya.

Persyaratan data yang masuk cukup rata-rata, dari 1 hingga 10 juta segmen. Segmen - kalimat, frasa kecil. Namun ada kesulitan dan konteksnya tidak diperhitungkan; semuanya tidak mudah. Dan di Rusia, misalnya, kasus seperti itu pernah muncul.

Saya juga suka dengan contoh terjemahan game GTA, hasilnya luar biasa. Semuanya tidak tinggal diam. Tonggak sejarah yang cukup penting adalah tahun 2016, ketika terjemahan mesin saraf diluncurkan. Itu adalah peristiwa penting yang mengubah kehidupan secara signifikan. Rekan saya, setelah melihat terjemahannya dan cara kami menggunakannya, berkata: “Keren, dia berbicara sesuai kata-kata saya.” Dan itu sangat bagus.

Apa saja fiturnya? Persyaratan tinggi di pintu masuk, materi pelatihan. Sulit untuk mempertahankan hal ini di dalam perusahaan, namun peningkatan kualitas yang signifikan adalah tujuan awal hal ini. Hanya terjemahan berkualitas tinggi yang akan menyelesaikan masalah yang diberikan dan membuat hidup lebih mudah bagi semua peserta dalam proses, penerjemah yang sama yang tidak ingin memperbaiki terjemahan yang buruk, mereka ingin melakukan tugas kreatif baru, dan menyerahkan frasa templat rutin kepada para peserta. mesin.

Ada dua pendekatan dalam terjemahan mesin. Penilaian ahli/analisis kebahasaan teks, yaitu pengujian oleh ahli bahasa sebenarnya, ahli kesesuaian makna, literasi bahasa. Dalam beberapa kasus, mereka menemui para ahli, mengizinkan mereka mengoreksi teks terjemahan dan menilai seberapa efektif teks terjemahan dari sudut pandang ini.

Apa saja fitur dari metode ini? Sampel terjemahan tidak diperlukan; kami melihat teks terjemahan yang sudah selesai sekarang dan mengevaluasinya secara objektif menurut aspek apa pun. Tapi itu mahal dan memakan waktu.

Ada pendekatan kedua - metrik referensi otomatis. Ada banyak sekali, masing-masing punya kelebihan dan kekurangan. Saya tidak akan membahasnya secara mendalam; Anda dapat membaca tentang kata kunci ini lebih detail nanti.

Fitur apa? Sebenarnya, ini adalah perbandingan teks mesin yang diterjemahkan dengan beberapa terjemahan standar. Ini adalah metrik kuantitatif yang menunjukkan perbedaan antara terjemahan teladan dan hasil sebenarnya. Ini cepat, murah dan dapat dilakukan dengan cukup nyaman. Namun ada beberapa kekhasan.

Faktanya, metode hybrid kini paling sering digunakan. Ini adalah ketika sesuatu pada awalnya dievaluasi secara otomatis, kemudian matriks kesalahan dianalisis, dan kemudian analisis ahli linguistik dilakukan pada kumpulan teks yang lebih kecil.

Baru-baru ini, masih menjadi praktik umum ketika kami tidak mengundang ahli bahasa, tetapi sekadar pengguna. Antarmuka sedang dibuat - tunjukkan terjemahan mana yang paling Anda sukai. Atau ketika Anda pergi ke penerjemah online, Anda memasukkan teks, dan Anda sering kali dapat memilih mana yang lebih Anda sukai, apakah pendekatan ini cocok atau tidak. Faktanya, saat ini kami semua sedang melatih mesin-mesin ini, dan segala sesuatu yang kami berikan kepada mereka untuk diterjemahkan, mereka gunakan untuk melatih dan meningkatkan kualitasnya.

Saya ingin memberi tahu Anda bagaimana kami menggunakan terjemahan mesin dalam pekerjaan kami. Saya memberikan lantai kepada Anastasia.

Kami di Yandex di departemen pelokalan segera menyadari bahwa teknologi terjemahan mesin memiliki potensi besar, dan memutuskan untuk mencoba menggunakannya dalam tugas sehari-hari. Di mana kita memulai? Kami memutuskan untuk melakukan percobaan kecil. Kami memutuskan untuk menerjemahkan teks yang sama melalui penerjemah jaringan saraf biasa, dan juga merakit mesin penerjemah terlatih. Untuk melakukan hal ini, kami telah menyiapkan kumpulan teks dalam pasangan Rusia-Inggris selama bertahun-tahun kami di Yandex telah melokalkan teks ke dalam bahasa-bahasa ini. Selanjutnya, kami datang dengan kumpulan teks ini ke rekan kami dari Yandex.Translator dan meminta kami untuk melatih mesinnya.

Saat mesinnya dilatih, kami menerjemahkan kumpulan teks berikutnya, dan, seperti yang dikatakan Irina, dengan bantuan para ahli kami mengevaluasi hasilnya. Kami meminta para penerjemah untuk melihat literasi, gaya, ejaan, dan penyampaian makna. Namun titik baliknya adalah ketika salah satu penerjemah mengatakan bahwa “Saya mengenali gaya saya, saya mengenali terjemahan saya.”

Untuk memperkuat perasaan ini, kami memutuskan untuk menghitung indikator statistik. Pertama, kami menghitung koefisien BLEU untuk transfer yang dilakukan melalui mesin jaringan saraf biasa dan mendapatkan angka berikut (0,34). Tampaknya hal itu perlu dibandingkan dengan sesuatu. Kami kembali menemui rekan-rekan kami dari Yandex.Translator dan meminta mereka menjelaskan berapa koefisien BLEU yang dianggap sebagai ambang batas untuk terjemahan yang dilakukan oleh orang sungguhan. Ini dari 0,6.

Kemudian kami memutuskan untuk memeriksa hasil terjemahan terlatih. Kami mendapat 0,5. Hasilnya sungguh menggembirakan.

Izinkan saya memberi Anda sebuah contoh. Ini adalah frasa asli Rusia dari dokumentasi Direct. Kemudian diterjemahkan melalui mesin jaringan saraf biasa, dan kemudian melalui mesin jaringan saraf terlatih menggunakan teks kita. Sudah di baris pertama kita melihat bahwa jenis iklan tradisional untuk Direct tidak dikenali. Dan sudah di mesin jaringan saraf terlatih, terjemahan kami muncul, dan bahkan singkatannya hampir benar.

Kami sangat terdorong oleh hasil yang diperoleh, dan memutuskan bahwa mungkin ada baiknya menggunakan mesin mesin pada pasangan lain, pada teks lain, dan tidak hanya pada kumpulan dokumentasi teknis dasar itu. Kemudian serangkaian percobaan dilakukan selama beberapa bulan. Kami menemui banyak fitur dan masalah, ini adalah masalah paling umum yang harus kami selesaikan.

Saya akan memberi tahu Anda lebih banyak tentang masing-masingnya.

Jika Anda, seperti kami, akan membuat mesin khusus, Anda memerlukan data paralel berkualitas tinggi dalam jumlah yang cukup besar. Sebuah mesin besar dapat dilatih dengan jumlah 10 ribu kalimat; dalam kasus kami, kami menyiapkan 135 ribu kalimat paralel.

Mesin Anda tidak akan menunjukkan hasil yang sama baiknya pada semua jenis teks. Dalam dokumentasi teknis yang memiliki kalimat panjang, struktur, dokumentasi pengguna, dan bahkan dalam antarmuka yang memiliki tombol pendek namun tidak ambigu, kemungkinan besar Anda akan melakukannya dengan baik. Namun mungkin, seperti kami, Anda akan menemui masalah dalam pemasaran.

Kami melakukan percobaan menerjemahkan playlist musik dan mendapatkan contoh ini.

Inilah yang dipikirkan penerjemah mesin tentang pekerja pabrik bintang. Bahwa mereka adalah pekerja kejutan tenaga kerja.

Saat menerjemahkan melalui mesin mesin, konteksnya tidak diperhitungkan. Ini bukan contoh yang lucu, tapi contoh yang sangat nyata, dari dokumentasi teknis Direct. Tampaknya sudah jelas, ketika Anda membaca dokumentasi teknis, itu bersifat teknis. Tapi tidak, mesin mesinnya tidak kena.

Anda juga harus memperhitungkan bahwa kualitas dan makna terjemahan akan sangat bergantung pada bahasa aslinya. Kami menerjemahkan frasa tersebut ke dalam bahasa Prancis dari bahasa Rusia dan mendapatkan hasil yang sama. Kami mendapatkan frasa serupa dengan arti yang sama, tetapi dari bahasa Inggris, dan kami mendapatkan hasil yang berbeda.

Jika, seperti dalam teks kami, Anda memiliki banyak tag, markup, dan beberapa fitur teknis, kemungkinan besar Anda harus melacaknya, mengeditnya, dan menulis beberapa skrip.

Berikut adalah contoh frase nyata dari browser. Dalam tanda kurung terdapat informasi teknis yang tidak boleh diterjemahkan, khususnya dalam bentuk jamak. Dalam bahasa Inggris, kata-kata itu dalam bahasa Inggris, dan dalam bahasa Jerman, kata-kata itu juga harus tetap dalam bahasa Inggris, tetapi sudah diterjemahkan. Anda harus memantau poin-poin ini.

Mesin mesin tidak mengetahui apa pun tentang fitur penamaan Anda. Misalnya, kami memiliki perjanjian yang kami sebut Yandex.Disk di mana pun dalam alfabet Latin dalam semua bahasa. Namun dalam bahasa Prancis berubah menjadi disk dalam bahasa Prancis.

Singkatan terkadang dikenali dengan benar, terkadang tidak. Dalam contoh ini, BY, yang menunjukkan bahwa ia termasuk dalam persyaratan teknis Belarusia untuk periklanan, berubah menjadi preposisi dalam bahasa Inggris.

Salah satu contoh favorit saya adalah kata-kata baru dan pinjaman. Ini contoh kerennya, kata penafian, “aslinya Rusia.” Terminologi harus diverifikasi untuk setiap bagian teks.

Dan satu lagi, masalah yang tidak terlalu signifikan adalah ejaan yang ketinggalan jaman.

Dulunya Internet merupakan hal baru, semua teks ditulis dengan huruf kapital, dan ketika kami melatih mesin kami, Internet ditulis dengan huruf kapital di mana-mana. Sekarang era baru, kita sudah menulis Internet dengan surat kecil. Jika Anda ingin mesin Anda terus menulis Internet dengan huruf kecil, Anda harus melatihnya kembali.

Kami tidak putus asa, kami memecahkan masalah ini. Pertama, kami mengubah corpora teks dan mencoba menerjemahkan topik lain. Kami menyampaikan komentar kami kepada rekan-rekan kami dari Yandex.Translator, melatih kembali jaringan saraf dan melihat hasilnya, mengevaluasinya, dan meminta perbaikan. Misalnya, pengenalan tag, pemrosesan markup HTML.

Saya akan menunjukkan kepada Anda kasus penggunaan nyata. Kami ahli dalam terjemahan mesin untuk dokumentasi teknis. Ini adalah kasus nyata.

Berikut frasa dalam bahasa Inggris dan Rusia. Penerjemah yang menangani dokumentasi ini sangat terdorong oleh pilihan terminologi yang tepat. Contoh lain.

Penerjemah menghargai pilihan ini alih-alih tanda hubung, bahwa struktur frasa telah berubah ke bahasa Inggris, pilihan istilah yang memadai, yang benar, dan kata Anda, yang tidak dalam aslinya, tetapi membuat ini terjemahannya persis bahasa Inggris, natural.

Kasus lainnya adalah terjemahan antarmuka on-the-fly. Salah satu layanan memutuskan untuk tidak repot dengan pelokalan dan menerjemahkan teks langsung saat memuat. Namun setelah mengganti mesin, sekitar sebulan sekali kata “pengiriman” berubah melingkar. Kami menyarankan agar tim menghubungkan bukan mesin jaringan saraf biasa, tetapi milik kami, yang dilatih dalam dokumentasi teknis, sehingga istilah yang sama, yang disepakati dengan tim, yang sudah ada dalam dokumentasi, selalu digunakan.

Bagaimana pengaruh semua ini terhadap momen moneter? Secara historis, pasangan bahasa Rusia-Ukraina memerlukan sedikit pengeditan pada terjemahan bahasa Ukraina. Oleh karena itu, beberapa bulan yang lalu kami memutuskan untuk beralih ke sistem pasca-editing. Beginilah tabungan kami bertambah. September belum berakhir, namun kami memperkirakan bahwa kami telah mengurangi biaya pasca-pengeditan di Ukraina sekitar sepertiga, dan kami akan terus mengedit hampir semuanya kecuali teks pemasaran. Sepatah kata dari Irina sebagai kesimpulannya.

Irina:
- Menjadi jelas bagi semua orang bahwa kita perlu memanfaatkan ini, ini sudah menjadi kenyataan kita, dan kita tidak bisa mengecualikannya dari proses dan kepentingan kita. Namun ada beberapa hal yang perlu dipikirkan.

Tentukan jenis dokumen dan konteks yang Anda kerjakan. Apakah teknologi ini tepat khusus untuk Anda?

Poin kedua. Kami berbicara tentang Yandex.Translator, karena hubungan kami baik, kami memiliki akses langsung ke pengembang, dan sebagainya, tetapi sebenarnya Anda perlu memutuskan mesin mana yang paling optimal untuk Anda, khususnya, untuk bahasa Anda, materi pelajaran Anda. Laporan berikutnya akan dikhususkan untuk topik ini. Bersiaplah bahwa masih ada kesulitan, pengembang mesin semua bekerja sama untuk menyelesaikan kesulitan tersebut, namun untuk saat ini masih ditemui.

Saya ingin memahami apa yang menanti kita di masa depan. Namun nyatanya ini bukan lagi masa depan, melainkan masa kini, apa yang terjadi di sini dan saat ini. Kita semua memerlukan penyesuaian agar sesuai dengan terminologi kita, teks kita, dan inilah yang kini menjadi publik. Sekarang semua orang bekerja untuk memastikan bahwa Anda tidak masuk ke dalam perusahaan dan bernegosiasi dengan pengembang mesin tertentu tentang cara mengoptimalkannya untuk Anda. Anda bisa mendapatkannya di mesin terbuka publik melalui API.

Kustomisasi terjadi tidak hanya dalam teks, tetapi juga dalam terminologi, dalam menyesuaikan terminologi agar sesuai dengan kebutuhan Anda. Ini merupakan poin yang cukup penting. Topik kedua adalah terjemahan interaktif. Ketika seorang penerjemah menerjemahkan sebuah teks, teknologi tersebut memungkinkannya untuk memprediksi kata selanjutnya berdasarkan bahasa sumber, teks sumber. Ini dapat membuat pekerjaan Anda lebih mudah.

Tentang apa yang sekarang sangat mahal. Semua orang memikirkan cara melatih beberapa mesin dengan lebih efektif menggunakan jumlah teks yang lebih sedikit. Ini adalah sesuatu yang terjadi di mana-mana dan dipicu di mana-mana. Menurut saya topiknya sangat menarik, dan akan menjadi lebih menarik lagi di masa depan.

Kuliah No. 8 Topik: Tujuan sistem terjemahan mesin.

Tujuan terjemahan mesin

Terjemahan mesin (MT), atau terjemahan otomatis (AT), adalah bidang penelitian ilmiah, pengembangan eksperimental, dan sistem yang sudah berfungsi (SMT) yang berkembang secara intensif, di mana komputer terlibat dalam proses penerjemahan dari satu bahasa alami ( NL) ke yang lain. SMP menyediakan akses cepat dan sistematis terhadap informasi dalam bahasa asing, memastikan efisiensi dan keseragaman dalam penerjemahan sejumlah besar teks, terutama teks ilmiah dan teknis. EMS yang beroperasi pada skala industri bergantung pada bank data terminologis yang besar dan, biasanya, memerlukan keterlibatan seseorang sebagai pra, antar, atau pasca editor. SMP modern, terutama yang mengandalkan basis pengetahuan dalam bidang studi tertentu ketika diterjemahkan, diklasifikasikan sebagai sistem kecerdasan buatan (AI).

Area utama penggunaan MC

1. Dalam industri layanan informasi dengan adanya sejumlah besar atau aliran sumber bahasa asing yang konstan. Jika SMP digunakan untuk memberikan informasi sinyal, pasca-editing tidak diperlukan.

2. Dalam organisasi-organisasi internasional besar yang menangani dokumen-dokumen politema multibahasa. Ini adalah ketentuan kerja di Komisi Komunitas Eropa di Brussels, di mana semua dokumentasi harus muncul secara bersamaan dalam sembilan bahasa kerja. Karena persyaratan terjemahan di sini tinggi, MP memerlukan pasca-editing.

3. Pada jasa penerjemahan dokumentasi teknis yang menyertai produk ekspor. Penerjemah tidak dapat menangani dokumentasi ekstensif dalam jangka waktu yang ditentukan (misalnya, spesifikasi untuk pesawat terbang dan objek kompleks lainnya dapat memakan waktu hingga 10.000 halaman atau lebih). Struktur dan bahasa dokumentasi teknis cukup standar, sehingga memudahkan penerjemahan dan bahkan lebih disukai daripada terjemahan manual, karena menjamin gaya yang seragam.
seluruh susunan. Karena terjemahan spesifikasi harus lengkap dan akurat, produk MP memerlukan pasca-editing.

4. Untuk terjemahan simultan atau hampir bersamaan dari beberapa aliran pesan serupa yang konstan. Inilah alur laporan cuaca di Kanada yang harus muncul secara bersamaan dalam bahasa Inggris dan Perancis.

Selain kebutuhan praktis dunia bisnis akan MT, terdapat juga insentif ilmiah murni untuk pengembangan MT: sistem MT eksperimental yang beroperasi secara stabil adalah bidang eksperimental untuk menguji berbagai aspek teori umum pemahaman, komunikasi ucapan, transformasi informasi. , serta untuk menciptakan model MT itu sendiri yang baru dan lebih efektif.

Menurut skala dan tingkat perkembangannya, SMP dapat dibagi menjadi tiga kelas utama: industri, berkembang dan eksperimental.

Dukungan linguistik untuk sistem terjemahan mesin

Proses MT adalah rangkaian transformasi yang diterapkan pada teks masukan dan transformasinya menjadi teks dalam bahasa keluaran, yang harus menciptakan kembali makna dan, biasanya, struktur teks sumber secara maksimal, tetapi menggunakan bahasa keluaran. Dukungan linguistik SMP mencakup seluruh kompleks pengetahuan linguistik, metalinguistik, dan apa yang disebut “ekstralinguistik” yang digunakan dalam transformasi tersebut.

Dalam SMT klasik, yang melakukan penerjemahan tidak langsung dari setiap kalimat (penerjemahan frasa demi frasa), setiap kalimat melalui serangkaian transformasi yang terdiri dari tiga bagian (tahapan): analisis -> transfer (operasi antarbahasa) -> sintesis. Pada gilirannya, masing-masing tahapan ini mewakili sistem transformasi perantara yang agak rumit.

Tujuan tahap analisis adalah membangun deskripsi struktural (representasi antara, representasi internal) dari kalimat masukan, | Tugas tahap transfer (penerjemahan itu sendiri) adalah mengubah struktur kalimat masukan menjadi struktur internal kalimat keluaran. Tahap ini juga mencakup penggantian leksem bahasa masukan dengan padanan terjemahannya (transformasi leksikal antarbahasa). Tujuan tahap sintesis adalah menyusun kalimat bahasa sasaran yang benar berdasarkan struktur yang diperoleh dari hasil analisis.

Dukungan linguistik untuk SMP modern standar meliputi:

1) kamus;

2) tata bahasa;

3) representasi perantara yang diformalkan dari unit analisis pada berbagai tahap transformasi.

Selain yang standar, beberapa SMP mungkin juga memiliki beberapa komponen non-standar. Dengan demikian, pengetahuan ahli tentang perangkat lunak dapat dikonkretkan menggunakan jaringan konseptual khusus, dan bukan dalam bentuk kamus dan tata bahasa.

Mekanisme (algoritma, prosedur) untuk beroperasi dengan kamus, tata bahasa, dan representasi struktural yang ada diklasifikasikan sebagai dukungan matematis dan algoritmik untuk SMP.

Salah satu persyaratan yang diperlukan untuk SMP modern adalah modularitas yang tinggi. Dari sudut pandang substantif linguistik, ini berarti bahwa analisis dan proses-proses yang mengikutinya dibangun dengan mempertimbangkan teori tingkatan linguistik. Dalam praktek pembuatan SMP dibedakan tingkatan analisisnya sebagai berikut:

Analisis pra-sintaksis (termasuk analisis morfologi - MorphAn, analisis frasa, elemen teks yang tidak teridentifikasi, dll.);

Analisis sintaksis SinAn (membangun representasi sintaksis sebuah kalimat, atau SinP); dalam batas-batasnya, sejumlah sublevel dapat dibedakan yang menyediakan analisis berbagai jenis unit sintaksis;

Analisis semantik SemAn, atau analisis logis-semantik (membangun struktur pernyataan argumen-predikat atau jenis semantik lainnya
penyerahan proposal dan teks);

Analisis konseptual (analisis dalam kaitannya dengan struktur konseptual yang mencerminkan semantik perangkat lunak). Tingkat analisis ini digunakan di SMP yang menargetkan perangkat lunak yang sangat terbatas. Faktanya, struktur konseptual adalah proyeksi skema perangkat lunak ke dalam struktur linguistik, seringkali bukan semantik, tetapi sintaksis. Hanya untuk perangkat lunak yang sangat sempit dan kelas teks yang terbatas, struktur konseptualnya sesuai dengan struktur semantik; secara umum, tidak boleh ada kecocokan yang lengkap, karena teksnya lebih detail dari apapun
diagram konseptual.

Sintesis secara teoritis melewati tingkatan yang sama dengan analisis, tetapi dalam arah yang berlawanan. Dalam sistem kerja, biasanya hanya jalur dari SinP ke rangkaian kata dari kalimat keluaran yang diimplementasikan.

Diferensiasi linguistik dari berbagai tingkatan juga dapat dimanifestasikan dalam diferensiasi sarana formal yang digunakan dalam deskripsi yang sesuai (kumpulan sarana ini ditentukan untuk setiap tingkat secara terpisah). Dalam praktiknya, arti linguistik MorfAn sering kali ditentukan secara terpisah dan artian SinAn dan SemAn digabungkan. Namun perbedaan antar tingkatan hanya akan tetap bermakna jika satu formalisme digunakan dalam deskripsinya, yang cocok untuk mewakili informasi dari semua tingkatan yang berbeda.

Dari sudut pandang teknis, modularitas dukungan linguistik berarti pemisahan representasi struktural frasa dan teks (sebagai pengetahuan sementara saat ini tentang teks) dari pengetahuan “permanen” tentang bahasa, serta pengetahuan bahasa dari pengetahuan perangkat lunak. ; pemisahan kamus dari tata bahasa, tata bahasa dari algoritma pemrosesannya, algoritma dari program. Hubungan spesifik antara berbagai modul sistem (kamus-tata bahasa, tata bahasa-algoritma, algoritma-program, pengetahuan deklaratif-prosedural, dll), termasuk distribusi data linguistik antar tingkatan, merupakan hal utama yang menentukan kekhususan sistem. SMP.

Kamus. Kamus analisis biasanya bersifat monolingual. Mereka harus berisi semua informasi yang diperlukan untuk memasukkan unit leksikal (LU) tertentu dalam representasi struktural. Kamus dasar (dengan informasi morfologis-sintaksis: bagian ucapan, jenis infleksi, subkelas yang mencirikan perilaku sintaksis LE, dll.) sering dipisahkan dari kamus makna kata yang berisi informasi semantik dan konseptual: kelas semantik LE, harapan semantik (valensi), mengkondisikan implementasinya dalam sebuah frase, dll.

Dalam banyak sistem, kamus kosakata umum dan terminologis dipisahkan. Pembagian ini memungkinkan, ketika berpindah ke teks dari bidang studi lain, untuk membatasi diri hanya pada perubahan kamus terminologis. Kamus LE yang kompleks (pergantian frasa, konstruksi) biasanya membentuk susunan terpisah, informasi kamus di dalamnya menunjukkan metode "mengumpulkan" unit tersebut selama analisis. Bagian dari informasi kamus dapat ditentukan dalam bentuk prosedural, misalnya, kata-kata polisemantik dapat dikaitkan dengan algoritma untuk menyelesaikan jenis ambiguitas yang sesuai. Jenis baru pengorganisasian informasi kamus untuk tujuan MT ditawarkan oleh apa yang disebut “basis pengetahuan leksikal”. Kehadiran informasi heterogen tentang suatu kata (disebut semesta leksikal suatu kata) membawa kamus tersebut lebih dekat ke ensiklopedia daripada kamus linguistik tradisional.

Tata bahasa dan algoritma. Tata bahasa dan kosa kata menentukan model linguistik, yang membentuk sebagian besar data linguistik. Algoritma untuk pemrosesannya, 1. yaitu korelasi dengan unit teks, disebut sebagai dukungan matematis dan algoritmik dari sistem.

Pemisahan tata bahasa dan algoritme penting dalam arti praktis karena memungkinkan Anda mengubah aturan tata bahasa tanpa mengubah algoritme (dan, karenanya, program) yang bekerja dengan tata bahasa. Namun pembagian seperti itu tidak selalu memungkinkan. Jadi, untuk sistem dengan tugas prosedural tata bahasa, dan terlebih lagi dengan representasi prosedural informasi kamus, pembagian seperti itu tidak relevan. Algoritme pengambilan keputusan dalam hal informasi yang tidak mencukupi (ketidaklengkapan data masukan) atau berlebihan (variabilitas analisis) lebih bersifat empiris; perumusannya memerlukan intuisi linguistik. Menetapkan algoritme kontrol umum yang mengontrol urutan pemanggilan tata bahasa yang berbeda (jika ada beberapa tata bahasa dalam satu sistem) juga memerlukan pembenaran linguistik. Namun, tren saat ini adalah memisahkan tata bahasa dari algoritme sehingga semua informasi yang bermakna secara linguistik dispesifikasikan dalam bentuk tata bahasa yang statis, dan membuat algoritme menjadi begitu abstrak sehingga dapat memanggil dan memproses model linguistik yang berbeda.

Pemisahan tata bahasa dan algoritme yang paling jelas terlihat dalam sistem yang bekerja dengan tata bahasa bebas konteks (CFG), di mana model bahasanya adalah tata bahasa dengan jumlah status terbatas, dan algoritme harus menyediakan pohon keluarannya untuk kalimat arbitrer. sesuai dengan aturan tata bahasa, dan jika ada beberapa keluaran seperti itu, maka buatlah daftarnya. Algoritma seperti itu, yang merupakan sistem formal (dalam arti matematis), disebut penganalisis. Uraian tata bahasa berfungsi bagi penganalisis, yang mempunyai universalitas, masukan yang sama dengan kalimat yang dianalisis. Parser dibuat untuk kelas tata bahasa, meskipun dengan mempertimbangkan fitur spesifik tata bahasa dapat meningkatkan efisiensi parser.

Tata bahasa tingkat sintaksis merupakan bagian yang paling berkembang baik dari sudut pandang linguistik maupun dari sudut pandang formalisme.

Jenis utama tata bahasa dan algoritma yang mengimplementasikannya:

Tata bahasa berantai memperbaiki urutan elemen, yaitu struktur linier sebuah kalimat, menentukannya dalam kelas tata bahasa kata (artikel + kata benda + preposisi) atau dalam elemen fungsional (subjek + predikat);

Tata bahasa komponen (atau tata bahasa komponen langsung - NSG) mencatat informasi linguistik tentang pengelompokan unsur gramatikal, misalnya frasa kata benda (terdiri dari kata benda, artikel,
kata sifat dan pengubah lainnya), frase preposisi (terdiri dari preposisi dan frase kata benda), dan seterusnya sampai pada tataran kalimat. Tata bahasa dibangun sebagai seperangkat aturan substitusi, atau kalkulus produksi bentuk A-»B...C. NSG
Mereka adalah tata bahasa dari tipe generatif dan dapat digunakan baik dalam analisis maupun sintesis: kalimat suatu bahasa dihasilkan oleh penerapan berulang-ulang aturan tersebut;

Tata bahasa ketergantungan (DG) menentukan hierarki hubungan antar elemen kalimat (kata utama menentukan bentuk elemen dependen). Penganalisis di GZ didasarkan pada identifikasi tuan dan tanggungan mereka (pelayan). Hal utama dalam sebuah kalimat adalah kata kerja dalam bentuk pribadi, karena menentukan jumlah dan sifat kata benda dependen. Strategi analisis dalam hukum perdata bersifat top-down: pertama-tama majikan diidentifikasi, kemudian pelayannya, atau bottom-up: majikan ditentukan melalui proses substitusi;

Tata bahasa kategoris Bar-Hillel adalah versi tata bahasa konstituen, di mana hanya ada dua kategori - kalimat S dan nama n. Sisanya didefinisikan dalam hal kemampuan untuk menggabungkan dengan yang utama dalam struktur NS. Jadi, kata kerja transitif didefinisikan sebagai n\S karena ia digabungkan dengan dan di sebelah kiri nama untuk membentuk kalimat S.

Ada banyak cara untuk menjelaskan kondisi kontekstual: tata bahasa metamorfosis dan variannya. Semuanya merupakan perpanjangan dari aturan KS. Secara umum, ini berarti bahwa aturan produksi ditulis ulang sebagai berikut: A [a] -> B [b], ..., C [c], di mana huruf kecil menunjukkan kondisi, pengujian, instruksi, dll., memperluas aturan asli yang kaku dan memberikan fleksibilitas dan efisiensi tata bahasa.

Dalam tata bahasa komponen umum-TCS, diperkenalkan aturan meta yang merupakan generalisasi dari keteraturan aturan KS1.

Tata bahasa jaringan transisi yang diperluas-RSP memberikan pengujian dan kondisi untuk busur, serta instruksi yang harus dijalankan jika analisis mengikuti busur tertentu. Dalam berbagai modifikasi RSP, bobot dapat ditetapkan ke busur, kemudian penganalisis dapat memilih jalur dengan bobot tertinggi. Kondisi dapat dibagi menjadi dua bagian: bebas konteks dan peka konteks.

Salah satu jenis RSPG adalah RSPG kaskade. Cascade adalah RSP yang dilengkapi dengan aksi 1shshsh1. Tindakan ini menyebabkan proses dalam kaskade ini berhenti, menyimpan informasi tentang konfigurasi saat ini di tumpukan dan berpindah ke kaskade yang lebih dalam, lalu kembali ke keadaan semula. RSP memiliki sejumlah kemungkinan tata bahasa transformasional. Ini juga dapat digunakan sebagai sistem pembangkit.

Metode analisis grafik memungkinkan Anda menyimpan sebagian hasil dan menyajikan opsi analisis.

Metode deskripsi tata bahasa yang baru dan langsung populer adalah tata bahasa fungsional leksikal (LFG). Ini menghilangkan kebutuhan akan aturan transformasi. Meskipun LFG didasarkan pada CSG, kondisi pengujian di dalamnya dipisahkan dari aturan substitusi dan “diselesaikan” sebagai persamaan otonom.

Tata bahasa unifikasi (UG) mewakili tahap berikutnya dalam generalisasi model analisis setelah skema grafik: mereka mampu mewujudkan berbagai jenis tata bahasa. UG berisi empat komponen: paket unifikasi, penerjemah aturan dan deskripsi leksikal, program untuk memproses grafik berarah, dan penganalisis menggunakan diagram grafik. UG menggabungkan aturan tata bahasa dengan deskripsi kamus, valensi sintaksis dengan semantik.

Masalah utama dari setiap sistem analisis NL adalah masalah pemilihan opsi. Untuk mengatasinya, tata bahasa tingkat sintaksis dilengkapi dengan tata bahasa tambahan dan metode untuk menganalisis situasi kompleks. Tata bahasa NN menggunakan metode filter dan heuristik. Metode filternya adalah: bahwa pertama-tama mereka menerima semua opsi untuk menganalisis proposal, dan kemudian menolak opsi yang tidak memenuhi sistem kondisi filter tertentu. Sejak awal, metode heuristik hanya membangun sebagian dari pilihan yang lebih masuk akal dari sudut pandang kriteria yang diberikan. Penggunaan bobot untuk memilih opsi merupakan contoh penggunaan metode heuristik dalam analisis.

Tingkat semantik kurang didukung oleh teori dan perkembangan praktis. Tugas tradisional semantik adalah menghilangkan ambiguitas analisis sintaksis - struktural dan leksikal. Untuk tujuan ini, digunakan alat pembatasan selektif, yang diikatkan pada kerangka kalimat, yaitu disesuaikan dengan model sintaksis. Jenis SeAn yang paling umum didasarkan pada apa yang disebut tata bahasa kasus. Dasar tata bahasa adalah konsep kasus yang mendalam, atau semantik. Kerangka kasus suatu kata kerja merupakan perpanjangan dari konsep valensi: ini adalah sekumpulan hubungan semantik yang dapat (wajib atau opsional) menyertai kata kerja dan variasinya dalam teks. Dalam bahasa yang sama, kasus dalam yang sama diwujudkan dengan bentuk kasus preposisi permukaan yang berbeda. Kasus yang dalam, pada prinsipnya, memungkinkan seseorang melampaui batas kalimat, dan masuk ke dalam teks berarti berpindah ke tingkat analisis semantik.

Karena informasi semantik, berbeda dengan informasi sintaksis, yang terutama bergantung pada tata bahasa, terkonsentrasi terutama pada kamus, pada tahun 80-an tata bahasa dikembangkan secara intensif untuk “meleksikalisasi” DRG. Perkembangan tata bahasa berdasarkan kajian sifat-sifat wacana sedang berlangsung.

Selama beberapa dekade terakhir, komputer yang terhubung ke Internet telah menjadi alat penerjemah yang paling penting. Memang, berkat itu, akses ke sejumlah besar informasi disediakan, serta kamus elektronik dan penerjemah. Terjemahan mesin sudah menjadi hal yang lumrah saat ini.

Istilah “terjemahan mesin” (MT, juga dikenal sebagai Terjemahan Mesin atau MT) mengacu pada tindakan ketika satu bahasa alami diterjemahkan ke bahasa lain menggunakan perangkat lunak khusus untuk tujuan ini. Program ini dapat diinstal langsung di komputer (atau) atau hanya dapat diakses ketika terhubung ke Internet.

Sedikit sejarah

Ide menggunakan perangkat komputasi untuk penerjemahan muncul pada tahun 1947. Namun penerapan hal ini pada tahun-tahun itu mustahil dilakukan, karena teknologi komputer masih dalam tahap awal. Namun, pada tahun 1954, upaya terjemahan mesin pertama kali dilakukan. Kamus pertama hanya mencakup 250 kata, dan tata bahasanya dibatasi hingga 6 aturan. Namun, ini cukup meyakinkan kami bahwa ada masa depan yang cerah untuk terjemahan mesin. Pekerjaan ke arah ini dimulai di banyak negara, sistem terjemahan mesin (MTS) pertama mulai muncul, dan teori khusus diciptakan.

Pada awalnya perkembangan mesin penerjemah terhambat oleh rendahnya tingkat teknologi komputer dan biaya yang sangat mahal. Namun, penetrasi bertahap komputer pribadi pertama dan kemudian Internet ke dalam kehidupan kita telah menyebabkan pesatnya perkembangan industri ini. Saat ini, terjemahan mesin secara aktif digunakan di berbagai bidang aktivitas manusia.

Siapa yang membutuhkannya

Perkembangan terjemahan mesin difasilitasi oleh perluasan hubungan internasional. Orang-orang mulai lebih sering bepergian ke negara lain, dan pergi ke luar negeri untuk urusan bisnis tidak lagi menjadi sesuatu yang luar biasa, bahkan menurut standar perusahaan kecil. Dan jika demikian, maka kesulitan dalam komunikasi semakin sering muncul. Akibatnya, terjemahan mesin semakin banyak digunakan dalam bisnis saat ini. Sekalipun hasil terjemahan yang disediakan komputer jauh dari ideal, hal ini masih lebih baik daripada tidak sama sekali.

Dengan bantuan SMP, pemahaman terhadap isi teks dalam jumlah besar menjadi mungkin dengan sangat cepat, yang tidak mungkin dilakukan dengan pendekatan tradisional. Ini bisa sangat berguna, misalnya, jika Anda perlu mengklasifikasikan sejumlah besar informasi dalam bahasa asing. Atau untuk analisis linguistik.

MP juga sudah menjadi hal yang lumrah saat berkomunikasi di Internet, ketika kecepatan terjemahan yang tinggi dan pemahaman tentang apa yang dikatakan lawan bicara kepada Anda sangatlah penting. Namun, dalam hal ini Anda bisa dengan aman melupakan penyampaian gambaran sastra jika ingin dipahami dengan benar. Hanya frasa “kering”, tanpa ambiguitas.

Partisipasi manusia

Meskipun berbagai pendekatan dan solusi telah dikembangkan untuk masalah daya komputasi, kualitas terjemahan mesin masih jauh dari ideal. Meskipun keberhasilan dalam hal ini bisa disebut mengesankan, tetapi hanya jika dibandingkan dengan sistem pertama.

SMP modern telah belajar menerjemahkan teks-teks teknis secara kurang lebih memadai, yang, seperti kita ketahui, tidak mengandung kebebasan sastra yang sering ditemukan dalam teks sastra. Kualitas terjemahan sangat dipengaruhi oleh keterkaitan bahasa. Misalnya saat menerjemahkan dari ke, hasilnya akan jauh lebih baik daripada dari ke. Dalam kasus kedua, teks yang dihasilkan mungkin hanya omong kosong yang tidak dapat dibaca.

Oleh karena itu, terjemahan mesin belum dapat beroperasi tanpa campur tangan manusia. Yang awalnya mengadaptasi teks, menghilangkan semua kemungkinan ambiguitas (pra-editing), atau mengedit terjemahan yang sudah selesai, menghilangkan kesalahan yang hampir tak terhindarkan (pasca-editing). Ada juga konsep interediting, ketika seseorang melakukan intervensi langsung dalam pengoperasian sistem, mengoreksi ketidakakuratan yang muncul “dengan cepat”.

Jenis layanan darurat apa yang tersedia?

Sampai saat ini pekerjaan di bidang MP dibagi menjadi dua bidang utama:

  • Terjemahan mesin statistik (Terjemahan Mesin Statistik, SMT);
  • Terjemahan mesin berbasis aturan (Terjemahan Mesin Berbasis Aturan, RBMT).

Dalam kasus pertama, kami memiliki sistem belajar mandiri. Penerjemahan menjadi mungkin sebagai hasil analisis terus-menerus terhadap sejumlah besar teks dengan konten yang sama, tetapi dalam bahasa berbeda. Sistem menemukan dan menggunakan pola yang selalu ada. Kualitas terjemahan saat menggunakan SMT dinilai cukup tinggi. Tetapi hanya jika sistem telah mampu menganalisis sejumlah besar informasi. Dan untuk ini, Anda tidak hanya perlu memiliki pengujian itu sendiri, tetapi juga kekuatan komputasi yang mengesankan. Artinya hanya perusahaan besar yang bisa bekerja ke arah ini. Contoh sistem tersebut: Google Penerjemah, Yandex.Penerjemah, dan juga Penerjemah Bing dari Microsoft.

Dalam kasus sistem RBMT, semua aturan dibuat oleh orang-orang yang kemudian terus-menerus “menguji” aturan tersebut. Oleh karena itu, kualitas hasilnya bergantung pada seberapa lengkap para ahli bahasa mampu mendeskripsikan bahasa alami yang mereka gunakan. Kebutuhan untuk terus memperbarui basis data linguistik yang dibuat merupakan kelemahan utama sistem RBMT. Namun untuk menciptakan penerjemah yang mampu memberikan hasil yang memuaskan, tidak diperlukan daya komputasi yang mengesankan, yang memungkinkan perusahaan kecil bekerja ke arah ini. Contohnya termasuk sistem seperti Banyak pilihan, Linguatec Dan PROMT.

Ada juga opsi ketiga: terjemahan mesin hybrid. (Terjemahan Mesin Hibrid, HMT). Metode ini menggabungkan kedua pendekatan, SMT dan RBMT. Secara teori, pendekatan ini memungkinkan Anda memperoleh manfaat dari kedua teknologi tersebut. Inilah yang digunakan perusahaan Systran, didirikan pada tahun 1968 dan dianggap sebagai perusahaan komersial tertua yang beroperasi di bidang MP.

Kontsevoy Daniil Sergeevich,
Institusi pendidikan tinggi swasta "Akademi Hukum Omsk", Omsk

Penerjemah di bidang komunikasi profesional adalah orang yang aktif menguasai bahasa asing di bidang profesional, mampu menyusun pidato lisan dan tulisan bahasa asing dengan benar, masuk akal dan jelas, dan yang terpenting, menguasai teknik penggunaan mesin. sistem terjemahan, karena bahkan para profesional pun tidak dapat melakukannya tanpa menggunakan penerjemah elektronik.

Terjemahan mesin - suatu proses yang dilakukan pada komputer atau perangkat elektronik lainnya untuk mengubah teks dari suatu bahasa menjadi teks padanannya dalam bahasa lain, serta akibat dari tindakan tersebut. Karena tidak ada penerjemah elektronik otomatis yang mampu menerjemahkan teks secara akurat dan benar, penerjemah spesialis harus menyiapkan teks ini, atau memperbaiki kesalahan dan kelalaian yang sudah ada dalam teks yang diproses oleh mesin.

Ada empat bentuk pengorganisasian interaksi antara komputer dan seseorang saat melakukan terjemahan mesin:

  • pra-pengeditan: seseorang menyiapkan teks untuk pemrosesan komputer (menyederhanakan makna teks, menghilangkan bacaan yang ambigu, menandai teks), setelah itu terjemahan mesin dilakukan;
  • inter-editing: seseorang secara langsung melakukan intervensi dalam pengoperasian sistem penerjemahan, menyelesaikan masalah-masalah yang bermasalah;
  • pasca-pengeditan: seluruh teks sumber diproses oleh mesin, dan seseorang mengoreksi hasilnya dengan mengedit teks terjemahan;
  • sistem campuran.

Penerjemah elektronik modern mampu menghasilkan terjemahan frasa dan kalimat individual yang memadai secara persepsi; mereka berfungsi untuk memfasilitasi pekerjaan penerjemah manusia, untuk membebaskannya dari pekerjaan rutin mencari arti kata dan frasa tertentu dalam kamus.

Untuk menguasai sistem penerjemahan mesin, setidaknya diperlukan pemahaman umum tentang teknologi penerjemahan elektronik. Ada beberapa di antaranya dalam terjemahan mesin:

1) Terjemahan mesin langsung

Terjemahan mesin langsung adalah pendekatan terjemahan mesin tertua. Dengan metode penerjemahan ini, teks dalam bahasa sumber tidak tunduk pada analisis struktural di luar morfologi. Terjemahan ini menggunakan kamus dalam jumlah besar dan bersifat kata per kata, kecuali sedikit penyesuaian tata bahasa, misalnya mengenai susunan kata dan morfologi. Sistem terjemahan langsung dirancang untuk pasangan bahasa tertentu. Leksikon adalah gudang informasi tentang kata-kata secara spesifik. Sistem ini bergantung pada kualitas persiapan kamus, analisis morfologi, dan perangkat lunak pengolah teks. Contoh sistem terjemahan langsung adalah Systran.

2) Terjemahan mesin berbasis aturan menggunakan sejumlah besar aturan linguistik dan kamus bilingual untuk setiap pasangan bahasa. Jenis terjemahan mesin berbasis aturan mencakup prinsip Interlingua dan terjemahan mesin Transfer.

  • Terjemahan mesin Interlingua

Dalam penerjemahan mesin berdasarkan prinsip Interlingua, penerjemahan dilakukan melalui model perantara (semantik) teks bahasa sumber. Interlingua adalah model yang tidak bergantung pada bahasa yang dapat digunakan untuk menghasilkan terjemahan ke dalam bahasa apa pun. Prinsip Interlingua memungkinkan adanya kemungkinan untuk mengubah teks dalam bahasa sumber menjadi model yang umum untuk beberapa bahasa.

  • Terjemahan mesin transfer didasarkan pada gagasan Interlingua menggunakan analisis komparatif dua bahasa. Tiga tahap proses ini adalah analisis, transfer, dan pembangkitan. Pertama, teks bahasa sumber diterjemahkan ke dalam model bahasa sumber yang abstrak atau perantara, yang kemudian diubah menjadi model bahasa sasaran, sebelum akhirnya menjadi teks bahasa sasaran. Prinsip ini lebih sederhana dibandingkan Interlingua, namun lebih sulit untuk menghindari ambiguitas.

3) Terjemahan mesin pada corpora teks

Pendekatan korpus dalam terjemahan mesin menggunakan kumpulan (korpus) teks bilingual paralel. Keuntungan utama dari sistem terjemahan mesin berbasis korpus adalah penyetelannya sendiri, mis. mereka mampu mengingat terminologi dan bahkan gaya frasa dari teks terjemahan sebelumnya. Terjemahan mesin statistik dan terjemahan mesin berbasis contoh adalah varian dari pendekatan korpus.

  • Terjemahan mesin statistik

Ini adalah jenis terjemahan teks mesin yang didasarkan pada perbandingan pasangan bahasa dalam jumlah besar. Pendekatan penerjemahan ini menggunakan model penerjemahan statistik. Salah satu pendekatan yang digunakan adalah teorema Bayes. Membangun model terjemahan statistik adalah proses yang cukup cepat, namun teknologinya sangat bergantung pada ketersediaan korpus teks multibahasa. Minimal 2 juta kata diperlukan untuk setiap area jika kita berbicara tentang bahasa secara keseluruhan. Terjemahan mesin statistik memerlukan peralatan khusus untuk mendapatkan model terjemahan “rata-rata”. Contoh terjemahan mesin statistik adalah Google Translate.

  • Terjemahan mesin dengan contoh

Sistem terjemahan mesin berbasis contoh didasarkan pada prinsip kumpulan teks bilingual paralel, yang berisi pasangan kalimat sebagai contoh. Setiap kalimat diduplikasi dalam bahasa yang berbeda. Terjemahan mesin statistik memiliki properti "pembelajaran". Semakin banyak teks (contoh) yang Anda miliki, semakin baik hasil terjemahan mesin.

Setiap penerjemah di bidang komunikasi profesional akan menghadapi masalah dalam memilih program terjemahan yang sesuai. Tidak termasuk layanan berbayar, kami menganggap perlu untuk menganalisis sistem yang paling terkenal.

Penerjemah elektronik Google Translate, yang dikembangkan oleh Google pada pertengahan tahun 2000-an, sangat populer. Layanan ini dirancang untuk menerjemahkan teks dan menerjemahkan situs web dengan cepat. Penerjemah menggunakan algoritma terjemahan mesin belajar mandiri berdasarkan analisis bahasa teks.

Tidak seperti kebanyakan mesin penerjemah yang menggunakan teknologi SYSTRAN, Google menggunakan perangkat lunaknya sendiri. Google Terjemahan saat ini merupakan penerjemah paling populer karena kesederhanaan dan keserbagunaannya (serta koneksi langsungnya ke pengembang perangkat lunak komputer - Microsoft). Berkat ini, sistem terjemahan mesin ini berkembang sangat cepat dan dioptimalkan untuk memenuhi kebutuhan pengguna. Oleh karena itu, sekarang kita dapat mengamati fungsi penerjemah ini: terjemahan seluruh halaman web; pencarian informasi secara simultan dengan terjemahan ke bahasa lain; terjemahan teks ke dalam gambar; terjemahan dari frasa yang diucapkan; terjemahan tulisan tangan; terjemahan dialog.

Fitur sistem terjemahan mesin ini meliputi:

  1. Opsi terjemahan dikendalikan oleh algoritma statistik.

Pengguna selalu dapat menawarkan terjemahan mereka sendiri untuk kata-kata tertentu dan/atau memilih salah satu opsi terjemahan yang paling sesuai. Kerugian dari algoritme semacam itu adalah pilihan terjemahan yang sengaja salah, termasuk kata-kata cabul.

  1. Cakupan bahasa dunia.

Artinya, program ini sekarang dapat digunakan dalam lebih dari seratus bahasa, termasuk Swahili, Cina, dan Welsh. Dengan demikian, Google Translator mampu menerjemahkan dari satu bahasa yang didukung ke bahasa lain yang didukung, namun dalam sebagian besar kasus, terjemahan dilakukan melalui bahasa Inggris. Kerugian dari mekanisme ini jelas - kualitas terjemahannya menurun.

PROMT, yang dikembangkan pada tahun 1991, menempati posisi terdepan di pasar penerjemah mesin Rusia.

PROMT, seperti Google Terjemahan, menggunakan perangkat lunaknya sendiri, yang diperbarui secara signifikan pada tahun 2010. Mulai saat ini PROMT melakukan penerjemahan berdasarkan teknologi hybrid. Esensinya terletak pada kenyataan bahwa alih-alih satu opsi terjemahan, program ini menghasilkan sekitar seratus terjemahan dari kalimat yang sama, bergantung pada polisemi kata, konstruksi, dan hasil statistik. Mesin kemudian memilih terjemahan yang paling mungkin diusulkan. Dengan demikian, penerjemah mampu belajar dengan cepat, namun memiliki kelemahan yang sama dengan semua penerjemah berdasarkan metode statistik pengolahan teks.

Kemampuan penerjemah meliputi: menerjemahkan kata, frasa, dan teks, termasuk menggunakan tombol pintas; terjemahan area layar yang dipilih dengan teks grafik; terjemahan dokumen dalam berbagai format: doc(x), xls(x), ppt(x), rtf, html, xml, txt, ttx, pdf (termasuk yang dipindai), jpeg, png, tiff; penggunaan, pengeditan, dan pembuatan kamus khusus dan profil terjemahan; koneksi database dan glosarium Memori Terjemahan; integrasi ke dalam aplikasi perkantoran, browser web, portal perusahaan, dan situs web.

Kerugian dari penerjemah adalah: sejumlah kecil pasangan bahasa yang digunakan program; antarmuka yang kompleks; ketidakakuratan dalam terjemahan kosakata profesional (yang, bagaimanapun, dihilangkan dengan menghubungkan kamus tematik).

Namun PROMT diakui sebagai penerjemah Inggris-Rusia terbaik pada lokakarya tahunan terjemahan mesin statistik di bawah naungan Association for Computational Linguistics (ACL) pada tahun 2013 dan 2014.

Ada banyak sistem terjemahan mesin lainnya, tetapi mereka, dengan satu atau lain cara, menyalin berbagai fitur penerjemah PROMT domestik atau Google Terjemahan Amerika.

Dengan demikian, seorang penerjemah di bidang komunikasi profesional, yang mengetahui teknologi penerjemahan mesin dan mengetahui cara memilih penerjemah elektronik yang tepat untuk tujuan tertentu, akan pandai dalam melaksanakan kegiatan profesionalnya dengan sukses, karena pada tahap perkembangan teknologi komputer ini juga demikian. terlalu dini untuk memikirkan terjemahan mesin yang sepenuhnya otomatis. Seorang penerjemah manusia berpikir dalam gambaran dan berangkat dari tujuannya: menyampaikan pemikiran tertentu kepada pendengar/pembaca. Masih sulit membayangkan program komputer dengan kemampuan seperti itu. Penerjemah mesin modern memainkan peran pendukung. Mereka dirancang untuk menyelamatkan seseorang dari pekerjaan rutin selama proses penerjemahan. Era kamus kertas telah berakhir, dan sistem terjemahan mesin hadir untuk membantu penerjemah profesional (dan tidak hanya penerjemah lain).

Daftar literatur bekas

  1. www.promt.ru
  2. www.translate.google.com
  3. Belonogov G.G. Zelenkov Yu.G. Sistem interaktif untuk terjemahan mesin Rusia-Inggris dan Inggris-Rusia, VINITI, 1993.
  4. Buletin Universitas Moskow. Ser.19 Linguistik dan komunikasi antarbudaya. 2004. No.4, hal.51.

Peringkat Anda: Kosong

Isi:
Perkenalan……………………………………………………….………………. 3
1.1 Apa itu terjemahan mesin?................................................ ........ ....... ................ 5
1.2 Mulai penerjemahan mesin……..………….……...….………………… 8
1.3 Tahapan pengembangan terjemahan mesin……………….………….…. 12
1.4 Terjemahan mesin modern…………………..……………………….. 15
1.5 Terjemahan mesin di Internet …….………………… ……………….. 18
Kesimpulan ……………………………………………………………………. 21
Literatur…….…………………...……………………………………. . 22

Perkenalan.
Mekanisasi penerjemahan adalah impian tertua umat manusia. Namun pada abad ke-20, mimpi seperti itu menjadi kenyataan. Hal ini sebagian besar disebabkan oleh keinginan masyarakat yang terus-menerus terhadap globalisasi dan bahkan konflik etnis dan bencana politik, penguatan ikatan sosial-ekonomi antar negara, dan integrasi banyak negara yang sebelumnya “tertutup” ke dalam komunitas dunia. Pengetahuan bahasa asing tidak hanya menjadi keterampilan yang berguna dalam kehidupan sehari-hari, tetapi juga salah satu syarat dasar ketika melamar pekerjaan. Saat ini kebutuhan untuk menguasai satu atau bahkan beberapa bahasa asing menjadi semakin mendesak. Pengetahuan tentang bahasa (Inggris atau Jerman) diperlukan tidak hanya ketika bepergian berlibur ke luar negeri, tetapi juga ketika menerima mitra bisnis dari luar negeri, dalam kehidupan sehari-hari ketika membaca berita atau menonton film. Oleh karena itu, banyaknya kegiatan rutin, sehari-hari dan sehari-hari yang sebelumnya tidak memerlukan pengetahuan bahasa asing, saat ini, akibat berkembangnya proses integrasi internasional dan meluasnya keinginan bisnis untuk globalisasi, menjadi semakin sulit jika mengandalkan pada hanya satu bahasa. Sehubungan dengan itu, saat ini jasa penerjemah yang melakukan terjemahan profesional ke dalam bahasa Inggris, Jerman dan bahasa serta pasangan bahasa lainnya semakin banyak diminati. Namun, saat ini pengetahuan bahasa asing saja tidak cukup, karena jumlah informasi yang perlu diterjemahkan setiap hari semakin meningkat secara signifikan. Pada saat yang sama, tugas ini berhasil diselesaikan, dan tidak sulit bagi siapa pun untuk menerjemahkan kontrak atau konten situs web asing hanya dalam beberapa detik. Dan semua itu karena terjemahan dalam hal ini dilakukan oleh program penerjemah: seseorang bahkan tidak punya waktu untuk mengedipkan mata, dan terjemahannya sudah siap.
Namun saat ini, seperti sebelumnya, kenyataan tidaklah sempurna. Tidak ada satu pun sistem terjemahan mesin yang, hanya dengan mengklik beberapa tombol, dapat menghasilkan terjemahan sempurna teks apa pun dalam bahasa apa pun tanpa campur tangan manusia atau setidaknya pengeditan. Untuk saat ini, ini hanyalah rencana untuk masa depan yang jauh, jika cita-cita tersebut dapat dicapai, karena banyak yang mempertanyakan asumsi tersebut.

1.1 Apa itu terjemahan mesin?

Terjemahan mesin adalah proses penerjemahan yang dilakukan oleh program komputer khusus yang memungkinkan Anda mengubah teks dalam satu bahasa alami menjadi teks yang setara dalam bahasa lain. Ini juga merupakan nama arah penelitian ilmiah yang berkaitan dengan pembangunan sistem tersebut.
Mesin modern atau terjemahan otomatis dapat dipertimbangkan dalam interaksi program komputer dengan seseorang:

      Dengan pasca-pengeditan, ketika teks sumber diproses oleh mesin, dan editor manusia mengoreksi hasilnya.
      Dengan pra-editing, ketika seseorang mengadaptasi teks untuk diproses oleh mesin, misalnya, menghilangkan kemungkinan pembacaan yang ambigu, menyederhanakan dan menandai teks, setelah itu pemrosesan perangkat lunak dimulai.
      Dengan inter-editing, di mana seseorang melakukan intervensi dalam pengoperasian sistem terjemahan, menyelesaikan kasus-kasus sulit.
      Sistem campuran, termasuk, misalnya, sebelum dan sesudah penyuntingan secara simultan.
Tujuan utama terjemahan mesin sebagai ilmu adalah untuk mengembangkan algoritma yang sepenuhnya mengotomatiskan proses penerjemahan.
Untuk melakukan terjemahan mesin, sebuah program khusus diperkenalkan ke dalam komputer yang mengimplementasikan algoritma terjemahan, yang dipahami sebagai urutan tindakan yang ditentukan secara unik dan ketat pada teks untuk menemukan korespondensi terjemahan dalam pasangan bahasa tertentu L 1 - L 2 untuk arah terjemahan tertentu (dari satu bahasa tertentu ke bahasa lain) . Sistem terjemahan mesin mencakup kamus bilingual yang dilengkapi dengan informasi tata bahasa yang diperlukan (morfologis, sintaksis, dan semantik) untuk memastikan transmisi korespondensi terjemahan yang setara, varian, dan transformasional, serta alat analisis tata bahasa algoritmik yang mengimplementasikan tata bahasa formal apa pun yang diterima secara otomatis. pemrosesan teks. Ada juga sistem terjemahan mesin terpisah yang dirancang untuk menerjemahkan dalam tiga bahasa atau lebih, tetapi sistem ini saat ini masih bersifat eksperimental.
Yang paling umum adalah urutan operasi formal berikut yang menyediakan analisis dan sintesis dalam sistem terjemahan mesin:
1. Tahap pertama dilakukan pemasukan teks dan dilakukan pencarian bentuk kata masukan (kata dalam bentuk gramatikal tertentu, misalnya jamak datif) pada kamus masukan (kamus bahasa asal terjemahannya). ) disertai analisis morfologi, yang selama itu diketahui bahwa bentuk kata tertentu termasuk dalam leksem tertentu (kata sebagai satuan kosa kata). Dalam proses analisis, informasi yang berkaitan dengan tingkat organisasi sistem bahasa lainnya juga dapat diperoleh dari bentuk kata.
2. Tahap selanjutnya meliputi penerjemahan frasa idiomatik, satuan fraseologis, atau klise suatu bidang studi tertentu. Meliputi penentuan ciri-ciri dasar gramatikal (morfologi, sintaksis, semantik, dan leksikal) unsur-unsur teks masukan, yang dihasilkan dalam kerangka bahasa masukan; resolusi homografi (konversi homonimi bentuk kata - katakanlah, bahasa Inggris. bulat dapat berupa kata benda, kata sifat, kata keterangan, kata kerja atau preposisi); analisis leksikal dan penerjemahan leksem. Biasanya, pada tahap ini, kata-kata bernilai tunggal dipisahkan dari kata-kata polisemantik (memiliki lebih dari satu padanan terjemahan dalam bahasa target), setelah itu kata-kata bernilai tunggal diterjemahkan menggunakan daftar padanannya, dan untuk menerjemahkan kata-kata polisemantik, disebut kamus kontekstual digunakan, entri kamus yang merupakan algoritma untuk menanyakan konteks dengan ada atau tidaknya penentu makna kontekstual.
3. Analisis tata bahasa akhir, di mana informasi tata bahasa yang diperlukan ditentukan dengan mempertimbangkan data bahasa target (misalnya, dengan kata benda Rusia seperti kereta luncur, gunting kata kerjanya harus dalam bentuk jamak, meskipun aslinya mungkin juga berbentuk tunggal).
4. Sintesis bentuk kata keluaran dan kalimat secara keseluruhan dalam bahasa sasaran.
Bergantung pada karakteristik morfologi, sintaksis, dan semantik pasangan bahasa tertentu, serta arah penerjemahan, algoritma penerjemahan umum dapat mencakup tahapan lain, serta modifikasi tahapan tersebut atau urutan kemunculannya, tetapi variasi hal semacam ini dalam sistem modern biasanya tidak signifikan. Analisis dan sintesis dapat dilakukan baik frase demi frase maupun untuk keseluruhan teks yang dimasukkan ke dalam memori komputer; dalam kasus terakhir, algoritma penerjemahan menyediakan identifikasi apa yang disebut koneksi anaforis.
Terjemahan mesin modern harus dibedakan dari penggunaan komputer untuk membantu penerjemah manusia. Dalam kasus terakhir, yang kami maksud adalah kamus otomatis yang membantu seseorang dengan cepat memilih padanan terjemahan yang diinginkan. Meskipun dalam kedua kasus tersebut komputer bekerja sama dengan seseorang (penerjemah atau editor), isi dari istilah “penerjemahan mesin” mencakup gagasan bahwa bagian utama dari pekerjaan penerjemahan dan pencarian padanan terjemahan dan korespondensi terjemahan dilakukan oleh penerjemah. mesin itu sendiri, meninggalkan orang tersebut hanya untuk mengontrol dan memperbaiki kesalahan. Sedangkan kamus komputer untuk membantu seseorang hanyalah alat bantu untuk menemukan terjemahan yang cocok dengan cepat; Namun, pada saat yang sama, dalam kamus semacam ini, beberapa fungsi yang melekat pada sistem terjemahan mesin dapat diterapkan sampai batas tertentu.

1.2 Mulai terjemahan mesin.

Teknologi penerjemahan mesin, sebagai bidang ilmiah, memiliki sejarah hampir satu abad, dan ide pertama untuk mengotomatisasi proses penerjemahan muncul pada abad ke-17.
Seperti yang diterima secara umum, alasan munculnya terjemahan mesin adalah pesatnya arus informasi dalam berbagai bahasa di berbagai negara dan benua sejak paruh kedua abad ke-20, kebutuhan untuk mengasimilasinya untuk kemajuan ilmu pengetahuan dan teknologi, kurangnya penerjemah yang berkualitas (terutama di bidang tertentu), serta mahalnya biaya persiapan mereka.
Penemu Inggris Charles Babbage pertama kali berpikir untuk mengembangkan metode penerjemahan baru, yang mengusulkannya pada akhir tahun 1830-an. proyek komputer pertama dalam sejarah. Inti dari pengoperasian perangkat ini adalah memanfaatkan potensi memori komputer untuk menyimpan kamus. Ide Ch. Babbage adalah bahwa memori 1000 angka desimal 50-bit (50 roda gigi di setiap register) dapat digunakan untuk menyimpan kamus. Namun, Babbage tidak pernah berhasil mewujudkan idenya.
Landasan teori periode awal pengerjaan terjemahan mesin adalah pandangan bahasa sebagai sistem kode. Pelopor terjemahan mesin adalah ahli matematika dan insinyur. Deskripsi percobaan pertama mereka menggunakan komputer baru untuk memecahkan masalah kriptografi diterbitkan di Amerika pada akhir tahun 1940an. Tanggal lahir terjemahan mesin sebagai bidang penelitian biasanya dianggap Maret 1947. Saat itulah direktur departemen ilmu alam di Rockefeller Foundation, Warren Weaver, mengembangkan sebuah memorandum di mana ia mengidentifikasi tugas menerjemahkan teks dari satu bahasa ke bahasa lain sebagai bidang penerapan teknik dekripsi lainnya. Dalam suratnya kepada Norbert Wiener, Warren Weaver pertama kali mengajukan masalah terjemahan mesin, membandingkannya dengan masalah dekripsi.
Ini diikuti dengan diskusi hangat tentang gagasan terjemahan otomatis dan pengembangan teoretis dari teknologi pertama. Saran diberikan mengenai penggantian total penerjemah manusia dengan sistem elektronik, dan banyak penerjemah profesional khawatir akan kehilangan pekerjaan dalam waktu dekat. Ide Weaver menjadi dasar pendekatan penerjemahan mesin berdasarkan konsep interlingva: tahap transfer informasi dibagi menjadi dua tahap; Pada tahap pertama, kalimat sumber diterjemahkan ke dalam bahasa perantara (dibuat berdasarkan bahasa Inggris yang disederhanakan), dan kemudian hasil terjemahan tersebut disajikan dalam bahasa target.
Warren Weaver yang sama, setelah serangkaian diskusi, membuat sebuah memorandum pada tahun 1949 di mana ia secara teoritis mendukung kemungkinan mendasar untuk menciptakan sistem terjemahan mesin.Sistem terjemahan mesin pada tahun-tahun itu sangat berbeda dengan sistem modern. Ini adalah mesin yang sangat besar dan mahal yang memenuhi seluruh ruangan dan membutuhkan banyak staf insinyur, operator, dan pemrogram untuk pemeliharaannya. Komputer-komputer ini terutama digunakan untuk melakukan perhitungan matematis untuk kebutuhan institusi militer, serta departemen matematika dan fisika di universitas (yang terakhir juga terkait erat dengan bidang militer). Oleh karena itu, pada tahap awal, perkembangan terjemahan mesin didukung secara aktif oleh pihak militer; Pada saat yang sama, di AS, perhatian utama diberikan pada arah Rusia-Inggris, dan di Uni Soviet - pada arah Inggris-Rusia.
Selain kebutuhan praktis yang jelas, peran penting dalam pengembangan terjemahan mesin dimainkan oleh fakta bahwa tes kecerdasan yang terkenal (“Tes Turing”), yang diusulkan pada tahun 1950 oleh ahli matematika Inggris A. Turing, sebenarnya menggantikan pertanyaan tentang apakah sebuah mesin dapat berpikir dengan pertanyaan apakah sebuah mesin dapat berkomunikasi dengan seseorang dalam bahasa alami sedemikian rupa sehingga dia tidak akan dapat membedakannya dari lawan bicara manusia. Jadi, selama beberapa dekade, masalah pemrosesan pesan bahasa alami oleh komputer menjadi fokus penelitian di bidang sibernetika (dan kemudian kecerdasan buatan), dan kerja sama yang produktif terjalin antara ahli matematika, pemrogram, dan insinyur komputer, di satu sisi, dan ahli bahasa, di satu sisi. yang lain.
Pendanaan untuk penelitian segera dimulai, dan pada tahun 1952 konferensi pertama tentang terjemahan mesin diadakan di Institut Teknologi Massachusetts, yang diselenggarakan oleh ahli logika dan matematikawan J. Bar-Hillel.
Pada tahun 1954, hasil pertama diumumkan kepada publik: IBM bersama dengan Universitas Georgetown (AS) berhasil melakukan percobaan pertama. Ini tercatat dalam sejarah sebagai apa yang disebut eksperimen Georgetown, di mana versi pertama penerjemah elektronik disajikan. Eksperimen ini mendemonstrasikan terjemahan otomatis lebih dari 60 kalimat dari Rusia ke Inggris . Pemaparan tersebut memberikan dampak positif bagi perkembangan mesin terjemahan selama 12 tahun ke depan.
Percobaan dirancang dan dipersiapkan untuk menarik publik dan pemerintahPerhatian. Paradoksnya, hal ini didasarkan pada hal yang agak sederhana sistem : itu hanya didasarkan pada 6aturan tata bahasa, dan kamus termasuk 250 entri. Sistemnya terspesialisasi: asbidang subjekdipilih untuk diterjemahkankimia organik. Program ini dijalankan pada mainframe IBM 701.
Pada tahun 1954 yang sama, percobaan pertama pada terjemahan mesin dilakukan di Uni Soviet oleh I.K. Belskaya (bagian linguistik) dan D.Yu.Panov (bagian perangkat lunak) di Institut Mekanika Presisi dan Ilmu Komputer dari Akademi Ilmu Pengetahuan Uni Soviet, dan algoritma terjemahan mesin pertama yang sesuai untuk industri dan sistem terjemahan mesin dari bahasa Inggris ke bahasa Rusia pada komputer universal dikembangkan oleh tim yang dipimpin oleh Yu.A. Setelah itu, pekerjaan dimulai di banyak lembaga informasi, organisasi ilmiah dan pendidikan di negara tersebut. Karya ahli bahasa dalam negeri seperti I.A. Melchuk dan Yu.D. Apresyan (Moskow) patut mendapat perhatian khusus. Pada tahun 1960, sebuah laboratorium terjemahan mesin eksperimental diselenggarakan sebagai bagian dari Lembaga Penelitian Matematika dan Mekanika di Leningrad, yang kemudian diubah menjadi Laboratorium Linguistik Matematika Universitas Negeri Leningrad.
Demonstrasi Eksperimen Georgetown diberitakan secara luas di Media dan dianggap sukses. Ini mempengaruhi keputusan beberapa pemerintah negara bagian , Pertama AS, berinvestasilah di kawasan ini linguistik komputasi. Penyelenggara percobaan meyakinkan bahwa dalam waktu tiga sampai lima tahun masalah terjemahan mesin akan terpecahkan. Ide penerjemahan mesin telah mendorong perkembangan penelitian linguistik teoretis dan terapan di seluruh dunia. Teori tata bahasa formal muncul, banyak perhatian diberikan pada pemodelan bahasa dan aspek individualnya, aktivitas linguistik dan mental, masalah bentuk linguistik dan distribusi kuantitatif fenomena linguistik. Bidang baru ilmu linguistik telah muncul - komputasi, matematika, teknik, statistik, linguistik algoritmik, dan sejumlah cabang linguistik terapan dan teoretis lainnya. Selama tahun 1950-an, departemen linguistik terapan dan terjemahan mesin dibuka di pusat-pusat pendidikan di seluruh dunia. Jadi, di Uni Soviet, departemen serupa didirikan di Moskow (MSU dinamai M.V. Lomonosov, Institut Pedagogis Negeri Moskow dinamai M. Thorez - sekarang MSLU), di Institut Pedagogis Bahasa Asing Negeri Minsk Moskow, di Yerevan, Makhachkala, Universitas Leningrad , di universitas Kyiv, Kharkov, Novosibirsk , sejumlah kota lainnya. Penelitian dan pengembangan terjemahan mesin juga telah dilakukan di Perancis, Inggris, Amerika Serikat, Kanada, Italia, Jerman, Jepang, Belanda, Bulgaria, Hongaria dan negara-negara lain, serta di organisasi internasional di mana terdapat sejumlah besar terjemahan dari berbagai bahasa. Saat ini penelitian sedang dilakukan di negara-negara seperti Malaysia, Arab Saudi, Iran, dll.

1.3 Tahapan pengembangan terjemahan mesin.

Sebagai hasil dari keberhasilan awal pengembangan terjemahan mesin, tampaknya penciptaan sistem terjemahan otomatis berkualitas tinggi dapat dicapai dalam beberapa tahun. Pada saat yang sama, penekanannya adalah pada pengembangan sistem otomatis yang menyediakan terjemahan berkualitas tinggi; keterlibatan manusia dalam fase pasca penyuntingan dipandang sebagai kompromi sementara. Penerjemah profesional sangat khawatir bahwa mereka akan segera kehilangan pekerjaan...
Namun, penelitian terjemahan mesin telah mengalami pasang surut sepanjang sejarahnya. Pada tahun 1950an, investasi besar dilakukan pada penelitian, namun hasilnya dengan cepat mengecewakan investor. Salah satu alasan utama rendahnya kualitas terjemahan mesin pada tahun-tahun itu adalah terbatasnya kemampuan perangkat keras: jumlah memori yang kecil dengan akses yang lambat ke informasi yang terkandung di dalamnya, dan ketidakmampuan untuk sepenuhnya menggunakan bahasa pemrograman tingkat tinggi. Alasan lainnya adalah kurangnya kerangka teori yang diperlukan untuk memecahkan masalah linguistik. Akibatnya, sistem terjemahan mesin pertama direduksi menjadi terjemahan teks kata demi kata (kata demi kata) tanpa integritas sintaksis, apalagi semantik.
Pada tahun 1959, filsuf J. Bar-Hillel berpendapat bahwa penerjemahan otomatis berkualitas tinggi dan sepenuhnya otomatis pada prinsipnya tidak dapat dicapai. Ia berangkat dari kenyataan bahwa pilihan terjemahan tertentu ditentukan oleh pengetahuan tentang realitas ekstralinguistik, dan pengetahuan ini terlalu luas dan beragam untuk dimasukkan ke dalam komputer. Namun, Bar-Hillel tidak menampik gagasan penerjemahan mesin seperti itu, mengingat pengembangan sistem mesin yang berorientasi pada penggunaannya oleh penerjemah manusia (semacam “simbiosis manusia-mesin”) sebagai arah yang menjanjikan. Namun pidato ini memiliki dampak yang paling buruk terhadap perkembangan terjemahan mesin di Amerika Serikat. Pada awal tahun 1960-an, tahap euforia awal perkembangan MP berakhir. Hal ini sangat difasilitasi oleh penerbitan apa yang disebut “Buku Hitam Terjemahan Mesin” - sebuah laporan oleh Komite Ad Hoc Linguistik Terapan (ALPAC) dari Akademi Ilmu Pengetahuan Nasional AS, yang menyatakan ketidakmungkinan menciptakan bahasa universal yang tinggi. sistem terjemahan mesin berkualitas di masa mendatang. Komisi sampai pada kesimpulan bahwa penerjemahan mesin tidak menguntungkan: rasio biaya dan kualitas jelas tidak mendukung yang terakhir, dan terdapat cukup sumber daya manusia untuk kebutuhan penerjemahan teks teknis dan ilmiah. Konsekuensi dari publikasi ini adalah pengurangan pendanaan dan penurunan minat secara umum terhadap masalah terjemahan mesin, namun tidak ada pembatasan total terhadap penelitian, terutama penelitian teoretis. Dan sistem terjemahan pertama terus populer di lembaga militer dan ilmiah Uni Soviet dan Amerika Serikat.
Tahap baru dalam pengembangan teknologi terjemahan mesin dimulai pada tahun 1970-an. Kenaikan ini dikaitkan dengan kemajuan teknologi komputasi - munculnya mikrokomputer, perkembangan jaringan, dan peningkatan sumber daya memori. Pemrogram meninggalkan gagasan untuk menciptakan mesin penerjemah yang “ideal”: sistem baru dikembangkan dengan tujuan untuk meningkatkan kecepatan penerjemahan informasi, tetapi dengan partisipasi wajib seseorang di berbagai tahap proses penerjemahan untuk mencapai kualitas pekerjaan terbaik.
Tentang kebangkitan terjemahan mesin di tahun 70-80an. Fakta-fakta berikut menunjukkan: Komisi Komunitas Eropa (CEC) membeli Systran versi Inggris-Prancis, serta sistem terjemahan dari bahasa Rusia ke bahasa Inggris (yang terakhir dikembangkan setelah laporan ALPAC dan terus digunakan oleh US Air Angkatan dan NASA); selain itu, CEC menugaskan pengembangan versi Perancis-Inggris dan Italia-Inggris. Pada saat itu, berkat CEC, fondasi proyek EUROTRA diletakkan berdasarkan pengembangan kelompok SUSY dan GETA. Pada saat yang sama, terdapat perluasan pesat kegiatan untuk menciptakan sistem terjemahan mesin di Jepang; di AS, Organisasi Kesehatan Pan Amerika (PAHO) memerintahkan pengembangan jalur Spanyol-Inggris (sistem SPANAM); Angkatan Udara AS mendanai pengembangan sistem MP di Pusat Penelitian Linguistik di Universitas Texas di Austin; Kelompok TAUM di Kanada mencapai kemajuan signifikan dalam mengembangkan sistem METEO (yang terutama digunakan untuk penerjemahan laporan cuaca). Sejumlah proyek yang dimulai pada tahun 70-80an kemudian berkembang menjadi sistem komersial yang lengkap. Di negara kita, pengembangan dasar-dasar teknologi terjemahan mesin dilanjutkan oleh sekelompok spesialis VINITI di bawah kepemimpinan Profesor G. G. Belonogov. Hasilnya, pada tahun 1993, versi industri dari sistem RETRANS untuk terjemahan mesin fraseologis dari bahasa Rusia ke bahasa Inggris dan sebaliknya dibuat, yang digunakan di kementerian pertahanan, perkeretaapian, sains dan teknologi, serta di VNTIT.
Tahap penelitian selanjutnya di bidang terjemahan mesin adalah tahun 90-an abad terakhir. Hal ini tentu saja disebabkan oleh kemajuan luar biasa dalam komputer pribadi modern, munculnya pemindai berkualitas tinggi dan program pengenalan teks optik efektif yang dapat diakses oleh pengguna massal dan, tentu saja, dengan munculnya jaringan komputer global, Internet. Semua ini memberikan dorongan baru untuk mengerjakan terjemahan mesin, menarik investasi baru yang signifikan di bidang ini dan menghasilkan hasil praktis yang serius. Yaitu, sistem terjemahan mesin dan kamus komputer yang cukup efektif telah muncul untuk bekerja pada komputer pribadi; sistem terjemahan mesin digabungkan dengan pengenalan teks optik dan sistem pemeriksaan ejaan. Alat terjemahan mesin khusus telah diciptakan untuk bekerja di Internet, menyediakan terjemahan teks di server perusahaan terkait, atau terjemahan online halaman Web, memungkinkan seseorang mengatasi hambatan bahasa dan menavigasi situs asing.

1.4 Terjemahan mesin modern.

Program penerjemahan saat ini memiliki pandangan yang lebih luas dan beroperasi berdasarkan teknologi penerjemahan yang lebih maju. Sistem penerjemahan secara aktif digunakan di seluruh dunia ketika diperlukan untuk memahami makna teks dengan cepat atau sering menerjemahkan informasi dalam jumlah besar. Beberapa pengembang saat ini telah berhasil mencapai kualitas terjemahan yang sangat dapat diterima dalam bidang bahasa tertentu.
Terjemahan mesin modern harus dibedakan dari penggunaan komputer untuk membantu penerjemah manusia. Dalam kasus terakhir, yang kami maksud adalah kamus otomatis yang membantu seseorang dengan cepat memilih padanan terjemahan yang diinginkan. Isi dari istilah “penerjemahan mesin” mencakup gagasan bahwa mesin mengambil bagian utama dari pekerjaan penerjemahan dan menemukan padanan terjemahan dan korespondensi terjemahan. Seseorang hanya diberikan kontrol dan koreksi kesalahan, sedangkan kamus komputer untuk membantu seseorang hanyalah alat bantu untuk menemukan kecocokan terjemahan dengan cepat.
Dalam praktik penerjemahan dan teknologi informasi, ada dua pendekatan utama dalam penerjemahan mesin. Di satu sisi, hasil terjemahan mesin dapat digunakan untuk membiasakan diri secara singkat dengan konten dokumen dalam bahasa yang tidak diketahui. Dalam hal ini, ini dapat digunakan sebagai informasi sinyal dan tidak memerlukan pengeditan yang cermat. Pendekatan lain melibatkan penggunaan terjemahan mesin daripada terjemahan manusia biasa. Hal ini melibatkan penyuntingan dan penyesuaian sistem terjemahan yang cermat untuk bidang subjek tertentu. Kelengkapan kamus, fokusnya pada isi dan rangkaian sarana linguistik teks terjemahan, efektivitas metode penyelesaian ambiguitas leksikal, efektivitas algoritma untuk mengekstraksi informasi gramatikal, pencarian korespondensi terjemahan dan algoritma sintesis berperan di sini. Dalam praktiknya, penerjemahan jenis ini menjadi menguntungkan secara ekonomi jika volume teks yang diterjemahkan cukup besar, jika teksnya cukup homogen, sistem kamusnya lengkap dan memungkinkan perluasan lebih lanjut, dan perangkat lunaknya nyaman untuk pasca penyuntingan. Sistem terjemahan mesin semacam ini digunakan dalam organisasi yang kebutuhan akan terjemahan cepat dan berkualitas tinggi cukup besar.
Dalam kerangka teknologi terjemahan mesin, ada dua pendekatan: tradisional (berbasis aturan) dan statistik (berdasarkan pemrosesan statistik database kamus). Metode MT tradisional digunakan oleh sebagian besar pengembang sistem terjemahan. Pengerjaan program semacam itu meliputi beberapa tahapan dan pada hakikatnya terdiri dari penggunaan aturan kebahasaan (algoritma). Oleh karena itu, pembuatan penerjemah elektronik tersebut mencakup pengembangan aturan dan penambahan database kamus sistem. Kualitas terjemahan keluaran tergantung pada pengembangan algoritma yang diperlukan. Kosakata yang kaya dari sistem ini juga memungkinkan Anda mengatasi terjemahan berbagai macam teks. Metode statistik beroperasi dengan prinsip yang sangat berbeda. Hal ini didasarkan pada metode matematika untuk memperoleh terjemahan. Lebih tepatnya, seluruh prinsip pengoperasian sistem semacam itu didasarkan pada perhitungan statistik kemungkinan kecocokan frasa dari teks sumber dengan frasa yang disimpan dalam database sistem terjemahan.
Di Rusia, dengan menggunakan metode terjemahan mesin tradisional, produk perangkat lunak dari perusahaan PROMT dikembangkan - satu-satunya produsen program terjemahan di negara kita. Saat ini, perusahaan PROMT adalah pengembang terkemuka sistem terjemahan otomatis dan memiliki keahlian teknologi yang sangat besar, sehingga memungkinkannya untuk berkembangsistem terjemahandengan fungsi yang berbeda. Teknologi unik untuk membangun sistem terjemahan dan algoritme asli untuk bekerja dengan teks dalam bahasa alami menjadi dasar pembuatan semua produk perangkat lunak perusahaan, dan yang memberikan peluang untuk mengembangkan berbagai solusi untuk terjemahan otomatis dari satu bahasa ke bahasa lain. Produk perangkat lunak PROMT sama-sama berguna untuk memecahkan masalah bisnis dan untuk penggunaan di rumah. Baru-baru ini, PROMT memberikan perhatian khusus pada penciptaan alat dan teknologi khusus untuk penerjemah profesional. Saat ini, sistem PROMT melakukan terjemahan untuk24 arah bahasa. Kamus umum untuk satu pasangan bahasa berisi 40 hingga 200 ribu entri kamus, yang pada gilirannya berisi deskripsi terstruktur dari berbagai informasi linguistik yang diperlukan sistem untuk mengoperasikan algoritma analisis dan sintesis teks yang kompleks. Kamus berdasarkan topik berisi kata-kata dan ekspresi spesifik yang menjadi ciri khas bidang subjek; volumenya dapat bervariasi dari 5 hingga 50 ribu entri kamus. Misalnya, kamus khusus telah dikembangkan untuk sistem Inggris-Rusia dan Rusia-Inggris, yang mencakup lebih dari 50 topik berbeda.

1.5 Terjemahan mesin di Internet.

Terjemahan informasi online di Internet menjadi semakin populer. Internet dengan cepat berubah dari lingkungan yang didominasi berbahasa Inggris menjadi lingkungan multibahasa, memaksa pemilik situs Web untuk memberikan informasi dalam berbagai bahasa. Paling sering, situs informasi dan pencarian yang berusaha menarik pengguna multibahasa ke halaman mereka menggunakan layanan MP. Dengan demikian, layanan terjemahan baru telah dibuka di portal pencarian informasi Kanada InfiniT (http://www.infiniT.com). Situs web ini sekarang menawarkan terjemahan teks online dari bahasa Inggris dan Jerman ke bahasa Prancis dan sebaliknya. Peningkatan jumlah pengunjung portal ini disebabkan oleh kemungkinan terjemahan halaman Web secara online. Untuk melakukan ini, pengguna hanya perlu menunjukkan alamat halaman Web, memilih arah terjemahan dan klik tombol terjemahan. Hasilnya, dalam beberapa detik pengguna menerima halaman Web yang diterjemahkan sepenuhnya dengan format yang dipertahankan.
Layanan baru ini memungkinkan kami untuk menghilangkan masalah bahasa di Internet Kanada, di mana, karena fitur historis, dua bahasa banyak digunakan: Inggris dan Prancis. Selain itu, penerjemah online menyediakan akses ke situs-situs dalam bahasa Jerman bagi penduduk Kanada yang tidak bisa berbahasa asing. Layanan ini beroperasi berdasarkan solusi server Internet PROMT yang disebut PROMT Internet Translation Server versi 2.0. Proyek ini dilaksanakan bersama dengan perusahaan Softissimo, yang mempromosikan produk PROMT dengan merek REVERSO. Fitur menarik dari situs Web yang memperkenalkan program MP, kamus elektronik, dan program pendukung linguistik lainnya adalah Anda dapat mengenal karya banyak produk perangkat lunak secara interaktif, menggunakan versi yang diinstal di server dan memiliki gerbang untuk komunikasi jarak jauh melalui antarmuka Web . Di server penerbit Web "InfoArt" (http://www.
infoart.ru/misc/dict) demonstrasi interaktif kamus Lingvo dan MultiLex diselenggarakan. Anda dapat memasukkan kata atau frasa dan langsung mendapatkan terjemahan, interpretasi, contoh penggunaan, dan frasa umum.
Yang paling universal adalah PROMT Internet. Dengan membeli paket ini, Anda akan menerima beberapa program untuk menerjemahkan halaman Web, dan tidak hanya itu. Dapat dikatakan bahwa kemampuan rangkaian aplikasi ini cukup memadai untuk pekerjaan penuh dengan dokumen dalam bahasa Inggris, Prancis, dan Jerman. Jika Anda berencana untuk menggunakan program terjemahan universal WebTranSite 98 atau browser WebView lebih sering daripada bagian lain dari paket Internet PROMT, dan pada saat yang sama ingin menghemat uang, Anda dapat membeli produk ini secara terpisah. Dalam hal ini, WebTranSite 98 akan menarik bagi mereka yang sering menerjemahkan potongan kecil teks tidak hanya dari Internet, tetapi juga dari kantor, email, dan program lain, serta dari sistem bantuan online.
WebTranSite 98 cocok untuk lebih dari sekedar menerjemahkan halaman Web. Ini cukup serbaguna dan memungkinkan Anda memproses fragmen
dll.............



Apakah Anda menyukai artikelnya? Bagikan dengan teman Anda!