Strojový preklad. Objem a úspora

Rečníci: Irina Rybnikova a Anastasia Ponomareva.

Povieme vám o histórii strojového prekladu a o tom, ako ho používame v Yandex.

Ešte v 17. storočí vedci špekulovali o existencii akéhosi jazyka, ktorý spája iné jazyky, a to je už zrejme príliš dávno. Poďme sa na to pozrieť bližšie. Všetci chceme rozumieť ľuďom okolo seba – nech ideme kamkoľvek – chceme vidieť, čo je napísané na ceduľkách, chceme čítať oznamy, informácie o koncertoch. Myšlienka babylonskej ryby prenasleduje mysle vedcov a nachádza sa v literatúre, kine a všade. Chceme skrátiť čas, ktorý nám trvá prístup k informáciám. Chceme čítať články o čínskych technológiách, rozumieť všetkým stránkam, ktoré vidíme, a chceme to dostávať tu a teraz.

V tejto súvislosti nemožno nehovoriť o strojovom preklade. To je to, čo pomáha vyriešiť tento problém.

Za východiskový bod sa považuje rok 1954, keď bolo v USA na stroji IBM 701 preložených 60 viet na všeobecnú tému organickej chémie z ruštiny do angličtiny, a to všetko na základe 250 slovníkových termínov a šiestich gramatických pravidiel. Volalo sa to Georgetownský experiment a bol to pre realitu taký šok, že noviny boli plné titulkov, že o ďalších tri až päť rokov bude problém úplne vyriešený, všetci budú spokojní. Ale ako viete, všetko bolo trochu inak.

Strojový preklad založený na pravidlách sa objavil v 70. rokoch 20. storočia. Bol tiež založený na dvojjazyčných slovníkoch, ale aj na rovnakých súboroch pravidiel, ktoré pomáhali opísať akýkoľvek jazyk. Ktokoľvek, ale s obmedzeniami.

Pravidlá museli spísať seriózni lingvisti. Je to dosť zložitá práca, stále nedokázala zohľadniť kontext, úplne pokryť akýkoľvek jazyk, ale boli to odborníci a vtedy sa nevyžadoval vysoký výpočtový výkon.

Ak hovoríme o kvalite, klasickým príkladom je citát z Biblie, ktorý bol potom takto preložený. Ešte nie dosť. Preto ľudia naďalej pracovali na kvalite. V 90. rokoch vznikol štatistický prekladový model SMT, ktorý hovoril o pravdepodobnostnom rozdelení slov a viet a tento systém bol zásadne odlišný v tom, že nevedel vôbec nič o pravidlách a o lingvistike. Dostala ako vstup obrovské množstvo identických textov spárovaných v jednom a druhom jazyku a potom sa sama rozhodovala. Ľahko sa udržiaval, nevyžadoval veľa odborníkov, nevyžadoval čakanie. Môžete si stiahnuť a získať výsledok.

Požiadavky na prichádzajúce dáta boli celkom priemerné, od 1 do 10 miliónov segmentov. Segmenty - vety, malé frázy. Ale boli tu ťažkosti a kontext nebol braný do úvahy, všetko nebolo veľmi jednoduché. A napríklad v Rusku sa takéto prípady objavili.

Páči sa mi aj príklad prekladov GTA hier, výsledok bol skvelý. Všetko nestálo. Pomerne dôležitým míľnikom bol rok 2016, kedy bol spustený neurónový strojový preklad. Bola to celkom epochálna udalosť, ktorá výrazne zmenila život. Môj kolega, keď si prezrel preklady a ako ich používame, povedal: „Super, hovorí mojimi slovami.“ A bolo to naozaj skvelé.

Aké sú vlastnosti? Vysoké požiadavky na vstupe, školiaci materiál. Udržať to v rámci firmy je náročné, no naštartovalo sa k výraznému zvýšeniu kvality. Len kvalitný preklad vyrieši zadané problémy a uľahčí život všetkým účastníkom procesu, tým istým prekladateľom, ktorí nechcú opravovať zlý preklad, chcú robiť nové kreatívne úlohy a rutinné šablónové frázy prenechávajú stroj.

V rámci strojového prekladu existujú dva prístupy. Odborné posúdenie / lingvistický rozbor textov, teda testovanie skutočnými lingvistami, odborníkmi na zhodu s významom, jazykovú gramotnosť. V niektorých prípadoch posadili odborníkov, umožnili im korektúru preloženého textu a zhodnotili, nakoľko je z tohto pohľadu efektívny.

Aké sú vlastnosti tejto metódy? Nie je potrebná ukážka prekladu, teraz sa pozrieme na hotový preložený text a objektívne ho zhodnotíme podľa akéhokoľvek aspektu. Ale je to drahé a časovo náročné.

Existuje aj druhý prístup – automatické referenčné metriky. Je ich veľa, každý má svoje pre a proti. Nebudem zachádzať do hĺbky, o týchto kľúčových slovách si môžete prečítať podrobnejšie neskôr.

Akú vlastnosť? V skutočnosti ide o porovnanie preložených strojových textov s akýmsi štandardným prekladom. Ide o kvantitatívne metriky, ktoré ukazujú nesúlad medzi ukážkovým prekladom a skutočným výsledkom. Je to rýchle, lacné a dá sa to urobiť celkom pohodlne. Ale sú tu niektoré zvláštnosti.

V skutočnosti sa teraz najčastejšie používajú hybridné metódy. Vtedy sa niečo na začiatku vyhodnotí automaticky, potom sa analyzuje chybová matica a následne sa vykoná odborná lingvistická analýza na menšom korpuse textov.

V poslednej dobe je stále bežnou praxou, keď pozývame nie lingvistov, ale jednoducho používateľov. Rozhranie sa pripravuje - ukážte, ktorý preklad sa vám najviac páči. Alebo keď idete do online prekladateľov, zadáte text a často môžete hlasovať o tom, čo sa vám páči viac, či je tento prístup vhodný alebo nie. Tieto motory vlastne všetci momentálne trénujeme a všetko, čo im dáme na preklad, využívajú na tréning a prácu na svojej kvalite.

Chcel by som vám povedať, ako pri našej práci používame strojový preklad. Dávam slovo Anastasii.

My v Yandex na oddelení lokalizácie sme si pomerne rýchlo uvedomili, že technológia strojového prekladu má veľký potenciál, a rozhodli sme sa ju skúsiť použiť pri našich každodenných úlohách. Kde sme začali? Rozhodli sme sa urobiť malý experiment. Rozhodli sme sa preložiť rovnaké texty prostredníctvom bežného prekladača neurónových sietí a tiež zostaviť vyškoleného strojového prekladača. Na tento účel sme v priebehu rokov, čo v Yandexe lokalizujeme texty do týchto jazykov, pripravili korpusy textov v rusko-anglickej dvojici. Ďalej sme s týmto korpusom textov prišli našim kolegom z Yandex.Translator a požiadali nás o zaškolenie motora.

Keď bol motor vyškolený, preložili sme ďalšiu várku textov a, ako povedala Irina, s pomocou odborníkov sme vyhodnotili výsledky. Požiadali sme prekladateľov, aby sa zamerali na gramotnosť, štýl, pravopis a vyjadrenie významu. Najväčším zlomom však bolo, keď jeden z prekladateľov povedal: „Uznávam svoj štýl, uznávam svoje preklady.

Aby sme tieto pocity umocnili, rozhodli sme sa vypočítať štatistické ukazovatele. Najprv sme vypočítali koeficient BLEU pre prenosy uskutočnené cez bežný motor neurónovej siete a dostali sme nasledujúci údaj (0,34). Zdalo by sa, že to treba s niečím porovnať. Opäť sme šli za našimi kolegami z Yandex.Translator a požiadali sme ich, aby vysvetlili, aký koeficient BLEU sa považuje za prah pre preklady realizované skutočnou osobou. Toto je od 0.6.

Potom sme sa rozhodli skontrolovať výsledky na školených prekladoch. Dostali sme 0,5. Výsledky sú skutočne povzbudivé.

Uvediem príklad. Toto je skutočná ruská fráza z dokumentácie Direct. Potom to bolo preložené prostredníctvom bežného motora neurónovej siete a potom pomocou trénovaného motora neurónovej siete pomocou našich textov. Už v prvom riadku si všimneme, že tradičný typ reklamy pre Direct nebol rozpoznaný. A už v trénovanom motore neurónovej siete sa objavuje náš preklad a dokonca aj skratka je takmer správna.

Získané výsledky nás veľmi povzbudili a rozhodli sme sa, že sa pravdepodobne oplatí použiť motor stroja v iných pároch, v iných textoch, nielen v základnej sade technickej dokumentácie. Potom sa niekoľko mesiacov vykonávala séria experimentov. Stretli sme sa s veľkým množstvom funkcií a problémov, toto sú najčastejšie problémy, ktoré sme museli riešiť.

O každom z nich vám poviem viac.

Ak sa ako my chystáte vyrobiť engine na mieru, budete potrebovať pomerne veľké množstvo kvalitných paralelných dát. Veľký motor sa dá natrénovať na množstvo 10 tisíc viet, v našom prípade sme pripravili 135 tisíc paralelných viet.

Váš nástroj nebude zobrazovať rovnako dobré výsledky pri všetkých typoch textu. V technickej dokumentácii, kde sú dlhé vety, štruktúra, užívateľská dokumentácia a dokonca aj v rozhraní, kde sú krátke, ale jednoznačné tlačidlá, si s najväčšou pravdepodobnosťou urobíte dobre. Možno sa ale ako my stretnete s problémami v marketingu.

Uskutočnili sme experiment s prekladom hudobných zoznamov skladieb a dostali sme tento príklad.

Toto si myslí strojový prekladateľ o hviezdnych pracovníkoch továrne. Že ide o pracovníkov pracujúcich v šoku.

Pri preklade cez stroj stroja sa kontext neberie do úvahy. Toto nie je až taký vtipný príklad, ale veľmi reálny, z technickej dokumentácie Directu. Zdalo by sa, že to je jasné, keď si prečítate technickú dokumentáciu, sú technické. Ale nie, motor stroja nezasiahol.

Budete tiež musieť počítať s tým, že kvalita a význam prekladu bude vo veľkej miere závisieť od pôvodného jazyka. Preložíme frázu do francúzštiny z ruštiny a získame rovnaký výsledok. Dostaneme podobnú frázu s rovnakým významom, ale z angličtiny, a dostaneme iný výsledok.

Ak máte, ako v našom texte, veľké množstvo značiek, značiek a niektorých technických funkcií, s najväčšou pravdepodobnosťou ich budete musieť sledovať, upravovať a písať nejaké skripty.

Tu sú príklady skutočných fráz z prehliadača. V zátvorkách sú technické informácie, ktoré by sa nemali prekladať, najmä tvary množného čísla. V angličtine sú v angličtine a v nemčine by tiež mali zostať v angličtine, ale sú preložené. Tieto body budete musieť sledovať.

Motor stroja nevie nič o vašich funkciách pomenovania. Máme napríklad dohodu, že všade nazývame Yandex.Disk v latinskej abecede vo všetkých jazykoch. Ale vo francúzštine sa zmení na disk vo francúzštine.

Skratky sú niekedy rozpoznané správne, niekedy nie. V tomto príklade sa BY, čo znamená, že patrí k bieloruským technickým požiadavkám na reklamu, zmení na predložku v angličtine.

Jedným z mojich obľúbených príkladov sú nové a prevzaté slová. Tu je skvelý príklad, slovo odmietnutie zodpovednosti, „pôvodne ruské“. Terminológia bude musieť byť overená pre každú časť textu.

A ešte jeden, nie až taký podstatný problém – zastaraný pravopis.

Predtým bol internet novinkou, vo všetkých textoch sa písalo s veľkým začiatočným písmenom a keď sme trénovali náš motor, všade sa internet písal s veľkým začiatočným písmenom. Teraz je nová doba, internet už píšeme malým písmenkom. Ak chcete, aby váš motor pokračoval v písaní internetu s malým písmenom, budete ho musieť preškoliť.

Nezúfali sme, tieto problémy sme vyriešili. Najprv sme zmenili textové korpusy a pokúsili sa prekladať na iné témy. Svoje pripomienky sme odovzdali kolegom z Yandex.Translator, pretrénovali sme neurónovú sieť a pozreli sme sa na výsledky, vyhodnotili ich a požiadali o vylepšenia. Napríklad rozpoznávanie značiek, spracovanie značiek HTML.

Ukážem vám skutočné prípady použitia. Sme dobrí v strojovom preklade technickej dokumentácie. Toto je skutočný prípad.

Tu je fráza v angličtine a ruštine. Prekladateľa, ktorý s touto dokumentáciou narábal, veľmi povzbudil vhodný výber terminológie. Ďalší príklad.

Prekladateľ ocenil výber is namiesto pomlčky, že sa štruktúra frázy zmenila na angličtinu, adekvátny výber výrazu, ktorý je správny, a slova you, ktoré nie je v origináli, ale robí to takto preklad presne anglický, prirodzený.

Ďalším prípadom sú preklady rozhrania za behu. Jedna zo služieb sa rozhodla netrápiť sa lokalizáciou a prekladať texty priamo počas načítavania. Ale po výmene motora sa asi raz za mesiac slovo „dodávka“ zmenilo v kruhu. Navrhli sme, aby tím nepripájal obyčajný motor neurónovej siete, ale ten náš, vyškolený na technickú dokumentáciu, aby bol vždy použitý rovnaký termín, na ktorom sa s tímom dohodneme, ktorý je už v dokumentácii.

Ako to všetko ovplyvňuje peňažný moment? Historicky platilo, že v rusko-ukrajinskom páre je potrebná minimálna úprava ukrajinského prekladu. Preto sme sa pred pár mesiacmi rozhodli prejsť na post-editačný systém. Takto rastú naše úspory. September sa ešte neskončil, no odhadujeme, že náklady na posteditovanie sme v ukrajinčine znížili asi o tretinu a v úpravách takmer všetkého okrem marketingových textov budeme pokračovať. Slovo od Iriny na zhrnutie.

Irina:
- Každému je jasné, že to musíme využiť, toto je už naša realita a nemôžeme to vylúčiť z našich procesov a záujmov. Je tu však pár vecí, na ktoré treba myslieť.

Rozhodnite sa o typoch dokumentov a kontexte, s ktorým pracujete. Je táto technológia vhodná práve pre vás?

Druhý bod. Hovorili sme o Yandex.Translator, pretože máme dobré podmienky, máme priamy prístup k vývojárom a tak ďalej, ale v skutočnosti sa musíte rozhodnúť, ktorý engine bude pre vás najoptimálnejší, konkrétne pre váš jazyk, vašu tému. Tejto téme bude venovaná ďalšia správa. Buďte pripravení, že stále existujú ťažkosti, vývojári motorov spolupracujú na riešení problémov, ale zatiaľ sa s nimi stále stretávajú.

Chcel by som pochopiť, čo nás čaká v budúcnosti. Ale v skutočnosti to už nie je budúcnosť, ale naša súčasná doba, to, čo sa deje tu a teraz. Všetci skôr potrebujeme prispôsobenie, aby vyhovovalo našej terminológii, našim textom, a to sa teraz stáva verejným. Teraz všetci pracujú na tom, aby ste nešli do spoločnosti a rokovali s vývojármi konkrétneho motora o tom, ako ho pre vás optimalizovať. Môžete to získať vo verejných otvorených motoroch cez API.

Prispôsobenie sa vyskytuje nielen v textoch, ale aj v terminológii, v prispôsobovaní terminológie vašim vlastným potrebám. Toto je dosť dôležitý bod. Druhou témou je interaktívny preklad. Keď prekladateľ prekladá text, technológia mu umožňuje predpovedať ďalšie slová, pričom berie do úvahy zdrojový jazyk, zdrojový text. To vám môže výrazne uľahčiť prácu.

O tom, čo je teraz naozaj drahé. Každý premýšľa o tom, ako trénovať niektoré motory oveľa efektívnejšie pomocou menšieho množstva textu. Toto je niečo, čo sa deje všade a spúšťa sa všade. Myslím si, že téma je veľmi zaujímavá a v budúcnosti bude ešte zaujímavejšia.

Prednáška č. 8 Téma: Účel systémov strojového prekladu.

Účel strojového prekladu

Strojový preklad (MT) alebo automatický preklad (AT) je intenzívne sa rozvíjajúca oblasť vedeckého výskumu, experimentálneho vývoja a už fungujúcich systémov (SMT), v ktorej je počítač zapojený do procesu prekladu z jedného prirodzeného jazyka ( NL) inému. SMP poskytujú rýchly a systematický prístup k informáciám v cudzom jazyku, zabezpečujú efektívnosť a jednotnosť pri preklade veľkých tokov textov, najmä vedeckých a technických. EMS fungujúce v priemyselnom meradle sa spoliehajú na veľké terminologické databázy a spravidla vyžadujú zapojenie osoby ako pre-, inter- alebo post-editora. Moderné SMP, najmä tie, ktoré sa pri preklade spoliehajú na znalostné bázy v konkrétnej oblasti, sú klasifikované ako systémy umelej inteligencie (AI).

Hlavné oblasti použitia MC

1. V priemyselných informačných službách za prítomnosti veľkého množstva alebo neustáleho toku cudzojazyčných zdrojov. Ak sa na poskytovanie signalizačných informácií používajú SMP, dodatočná úprava sa nevyžaduje.

2. Vo veľkých medzinárodných organizáciách zaoberajúcich sa viacjazyčným polytematickým súborom dokumentov. Toto sú podmienky práce v Komisii Európskych spoločenstiev v Bruseli, kde sa všetka dokumentácia musí objaviť súčasne v deviatich pracovných jazykoch. Keďže požiadavky na preklad sú tu vysoké, MP vyžaduje dodatočnú úpravu.

3. V službách, ktoré prekladajú technickú dokumentáciu sprevádzajúcu exportované produkty. Prekladatelia sa nedokážu vyrovnať s rozsiahlou dokumentáciou v požadovanom časovom rámci (napríklad špecifikácie lietadiel a iných zložitých objektov môžu zabrať až 10 000 alebo viac strán). Štruktúra a jazyk technickej dokumentácie sú celkom štandardné, čo uľahčuje preklad a dokonca ho uprednostňuje pred ručným prekladom, pretože zaručuje jednotný štýl
celé pole. Keďže preklad špecifikácií musí byť úplný a presný, produkty MP vyžadujú dodatočnú úpravu.

4. Na simultánny alebo takmer simultánny preklad nejakého konštantného prúdu podobných správ. Toto je tok správ o počasí v Kanade, ktoré sa musia objaviť súčasne v angličtine a francúzštine.

Okrem praktickej potreby podnikateľského sveta pre MT existujú aj čisto vedecké stimuly pre rozvoj MT: stabilne fungujúce experimentálne MT systémy sú experimentálnou oblasťou na testovanie rôznych aspektov všeobecnej teórie porozumenia, rečovej komunikácie, transformácie informácií. , ako aj na vytváranie nových, efektívnejších modelov samotného MT .

Z hľadiska rozsahu a stupňa rozvoja možno VTS rozdeliť do troch hlavných tried: priemyselné, vývojové a experimentálne.

Jazyková podpora pre systémy strojového prekladu

Proces MT je postupnosť transformácií aplikovaných na vstupný text a jeho transformácie na text vo výstupnom jazyku, ktorý by mal maximálne znovu vytvoriť význam a spravidla štruktúru zdrojového textu, avšak s použitím výstupného jazyka. Jazyková podpora SMP zahŕňa celý komplex lingvistických, metajazykových a tzv. „extralingvistických“ poznatkov, ktoré sa pri takejto transformácii využívajú.

V klasických SMT, ktoré vykonávajú nepriamy preklad jednotlivých viet (preklad frázy po fráze), každá veta prechádza sekvenciou transformácií pozostávajúcou z troch častí (fáz): analýza -> prenos (medzijazykové operácie) -> syntéza. Na druhej strane každá z týchto fáz predstavuje pomerne zložitý systém prechodných transformácií.

Cieľom fázy analýzy je zostaviť štrukturálny popis (stredná reprezentácia, interná reprezentácia) vstupnej vety | Úlohou etapy transferu (samotného prekladu) je transformovať štruktúru vstupnej vety na vnútornú štruktúru výstupnej vety. Táto etapa zahŕňa aj nahradenie lexém vstupného jazyka ich prekladovými ekvivalentmi (lexikálne interlingválne transformácie). Cieľom fázy syntézy je zostaviť správnu vetu cieľového jazyka na základe štruktúry získanej ako výsledok analýzy.

Jazyková podpora pre štandardné moderné SMP zahŕňa:

1) slovníky;

2) gramatika;

3) formalizované prechodné reprezentácie jednotiek analýzy v rôznych štádiách transformácie.

Okrem štandardných môžu mať niektoré SMP aj niektoré neštandardné komponenty. Odborné znalosti o softvéri je teda možné špecifikovať pomocou špeciálnych koncepčných sietí, a nie vo forme slovníkov a gramatík.

Mechanizmy (algoritmy, procedúry) na prácu s existujúcimi slovníkmi, gramatikami a štruktúrnymi reprezentáciami sú klasifikované ako matematická a algoritmická podpora pre SMP.

Jednou z nevyhnutných požiadaviek na moderné SMP je vysoká modularita. Z lingvistického vecného hľadiska to znamená, že analýza a procesy, ktoré na ňu nadväzujú, sú postavené s prihliadnutím na teóriu jazykových úrovní. V praxi vytvárania SMP sa rozlišujú tieto úrovne analýzy:

Predsyntaktická analýza (sem patrí morfologická analýza - MorphAn, analýza fráz, neidentifikované prvky textu atď.);

Syntaktická analýza SinAn (vybuduje syntaktickú reprezentáciu vety alebo SinP); v rámci jeho hraníc možno rozlíšiť množstvo podúrovní, ktoré poskytujú analýzu rôznych typov syntaktických jednotiek;

Sémantická analýza SemAn alebo logicko-sémantická analýza (vybuduje argument-predikátovú štruktúru výrokov alebo iný typ sémantiky
prezentácia návrhu a text);

Konceptuálna analýza (analýza z hľadiska pojmových štruktúr odrážajúcich sémantiku softvéru). Táto úroveň analýzy sa používa v SMP, ktoré sa zameriavajú na veľmi obmedzený softvér. V skutočnosti je konceptuálna štruktúra projekciou softvérových schém na jazykové štruktúry, často nie sémantické, ale syntaktické. Len pre veľmi úzky softvér a obmedzené triedy textov sa konceptuálna štruktúra zhoduje so sémantickou; vo všeobecnosti by nemala existovať úplná zhoda, pretože text je podrobnejší ako ktorýkoľvek iný
koncepčné diagramy.

Syntéza teoreticky prechádza rovnakými úrovňami ako analýza, ale v opačnom smere. V pracovných systémoch sa zvyčajne implementuje iba cesta od SinP k reťazcu slov výstupnej vety.

Jazyková diferenciácia rôznych úrovní sa môže prejaviť aj v diferenciácii použitých formálnych prostriedkov v zodpovedajúcich opisoch (súbor týchto prostriedkov je špecifikovaný pre každú úroveň samostatne). V praxi sa jazykové prostriedky MorfAn často špecifikujú oddelene a prostriedky SinAn a SemAn sa kombinujú. Rozdiel medzi úrovňami však môže zostať zmysluplný iba vtedy, ak sa v ich popisoch použije jediný formalizmus, vhodný na reprezentáciu informácií zo všetkých rozlíšených úrovní.

Z technického hľadiska modulárnosť jazykovej podpory znamená oddelenie štruktúrnej reprezentácie fráz a textov (ako aktuálnych, dočasných znalostí o texte) od „trvalých“ znalostí o jazyku, ako aj jazykových znalostí zo softvérových znalostí. ; oddelenie slovníkov od gramatík, gramatiky od algoritmov na ich spracovanie, algoritmy od programov. Špecifické vzťahy medzi jednotlivými modulmi systému (slovníky-gramatiky, gramatiky-algoritmy, algoritmy-programy, deklaratívno-procedurálne znalosti atď.), vrátane distribúcie lingvistických údajov naprieč úrovňami, sú hlavnou vecou, ​​ktorá určuje špecifiká SMP.

Slovníky. Analytické slovníky sú zvyčajne jednojazyčné. Musia obsahovať všetky informácie potrebné na zahrnutie danej lexikálnej jednotky (LU) do štruktúrnej reprezentácie. Slovníky základov (s morfologicko-syntaktickými informáciami: slovný druh, typ skloňovania, podtrieda charakterizujúca syntaktické správanie LE atď.) sú často oddelené od slovníkov významov slov obsahujúcich sémantické a konceptuálne informácie: sémantická trieda LE, sémantické nádeje (valencie), podmieňuje ich realizáciu vo fráze a pod.

V mnohých systémoch sú slovníky bežnej a terminologickej slovnej zásoby oddelené. Toto členenie umožňuje pri prechode na texty inej tematickej oblasti obmedziť sa len na meniace sa terminologické slovníky. Slovníky komplexných LE (zákruty fráz, konštrukcie) zvyčajne tvoria samostatné pole, informácie o slovníkoch v nich naznačujú spôsob „zhromažďovania“ takejto jednotky počas analýzy. Časť informácií zo slovníka môže byť špecifikovaná v procedurálnej forme, napríklad polysémne slová môžu byť spojené s algoritmami na riešenie zodpovedajúceho typu nejednoznačnosti. Nové typy organizácie slovníkových informácií na účely MT ponúkajú takzvané „lexikálne znalostné bázy“. Prítomnosť heterogénnych informácií o slove (nazývaných lexikálny vesmír slova) približuje takýto slovník skôr k encyklopédii než k tradičným lingvistickým slovníkom.

Gramatiky a algoritmy. Gramatika a slovná zásoba definujú lingvistický model a tvoria väčšinu lingvistických údajov. Algoritmy na ich spracovanie, 1. teda koreláciu s textovými jednotkami, sa označujú ako matematická a algoritmická podpora systému.

Oddelenie gramatiky a algoritmov je dôležité v praktickom zmysle, pretože vám umožňuje meniť pravidlá gramatiky bez zmeny algoritmov (a teda programov), ktoré pracujú s gramatikami. Takéto rozdelenie však nie je vždy možné. Takže pre systém s procedurálnou úlohou gramatiky a ešte viac s procedurálnou reprezentáciou informácií zo slovníka je takéto rozdelenie irelevantné. Rozhodovacie algoritmy v prípade nedostatočných (nekompletnosť vstupných údajov) alebo nadbytočných (variabilita analýzy) informácií sú empirickejšie, ich formulácia vyžaduje jazykovú intuíciu. Nastavenie všeobecného riadiaceho algoritmu, ktorý riadi poradie, v ktorom sa volajú rôzne gramatiky (ak ich je v jednom systéme niekoľko), vyžaduje aj lingvistické zdôvodnenie. Súčasným trendom je však oddeľovať gramatiky od algoritmov tak, aby všetky lingvisticky zmysluplné informácie boli špecifikované v statickej forme gramatík, a robiť algoritmy natoľko abstraktné, aby mohli volať a spracovávať rôzne lingvistické modely.

Najjasnejšie oddelenie gramatík a algoritmov je pozorované v systémoch pracujúcich s bezkontextovými gramatikami (CFG), kde jazykovým modelom je gramatika s konečným počtom stavov a algoritmus musí poskytovať ľubovoľnú vetu strom jej výstupu. podľa pravidiel gramatiky a ak existuje niekoľko takýchto výstupov, uveďte ich. Takýto algoritmus, ktorý je formálnym (v matematickom zmysle) systémom, sa nazýva analyzátor. Popis gramatiky slúži pre analyzátor, ktorý má univerzálnosť, rovnaký vstup ako analyzovaná veta. Analyzátory sú zostavené pre triedy gramatiky, hoci zohľadnenie špecifických vlastností gramatiky môže zvýšiť efektivitu syntaktického analyzátora.

Gramatiky na syntaktickej úrovni sú najrozvinutejšou časťou tak z hľadiska lingvistiky, ako aj z hľadiska ich zabezpečenia formalizmom.

Hlavné typy gramatík a algoritmov, ktoré ich implementujú:

Reťazová gramatika fixuje poradie prvkov, teda lineárnych štruktúr vety, špecifikuje ich z hľadiska gramatických tried slov (člen + podstatné meno + predložka) alebo z hľadiska funkčných prvkov (predmet + prísudok);

Gramatika komponentov (alebo gramatika priamych komponentov - NSG) zaznamenáva jazykové informácie o zoskupení gramatických prvkov, napríklad menná fráza (pozostáva z podstatného mena, člena,
prídavné meno a iné modifikátory), predložková väzba (pozostáva z predložky a mennej frázy) a pod. až do úrovne vety. Gramatika je konštruovaná ako súbor substitučných pravidiel, alebo kalkulus produkcií tvaru A-»B...C. NSG
Sú to gramatiky generatívneho typu a možno ich použiť pri analýze aj syntéze: vety jazyka sa generujú opakovanou aplikáciou takýchto pravidiel;

Závislá gramatika (DG) špecifikuje hierarchiu vzťahov medzi vetnými prvkami (hlavné slovo určuje formu závislých). Analyzátor v GZ je založený na identifikácii nadriadených a ich podriadených (sluhov). Hlavná vec vo vete je sloveso v osobnej forme, pretože určuje počet a povahu závislých podstatných mien. Stratégia analýzy v občianskom práve je zhora nadol: najprv sa identifikujú páni, potom sluhovia, alebo zdola nahor: páni sú určení procesom nahradenia;

Bar-Hillelova kategoriálna gramatika je verziou konštitučnej gramatiky, v ktorej sú len dve kategórie - vety S a mená n. Ostatné sú definované z hľadiska schopnosti kombinovať sa s týmito hlavnými v štruktúre NS. Prechodné sloveso je teda definované ako n\S, pretože sa kombinuje s a naľavo od mena a vytvára vetu S.

Existuje mnoho spôsobov, ako vysvetliť kontextové podmienky: gramatiky metamorfózy a ich varianty. Všetky sú rozšírením pravidiel KS. Vo všeobecnosti to znamená, že pravidlá výroby sú prepísané takto: A [a] -> B [b], ..., C [c], kde malé písmená označujú podmienky, testy, pokyny atď. pôvodné pevné pravidlá a poskytujúce gramatiku flexibilitu a efektivitu.

V gramatike zovšeobecnených komponentov-TCS sú zavedené metapravidlá, ktoré sú zovšeobecnením zákonitostí pravidiel KS1.

Gramatiky rozšírených prechodových sietí-RSP poskytujú testy a podmienky pre oblúky, ako aj inštrukcie, ktoré sa musia vykonať, ak analýza sleduje daný oblúk. V rôznych modifikáciách RSP je možné oblúkom priradiť váhy, potom môže analyzátor vybrať dráhu s najvyššou váhou. Podmienky možno rozdeliť na dve časti: bezkontextové a kontextové.

Typ RSPG je kaskádový RSPG. Kaskáda je RSP vybavená akciou 1shshsh1. Táto akcia spôsobí zastavenie procesu v tejto kaskáde, uloženie informácií o aktuálnej konfigurácii do zásobníka a prechod do hlbšej kaskády s následným návratom do pôvodného stavu. RSP má množstvo možností transformačných gramatík. Dá sa použiť aj ako generátorový systém.

Metóda grafovej analýzy vám umožňuje ukladať čiastkové výsledky a prezentovať možnosti analýzy.

Novou a hneď populárnou metódou gramatického opisu je lexikálno-funkčná gramatika (LFG). Eliminuje potrebu transformačných pravidiel. Hoci je LFG založený na CSG, testovacie podmienky v ňom sú oddelené od substitučných pravidiel a sú „riešené“ ako autonómne rovnice.

Unifikačné gramatiky (UG) predstavujú po grafových schémach ďalší stupeň zovšeobecnenia analytického modelu: sú schopné stelesňovať gramatiky rôznych typov. UG obsahuje štyri komponenty: zjednocovací balík, tlmočník pravidiel a lexikálnych popisov, programy na spracovanie orientovaných grafov a analyzátor pomocou grafového diagramu. UG kombinujú gramatické pravidlá so slovníkovými opismi, syntaktické valencie so sémantickými.

Ústredným problémom každého analytického systému NL je problém výberu možností. Na jeho vyriešenie sú gramatiky na syntaktickej úrovni doplnené o pomocné gramatiky a metódy na analýzu zložitých situácií. NN gramatiky používajú filtračné a heuristické metódy. Metóda filtrovania je: že najskôr dostanú všetky možnosti na analýzu návrhu a potom odmietnu tie, ktoré nespĺňajú určitý systém filtračných podmienok. Heuristická metóda od začiatku konštruuje len časť možností, ktoré sú z hľadiska daných kritérií vierohodnejšie. Použitie váh na výber možností je príkladom použitia heuristických metód v analýze.

Sémantická úroveň je oveľa menej podporovaná teóriou a praktickým vývojom. Tradičnou úlohou sémantiky je odstrániť nejednoznačnosť syntaktickej analýzy – štruktúrnej a lexikálnej. Na tento účel sa používa aparát selektívnych obmedzení, ktorý je viazaný na rámce viet, teda zapadá do syntaktického modelu. Najbežnejší typ SemAn je založený na takzvaných pádových gramatikách. Základom gramatiky je koncept hlbokého alebo sémantického prípadu. Pádový rámec slovesa je rozšírením pojmu valencia: je to súbor sémantických vzťahov, ktoré môžu (povinné alebo fakultatívne) sprevádzať sloveso a jeho variácie v texte. V rámci toho istého jazyka sa ten istý hlboký pád realizuje rôznymi povrchovými tvarmi predložkového pádu. Hlboké prípady v zásade umožňujú ísť za hranice vety a ísť do textu znamená prejsť na sémantickú úroveň analýzy.

Keďže sémantické informácie sa na rozdiel od syntaktických informácií, ktoré sa opierajú predovšetkým o gramatiky, sústreďujú najmä v slovníkoch, v 80. rokoch sa gramatiky intenzívne rozvíjali na „lexikalizáciu“ DRG. Prebieha vývoj gramatík založených na štúdiu vlastností diskurzu.

Počítač pripojený na internet sa za posledné desaťročia stal najdôležitejším nástrojom prekladateľa. Veď vďaka nej je zabezpečený prístup k obrovskému množstvu informácií, ako aj k elektronickým slovníkom a prekladačom. Strojový preklad sa dnes stal samozrejmosťou.

Pojem „strojový preklad“ (MT, tiež známy ako strojový preklad alebo MT) sa vzťahuje na činnosť, keď sa jeden prirodzený jazyk prekladá do iného pomocou špeciálneho softvéru na tento účel. Program je možné nainštalovať priamo do počítača (alebo) alebo byť prístupný len pri pripojení na internet.

Trochu histórie

Myšlienka použiť na preklad výpočtové zariadenie sa objavila už v roku 1947. Ale implementácia tohto v tých rokoch bola jednoducho nemožná, pretože počítačová technológia bola v plienkach. Avšak už v roku 1954 sa uskutočnil prvý pokus o strojový preklad. Úplne prvý slovník obsahoval iba 250 slov a gramatika bola obmedzená na 6 pravidiel. To nás však stačilo presvedčiť, že strojový preklad má veľkú budúcnosť. Práca v tomto smere sa začala v mnohých krajinách, začali sa objavovať prvé systémy strojového prekladu (MTS) a vznikali špeciálne teórie.

Rozvoj strojového prekladu na začiatku brzdila nízka úroveň výpočtovej techniky a jej veľmi vysoká cena. Postupné prenikanie prvých osobných počítačov a následne internetu do našich životov však viedlo k prudkému rozvoju tohto odvetvia. Dnes sa strojový preklad aktívne používa v rôznych oblastiach ľudskej činnosti.

Kto to potrebuje

Rozvoju strojového prekladu napomohlo rozšírenie medzinárodných vzťahov. Ľudia začali častejšie cestovať do iných krajín a odchod za obchodom do zahraničia prestal byť niečím výnimočným aj na pomery malých firiem. A ak áno, ťažkosti v komunikácii vznikajú čoraz častejšie. V dôsledku toho sa dnes v podnikaní čoraz viac používa strojový preklad. Aj keď výsledok prekladov poskytovaných počítačom nie je ani zďaleka ideálny, stále je to lepšie ako nič.

Pomocou SMP je možné veľmi rýchlo pochopiť obsah veľkých objemov textov, čo je pri tradičnom prístupe jednoducho nemožné. To môže byť veľmi užitočné napríklad vtedy, ak potrebujete utriediť veľké množstvo informácií v cudzom jazyku. Alebo vykonať lingvistickú analýzu.

MP sa stalo samozrejmosťou aj pri komunikácii na internete, keď je veľmi dôležitá vysoká rýchlosť prekladu a pochopenie toho, čo vám partner povedal. V tomto prípade však môžete pokojne zabudnúť na prenášanie literárnych obrazov, ak chcete byť správne pochopení. Iba „suché“ frázy, bez akýchkoľvek nejasností.

Ľudská účasť

Napriek vývoju rôznych prístupov a riešení problémov s výpočtovou silou je kvalita strojového prekladu stále ďaleko od ideálu. Aj keď úspechy v tejto veci možno nazvať pôsobivými, ale iba v porovnaní s úplne prvými systémami.

Moderní SMP sa už naučili viac-menej primerane prekladať odborné texty, ktoré, ako vieme, neobsahujú tie literárne slobody, ktoré sa často vyskytujú v literárnych textoch. Kvalitu prekladu výrazne ovplyvňuje príbuznosť jazykov. Napríklad pri preklade z do bude výsledok oveľa hodnotnejší ako z do. V druhom prípade sa výsledný text môže ukázať ako jednoducho nečitateľný nezmysel.

Z tohto dôvodu strojový preklad zatiaľ nemôže fungovať bez ľudského zásahu. Ktorý text buď na začiatku prispôsobí, pričom odstráni všetky možné nejasnosti (predúprava), alebo upraví hotový preklad, pričom z neho odstráni takmer nevyhnutné chyby (dodatočné úpravy). Existuje aj koncept intereditingu, keď osoba priamo zasahuje do fungovania systému a opravuje nepresnosti, ktoré vznikajú „za behu“.

Aké typy pohotovostných služieb existujú?

Doposiaľ bola práca v oblasti MP rozdelená do dvoch hlavných oblastí:

  • Štatistický strojový preklad (Štatistický strojový preklad, SMT);
  • Strojový preklad založený na pravidlách (strojový preklad založený na pravidlách, RBMT).

V prvom prípade máme samoučiace sa systémy. Preklad je možný vďaka neustálej analýze veľkého množstva textov s rovnakým obsahom, ale v rôznych jazykoch. Systém nájde a použije vždy existujúce vzory. Kvalita prekladu pri použití SMT sa považuje za pomerne vysokú. Ale iba v prípade, že systém už zvládol analyzovať obrovské množstvo informácií. A na to potrebujete mať nielen samotné testy, ale aj pôsobivý výpočtový výkon. To znamená, že v tomto smere môžu pracovať len veľké spoločnosti. Príklady takýchto systémov: Google Prekladač, Preklad Yandex a Bing prekladač od spoločnosti Microsoft.

V prípade RBMT systémov sú všetky pravidlá vytvorené ľuďmi, ktorí ich potom neustále „testujú“. Kvalita výsledku teda závisí od toho, do akej miery sú lingvisti schopní opísať prirodzený jazyk, s ktorým pracujú. Práve potreba neustáleho udržiavania vytvorenej lingvistickej databázy v aktuálnom stave je hlavnou nevýhodou RBMT systémov. Na vytvorenie prekladača schopného poskytnúť uspokojivý výsledok však nie je potrebný pôsobivý výpočtový výkon, ktorý umožňuje malým spoločnostiam pracovať týmto smerom. Príklady zahŕňajú systémy ako napr Multilect, Linguatec A PROMT.

Existuje aj tretia možnosť: hybridný strojový preklad. (Hybridný strojový preklad, HMT). Táto metóda kombinuje oba prístupy, SMT a RBMT. Teoreticky vám tento prístup umožňuje získať výhody oboch technológií. To je to, čo spoločnosť používa Systran, založená v roku 1968 a považovaná za najstarší obchodný podnik pôsobiaci v oblasti MP.

Kontsevoy Daniil Sergejevič,
Súkromná vzdelávacia inštitúcia vyššieho vzdelávania "Omská právnická akadémia", Omsk

Prekladateľ v odbore odbornej komunikácie je človek aktívne ovládajúci cudzí jazyk odbornej sféry, ktorý je schopný logicky správne, zdôvodnene a zrozumiteľne konštruovať cudzojazyčný ústny a písomný prejav, a čo je najdôležitejšie, ovládať techniku pomocou systémov strojového prekladu, pretože ani profesionáli sa nezaobídu bez toho, aby sa obrátili na elektronické prekladače.

Strojový preklad - proces vykonávaný na počítači alebo inom elektronickom zariadení na konverziu textu z jedného jazyka na ekvivalentný text v inom jazyku, ako aj výsledok takejto akcie. Keďže neexistujú plne automatizované elektronické prekladače schopné presne a správne preložiť text, musí tento text pripraviť odborný prekladateľ, prípadne opraviť chyby a vynechané položky už v strojovo spracovanom texte.

Existujú štyri formy organizácie interakcie medzi počítačom a osobou pri vykonávaní strojového prekladu:

  • predúprava: osoba pripraví text na počítačové spracovanie (zjednodušenie významu textu, odstránenie nejednoznačných čítaní, označenie textu), po ktorom sa vykoná strojový preklad;
  • interediting: osoba priamo zasahuje do prevádzky prekladateľského systému, rieši problematické otázky;
  • dodatočná úprava: celý zdrojový text je podrobený strojovému spracovaniu a človek opraví výsledok úpravou preloženého textu;
  • zmiešaný systém.

Moderné elektronické prekladače sú schopné produkovať percepčne adekvátny preklad jednotlivých slovných spojení a viet, slúžia na uľahčenie práce ľudského prekladateľa, odbremenenie od rutinného hľadania významov určitých slov a slovných spojení v slovníkoch.

Na zvládnutie systémov strojového prekladu je potrebné mať aspoň všeobecné znalosti o technológiách elektronického prekladu. V strojovom preklade ich je niekoľko:

1) Priamy strojový preklad

Priamy strojový preklad je najstarším prístupom strojového prekladu. Pri tejto metóde prekladu text v zdrojovom jazyku nepodlieha štruktúrnej analýze nad rámec morfológie. Tento preklad používa veľké množstvo slovníkov a je od slova do slova, až na drobné gramatické úpravy, napríklad čo sa týka slovosledu a morfológie. Systém priameho prekladu je navrhnutý pre špecifické jazykové dvojice. Lexikón je úložisko informácií o špecifikách slov. Tieto systémy závisia od kvality prípravy slovníka, morfologickej analýzy a softvéru na spracovanie textu. Príkladom systému priameho prekladu je Systran.

2) Strojový preklad založený na pravidlách využíva veľkú zásobu lingvistických pravidiel a dvojjazyčných slovníkov pre každý jazykový pár. Typy strojového prekladu založeného na pravidlách zahŕňajú princíp interlingua a strojový preklad Transfer.

  • Strojový preklad Interlingua

Pri strojovom preklade založenom na princípe interlingua sa preklad uskutočňuje prostredníctvom intermediárneho (sémantického) modelu textu zdrojového jazyka. Interlingua je jazykovo nezávislý model, z ktorého možno generovať preklady do akéhokoľvek jazyka. Princíp interlingua umožňuje transformáciu textu v zdrojovom jazyku na model spoločný pre viaceré jazyky.

  • Transferový strojový preklad je založený na myšlienke interlinguy pomocou komparatívnej analýzy dvoch jazykov. Tri fázy tohto procesu sú analýza, prenos a generovanie. Najprv sa text zdrojového jazyka preloží do abstraktného alebo prechodného modelu zdrojového jazyka, ktorý sa potom transformuje na model cieľového jazyka, aby sa nakoniec sformoval do textu v cieľovom jazyku. Tento princíp je jednoduchší ako interlingua, ale je ťažšie vyhnúť sa nejednoznačnosti.

3) Strojový preklad na textové korpusy

Korpusový prístup v strojovom preklade využíva kolekciu (korpus) paralelných dvojjazyčných textov. Hlavnou výhodou systémov strojového prekladu na báze korpusu je ich samoladenie, t.j. sú schopní zapamätať si terminológiu a dokonca aj štýl fráz z textov predchádzajúcich prekladov. Štatistický strojový preklad a strojový preklad založený na príkladoch sú variantmi korpusového prístupu.

  • Štatistický strojový preklad

Ide o typ strojového prekladu textu založeného na porovnávaní veľkých objemov jazykových párov. Tento prekladateľský prístup využíva štatistické modely prekladu. Jedným z používaných prístupov je Bayesova veta. Vytváranie štatistických prekladových modelov je pomerne rýchly proces, no táto technológia sa do veľkej miery spolieha na dostupnosť viacjazyčného textového korpusu. Pre každú jednotlivú oblasť sú potrebné minimálne 2 milióny slov, ak hovoríme o jazyku ako celku. Štatistický strojový preklad vyžaduje špeciálne vybavenie, aby bolo možné „spriemerovať“ modely prekladu. Príkladom štatistického strojového prekladu je Google Translate.

  • Strojový preklad s príkladmi

Systémy strojového prekladu založené na príkladoch sú založené na princípe paralelného bilingválneho korpusu textov, ktorý obsahuje ako príklady dvojice viet. Každá veta je duplikovaná v inom jazyku. Štatistický strojový preklad má vlastnosť „učenia“. Čím viac textov (príkladov) máte k dispozícii, tým lepší je výsledok strojového prekladu.

Každý prekladateľ v oblasti profesionálnej komunikácie sa stretne s problémom výberu vhodného prekladateľského programu. Okrem platených služieb považujeme za potrebné analyzovať najznámejšie systémy.

Elektronický prekladač Google Translate, ktorý vyvinula spoločnosť Google v polovici roku 2000, je veľmi populárny. Táto služba je určená na priebežné preklady textov a webových stránok. Prekladateľ používa samoučiaci sa algoritmus strojového prekladu založený na jazykovej analýze textov.

Na rozdiel od väčšiny strojových prekladačov, ktoré využívajú technológiu SYSTRAN, Google používa vlastný softvér. Google Translate je v súčasnosti najpopulárnejším prekladačom vďaka svojej jednoduchosti a všestrannosti (ako aj priamemu prepojeniu s vývojárom počítačového softvéru – spoločnosťou Microsoft). Vďaka tomu sa tento systém strojového prekladu vyvíja veľmi rýchlo a je optimalizovaný tak, aby vyhovoval potrebám používateľov. Preto teraz možno pozorovať funkcie tohto prekladača: preklad celej webovej stránky; simultánne vyhľadávanie informácií s prekladom do iného jazyka; preklad textu na obrázky; preklad hovorenej frázy; preklad rukopisu; preklad dialógu.

Funkcie tohto systému strojového prekladu zahŕňajú:

  1. Možnosti prekladu sú riadené štatistickým algoritmom.

Používatelia môžu vždy ponúknuť svoje vlastné preklady určitých slov a/alebo si vybrať jednu z možností prekladu ako najvhodnejšiu. Nevýhodou takéhoto algoritmu môžu byť zámerne nesprávne možnosti prekladu vrátane obscénnych slov.

  1. Pokrytie svetových jazykov.

To znamená, že program teraz pracuje s viac ako stovkou jazykov vrátane svahilčiny, čínštiny a waleštiny. Google Translator je teda schopný prekladať z jedného podporovaného jazyka do druhého podporovaného jazyka, ale vo väčšine prípadov sa preklad vykonáva cez angličtinu. Nevýhoda tohto mechanizmu je zrejmá – trpí tým kvalita prekladu.

PROMT, vyvinutý v roku 1991, zaujíma vedúce postavenie na ruskom trhu strojových prekladateľov.

PROMT, podobne ako Google Translate, používa vlastný softvér, ktorý bol v roku 2010 výrazne aktualizovaný. Odteraz PROMT vykonáva preklady založené na hybridnej technológii. Jeho podstata spočíva v tom, že namiesto jednej možnosti prekladu program vyprodukuje približne sto prekladov tej istej vety v závislosti od polysémie slov, konštrukcií a štatistických výsledkov. Stroj potom vyberie najpravdepodobnejší z navrhovaných prekladov. Prekladateľ sa teda dokáže rýchlo učiť, má však rovnaké nevýhody ako všetky prekladače založené na štatistických metódach spracovania textu.

Možnosti prekladateľa zahŕňajú: preklad slov, fráz a textov vrátane použitia klávesových skratiek; preklad vybranej oblasti obrazovky s grafickým textom; preklad dokumentov rôznych formátov: doc(x), xls(x), ppt(x), rtf, html, xml, txt, ttx, pdf (vrátane naskenovaných), jpeg, png, tiff; používanie, úprava a tvorba špecializovaných slovníkov a prekladových profilov; pripojenie databáz a slovníkov prekladovej pamäte; integrácia do kancelárskych aplikácií, webových prehliadačov, firemných portálov a webových stránok.

Nevýhody prekladača sú: malý počet jazykových párov, s ktorými program pracuje; komplexné rozhranie; nepresnosti v prekladoch odbornej slovnej zásoby (čo však odbúrava spájaním tematických slovníkov).

PROMT však bol ocenený ako najlepší anglicko-ruský prekladateľ na každoročnom workshope o štatistickom strojovom preklade pod záštitou Asociácie pre počítačovú lingvistiku (ACL) v rokoch 2013 a 2014.

Existuje mnoho ďalších systémov strojového prekladu, ale tak či onak kopírujú rôzne funkcie domáceho prekladača PROMT alebo amerického Google Translate.

Prekladateľ v oblasti profesionálnej komunikácie, ktorý pozná technológie strojového prekladu a vie si vybrať správneho elektronického prekladateľa na určité účely, bude mať dôvtip na vykonávanie úspešnej odbornej činnosti, pretože v tejto fáze vývoja výpočtovej techniky je príliš zavčasu uvažovať o plne automatickom strojovom preklade. Ľudský prekladateľ myslí v obrazoch a vychádza z cieľa: sprostredkovať konkrétnu myšlienku poslucháčovi/čitateľovi. Stále je ťažké predstaviť si počítačový program s takýmito schopnosťami. Pomocnú úlohu zohrávajú moderné strojové prekladače. Sú navrhnuté tak, aby ušetrili človeka od rutinnej práce počas procesu prekladu. Doba papierových slovníkov sa skončila a profesionálnym prekladateľom (a nielen ostatným) prichádzajú na pomoc systémy strojového prekladu.

Zoznam použitej literatúry

  1. www.promt.ru
  2. www.translate.google.com
  3. Belonogov G.G. Zelenkov Yu.G. Interaktívny systém pre rusko-anglický a anglicko-ruský strojový preklad, VINITI, 1993.
  4. Bulletin Moskovskej univerzity. Ser.19 Lingvistika a medzikultúrna komunikácia. 2004. č. 4, s.

Vaše hodnotenie: Prázdne

Obsah:
Úvod………………………………………………………………………………. 3
1.1 Čo je strojový preklad? ................................................ ...................................... 5
1.2 Začiatok strojového prekladu……..………….……...….………………… 8
1.3 Etapy vývoja strojového prekladu……………………….………….…. 12
1.4 Moderný strojový preklad …………………..……………………….. 15
1.5 Strojový preklad na internete …….……………………… ……………….. 18
Záver …………………………………………………………………………. 21
Literatúra …………………………………………………………………………………. . 22

Úvod.
Mechanizácia prekladu je najstarším snom ľudstva. Ale v 20. storočí sa takýto sen stal skutočnosťou. Je to spôsobené najmä neustálou túžbou spoločnosti po globalizácii a dokonca aj etnickými konfliktmi a politickými kataklizmami, posilňovaním sociálno-ekonomických väzieb medzi štátmi a integráciou mnohých predtým „uzavretých“ krajín do svetového spoločenstva. Znalosť cudzích jazykov je nielen užitočnou zručnosťou v každodennom živote, ale aj jednou zo základných požiadaviek pri uchádzaní sa o zamestnanie. V súčasnosti je potreba ovládať jeden alebo dokonca niekoľko cudzích jazykov čoraz naliehavejšia. Znalosť jazyka (angličtina alebo nemčina) je potrebná nielen pri cestovaní na zahraničnú dovolenku, ale aj pri prijímaní obchodných partnerov zo zahraničia, v bežnom živote pri čítaní správ či pozeraní filmov. Preto je veľké množstvo rutinných, každodenných a každodenných operácií, ktoré predtým nevyžadovali znalosť cudzieho jazyka, dnes v dôsledku rozvoja medzinárodných integračných procesov a rozšírenej túžby podnikania po globalizácii čoraz ťažšie, ak sa spoliehame na iba jeden jazyk. V tomto smere sú dnes služby prekladateľov, ktorí vykonávajú odborné preklady do angličtiny, nemčiny a iných jazykov a jazykových párov, čoraz žiadanejšie. Dnes však samotná znalosť cudzích jazykov nestačí, pretože objem informácií, ktoré je potrebné každý deň preložiť, sa výrazne zvýšil. Zároveň je táto úloha úspešne vyriešená a preložiť zmluvu alebo obsah zahraničnej webovej stránky nie je pre nikoho ťažké za pár sekúnd. A to všetko preto, že preklad v tomto prípade vykonáva prekladateľský program: osoba nemá čas ani žmurknúť a preklad je už pripravený.
Ale dnes, ako predtým, realita nie je dokonalá. Neexistuje jediný systém strojového prekladu, ktorý by kliknutím na pár tlačidiel dokázal vyrobiť bezchybný preklad akéhokoľvek textu v akomkoľvek jazyku bez ľudského zásahu alebo aspoň úpravy. Zatiaľ sú to len plány do ďalekej budúcnosti, ak sa takýto ideál vôbec podarí dosiahnuť, keďže mnohí tento predpoklad spochybňujú.

1.1 Čo je strojový preklad?

Strojový preklad je proces prekladu vykonávaný špeciálnym počítačovým programom, ktorý umožňuje previesť text v jednom prirodzenom jazyku na ekvivalentný text v inom jazyku. Tak sa nazýva aj smer vedeckého výskumu súvisiaceho s výstavbou takýchto systémov.
Moderný strojový alebo automatický preklad možno považovať za interakciu počítačového programu s osobou:

      S post-editáciou, keď zdrojový text spracuje stroj a ľudský editor výsledok opraví.
      S predúpravou, kedy človek prispôsobí text na spracovanie napríklad strojom, eliminuje prípadné nejednoznačné čítania, zjednoduší a označí text, po ktorom sa začne softvérovo spracovávať.
      S intereditingom, pri ktorom človek zasahuje do chodu prekladateľského systému, rieši zložité prípady.
      Zmiešané systémy, vrátane napríklad simultánnych pre- a post-editácií.
Hlavným cieľom strojového prekladu ako vedy je vyvinúť algoritmus, ktorý úplne automatizuje proces prekladu.
Na vykonanie strojového prekladu sa do počítača zavedie špeciálny program, ktorý implementuje prekladový algoritmus, ktorý sa chápe ako postupnosť jednoznačne a striktne definovaných akcií s textom na nájdenie prekladovej korešpondencie v danom páre jazykov L 1 - L 2 pre daný smer prekladu (z jedného konkrétneho jazyka do druhého) . Systém strojového prekladu obsahuje dvojjazyčné slovníky vybavené potrebnými gramatickými informáciami (morfologickými, syntaktickými a sémantickými) na zabezpečenie prenosu ekvivalentných, variantných a transformačných prekladových korešpondencií, ako aj algoritmické nástroje gramatickej analýzy, ktoré implementujú ktorúkoľvek z formálnych gramatík akceptovaných pre automatické preklady. spracovanie textu. Existujú aj samostatné systémy strojového prekladu určené na preklad v rámci troch alebo viacerých jazykov, ale tieto sú v súčasnosti experimentálne.
Najbežnejšia je nasledujúca postupnosť formálnych operácií, ktoré poskytujú analýzu a syntézu v systéme strojového prekladu:
1. V prvej fáze sa zadá text a vykoná sa vyhľadávanie vstupných tvarov slov (slová v konkrétnom gramatickom tvare, napríklad datív množného čísla) vo vstupnom slovníku (slovníku jazyka, z ktorého sa preklad robí ) so sprievodným morfologickým rozborom, pri ktorom sa zistí, že daný tvar slova patrí do určitej lexémy (slovo ako jednotka slovnej zásoby). V procese analýzy možno z formy slova získať aj informácie súvisiace s inými úrovňami organizácie jazykového systému.
2. Ďalšia fáza zahŕňa preklad idiomatických fráz, frazeologických jednotiek alebo klišé danej tematickej oblasti. Zahŕňa určenie základných gramatických (morfologických, syntaktických, sémantických a lexikálnych) charakteristík prvkov vstupného textu, produkovaného v rámci vstupného jazyka; rozlíšenie homografií (konverzia homonymie slovných tvarov - povedzme angl. okrúhly môže byť podstatné meno, prídavné meno, príslovka, sloveso alebo predložka); lexikálna analýza a preklad lexém. Typicky sa v tomto štádiu oddeľujú jednohodnotové slová od polysémických slov (majú viac ako jeden prekladový ekvivalent v cieľovom jazyku), potom sa jednohodnotové slová prekladajú pomocou zoznamov ekvivalentov a na preklad polysémantických slov sa používajú tzv. používajú sa kontextové slovníky, ktorých slovníkové položky sú algoritmy na dopytovanie kontextu v prítomnosti alebo neprítomnosti kontextových determinantov významu.
3. Záverečná gramatická analýza, počas ktorej sa zisťujú potrebné gramatické informácie s prihliadnutím na údaje cieľového jazyka (napríklad pri ruských podstatných menách ako napr. sane, nožnice sloveso musí byť v množnom čísle, hoci originál môže mať aj tvar jednotného čísla).
4. Syntéza výstupných slovných tvarov a viet ako celku v cieľovom jazyku.
V závislosti od charakteristík morfológie, syntaxe a sémantiky konkrétneho jazykového páru, ako aj od smeru prekladu, môže všeobecný prekladový algoritmus zahŕňať ďalšie štádiá, ako aj modifikácie týchto štádií alebo poradie ich výskytu, ale variácie tohto druhu v moderných systémoch sú zvyčajne bezvýznamné. Analýza a syntéza sa môžu vykonávať ako frázu po fráze, tak pre celý text zadaný do pamäte počítača; v druhom prípade translačný algoritmus zabezpečuje identifikáciu takzvaných anaforických spojení.
Moderný strojový preklad by sa mal odlišovať od používania počítačov na pomoc ľudským prekladateľom. V druhom prípade máme na mysli automatický slovník, ktorý človeku pomôže rýchlo vybrať požadovaný prekladový ekvivalent. Hoci v oboch prípadoch počítač spolupracuje s osobou (prekladateľom alebo redaktorom), obsah pojmu „strojový preklad“ zahŕňa myšlienku, že hlavnú časť práce na preklade a hľadaní prekladových ekvivalentov a prekladových korešpondencií vykonáva stroj sami, pričom človeku ponechávajú iba kontrolu a opravu chýb. Zatiaľ čo počítačový slovník na pomoc človeku je čisto pomocný nástroj na rýchle nájdenie prekladových zhôd; Zároveň však v slovníkoch tohto druhu možno v obmedzenej miere implementovať niektoré funkcie vlastné systémom strojového prekladu.

1.2 Spustenie strojového prekladu.

Technológia strojového prekladu ako vedný odbor má takmer storočnú históriu a prvé nápady na automatizáciu prekladateľského procesu sa objavili v 17. storočí.
Ako sa všeobecne uznáva, dôvodmi pre vznik strojového prekladu bol od 2. polovice 20. storočia rýchlo rastúci tok informácií v rôznych jazykoch rôznych krajín a kontinentov, potreba ich asimilácie pre vedecký a technologický pokrok, nedostatok kvalifikovaných (najmä v určitých oblastiach) prekladateľov, ako aj vysoké náklady na ich prípravu.
Anglický vynálezca Charles Babbage prvýkrát premýšľal o vývoji nových metód prekladu, ktorý to navrhol koncom 30. rokov 19. storočia. projekt prvého počítača v histórii. Podstatou činnosti zariadenia bolo využitie potenciálu počítačovej pamäte na ukladanie slovníkov. Myšlienka Ch. Babbagea bola, že na uloženie slovníkov by sa dala použiť pamäť 1000 50-bitových desiatkových čísel (50 prevodov v každom registri). Babbageovi sa však nikdy nepodarilo preniesť svoj nápad do života.
Teoretickým základom počiatočného obdobia prác na strojovom preklade bol pohľad na jazyk ako kódový systém. Priekopníkmi strojového prekladu boli matematici a inžinieri. Opisy ich prvých experimentov s využitím novovznikajúcich počítačov na riešenie kryptografických problémov boli publikované v USA koncom 40. rokov 20. storočia. Za dátum narodenia strojového prekladu ako oblasti výskumu sa zvyčajne považuje marec 1947. Práve vtedy riaditeľ oddelenia prírodných vied Rockefellerovej nadácie, Warren Weaver, vypracoval memorandum, v ktorom označil úlohu prekladu textu z jedného jazyka do druhého ako ďalšiu oblasť použitia technológie dešifrovania. Warren Weaver vo svojom liste Norbertovi Wienerovi prvýkrát nastolil problém strojového prekladu a prirovnal ho k problému dešifrovania.
Nasledovala horúca diskusia o myšlienke automatického prekladu a teoretickom vývoji prvých technológií. Boli vyslovené návrhy na úplné nahradenie ľudských prekladateľov elektronickými systémami a mnohí profesionálni prekladatelia sa obávali, že budú v blízkej budúcnosti nezamestnaní. Weaverove myšlienky tvorili základ prístupu k strojovému prekladu založenému na koncepte interlingva: etapa prenosu informácií je rozdelená na dve etapy; V prvej fáze sa zdrojová veta preloží do stredného jazyka (vytvoreného na základe zjednodušenej angličtiny) a potom sa výsledok tohto prekladu predstaví v cieľovom jazyku.
Ten istý Warren Weaver po sérii diskusií vypracoval v roku 1949 memorandum, v ktorom teoreticky zdôvodnil zásadnú možnosť vytvorenia systémov strojového prekladu.Systémy strojového prekladu sa v tých rokoch značne líšili od moderných systémov. Boli to veľmi veľké a drahé stroje, ktoré zaberali celé miestnosti a na ich údržbu si vyžadovali veľký personál inžinierov, operátorov a programátorov. Tieto počítače slúžili najmä na vykonávanie matematických výpočtov pre potreby vojenských inštitúcií, ako aj matematicko-fyzikálnych katedier univerzít (tieto boli úzko späté aj s vojenskou sférou). Preto v počiatočných fázach vývoj strojového prekladu aktívne podporovala armáda; Navyše v USA sa hlavná pozornosť venovala rusko-anglickému smeru av ZSSR anglicko-ruskému smeru.
Okrem zjavných praktických potrieb zohrala dôležitú úlohu vo vývoji strojového prekladu skutočnosť, že slávny test inteligencie („Turingov test“), navrhnutý v roku 1950 anglickým matematikom A. Turingom, v skutočnosti nahradil otázku či stroj dokáže uvažovať s otázkou, či dokáže stroj komunikovať s človekom prirodzenou rečou tak, že ho nebude vedieť rozoznať od ľudského partnera. Otázky počítačového spracovania správ prirodzeného jazyka sa tak na desaťročia stali stredobodom výskumu kybernetiky (a následne umelej inteligencie) a nadviazala sa produktívna spolupráca medzi matematikmi, programátormi a počítačovými inžiniermi na jednej strane a lingvistami na ostatný.
Čoskoro sa začalo s financovaním výskumu a v roku 1952 sa na Massachusetts Institute of Technology konala prvá konferencia o strojovom preklade, ktorú zorganizoval logik a matematik J. Bar-Hillel.
V roku 1954 boli verejnosti predstavené prvé výsledky: IBM spolu s Georgetown University (USA) úspešne vykonali prvý experiment. Do histórie sa zapísal ako takzvaný Georgetownský experiment, v rámci ktorého bola predstavená prvá verzia elektronického prekladača. Experiment preukázal plne automatický preklad viac ako 60 viet z z ruštiny do angličtiny . Prezentácia mala pozitívny vplyv na vývoj strojového prekladu v priebehu nasledujúcich 12 rokov.
Experiment bol navrhnutý a pripravený tak, aby zaujal verejné a vládapozornosť. Paradoxne to bolo založené na pomerne jednoduchom systému : bol založený iba na 6gramatické pravidlá a slovník obsahovalo 250 záznamov. Systém bol špecializovaný: aspredmetná oblasťbol vybraný na prekladorganická chémia. Program bežal na sálovom počítači IBM 701.
V tom istom roku 1954 uskutočnili v ZSSR I.K. Belskaya (jazyková časť) a D.Yu (softvérová časť) prvý experiment so strojovým prekladom na Ústave presnej mechaniky a informatiky Akadémie vied ZSSR. a prvý priemyselne vhodný algoritmus strojového prekladu a systém strojového prekladu z angličtiny do ruštiny na univerzálnom počítači vyvinul tím pod vedením Yu.A. Potom sa začala práca v mnohých informačných inštitútoch, vedeckých a vzdelávacích organizáciách v krajine. Osobitnú zmienku si zasluhuje práca v tejto oblasti domácich jazykovedcov, akými sú I.A. Melchuk a Yu.D. V roku 1960 bolo v rámci Výskumného ústavu matematiky a mechaniky v Leningrade zorganizované experimentálne laboratórium strojového prekladu, ktoré sa neskôr transformovalo na Laboratórium matematickej lingvistiky Leningradskej štátnej univerzity.
Demonštrácia experimentu v Georgetowne bola široko hlásená masové médiá a bol vnímaný ako úspech. Ovplyvnil rozhodnutia niektorých vládštátov , Po prvé USA, investujte v regióne počítačová lingvistika. Organizátori experimentu ubezpečili, že do troch až piatich rokov bude problém strojového prekladu vyriešený. Myšlienka strojového prekladu podnietila rozvoj výskumu v teoretickej a aplikovanej lingvistike na celom svete. Objavili sa teórie formálnych gramatík, veľká pozornosť sa venovala modelovaniu jazyka a jeho jednotlivým aspektom, jazykovej a mentálnej činnosti, otázkam jazykovej formy a kvantitatívnym distribúciám jazykových javov. Objavili sa nové oblasti lingvistiky – výpočtová, matematická, inžinierska, štatistická, algoritmická lingvistika a množstvo ďalších odvetví aplikovanej a teoretickej lingvistiky. V priebehu 50. rokov 20. storočia boli vo vzdelávacích centrách po celom svete otvorené katedry aplikovanej lingvistiky a strojového prekladu. Takže v ZSSR boli takéto oddelenia vytvorené v Moskve (MSU pomenované po M. V. Lomonosovovi, Moskovský štátny pedagogický inštitút pomenovaný po M. Thorezovi - teraz MSLU), v Minsku Moskovský štátny pedagogický inštitút cudzích jazykov, v Jerevane, Machačkala, Leningradská univerzita , na univerzitách v Kyjeve, Charkove, Novosibirsku a mnohých ďalších mestách. Výskum a vývoj v oblasti strojového prekladu prebieha aj vo Francúzsku, Anglicku, USA, Kanade, Taliansku, Nemecku, Japonsku, Holandsku, Bulharsku, Maďarsku a ďalších krajinách, ako aj v medzinárodných organizáciách, kde je veľký objem prekladov. z rôznych jazykov. V súčasnosti prebieha výskum v krajinách ako Malajzia, Saudská Arábia, Irán atď.

1.3 Etapy vývoja strojového prekladu.

V dôsledku takéhoto úspešného začiatku vývoja strojového prekladu sa zdalo, že vytvorenie kvalitných automatických prekladateľských systémov je v priebehu niekoľkých rokov celkom realizovateľné. Zároveň sa kládol dôraz na vývoj plne automatických systémov poskytujúcich vysokokvalitné preklady; ľudská účasť vo fáze po úprave sa považovala za dočasný kompromis. Profesionálni prekladatelia sa vážne obávali, že čoskoro zostanú bez práce...
Výskum strojového prekladu však počas svojej histórie zažil vzostupy aj pády. V 50. rokoch minulého storočia sa výrazne investovalo do výskumu, ale výsledky investorov rýchlo sklamali. Jedným z hlavných dôvodov nízkej kvality strojového prekladu v tých rokoch boli obmedzené možnosti hardvéru: malé množstvo pamäte s pomalým prístupom k informáciám v nej obsiahnutých a neschopnosť plne využívať programovacie jazyky na vysokej úrovni. Ďalším dôvodom bol nedostatok teoretického rámca potrebného na riešenie lingvistických problémov. V dôsledku toho sa prvé systémy strojového prekladu zredukovali na preklad slov po slove (slovo po slove) textov bez akejkoľvek syntaktickej a tým menej sémantickej integrity.
V roku 1959 filozof J. Bar-Hillel tvrdil, že kvalitný, plne automatický preklad sa v zásade nedá dosiahnuť. Vychádzal z toho, že výber jedného alebo druhého prekladu je determinovaný znalosťou mimojazykovej reality a tieto poznatky sú príliš rozsiahle a rôznorodé na to, aby sa dali zadať do počítača. Bar-Hillel však nepoprel myšlienku strojového prekladu ako takého, pričom za sľubný smer považoval vývoj strojových systémov orientovaných na ich využitie ľudským prekladateľom (akýsi druh „symbiózy človek-stroj“). Ale tento prejav mal najnepriaznivejší vplyv na vývoj strojového prekladu v Spojených štátoch. Začiatkom 60. rokov sa skončila počiatočná euforická etapa vo vývoji MP. Výrazne to uľahčilo vydanie takzvanej „Čiernej knihy strojového prekladu“ – správy Ad hoc výboru pre aplikovanú lingvistiku (ALPAC) Národnej akadémie vied USA, ktorá konštatovala nemožnosť vytvorenia univerzálneho vysoko- kvalitné systémy strojového prekladu v dohľadnej budúcnosti. Komisia dospela k záveru, že strojový preklad je nerentabilný: pomer ceny a kvality zjavne nie je v prospech druhého a pre potreby prekladu technických a vedeckých textov je dostatok ľudských zdrojov. Dôsledkom tejto publikácie bolo zníženie financií a všeobecný pokles záujmu o problémy strojového prekladu, ale k úplnému obmedzeniu výskumu, najmä teoretického, nedošlo. A prvé prekladateľské systémy boli naďalej populárne vo vojenských a vedeckých inštitúciách ZSSR a USA.
Nová etapa vo vývoji technológií strojového prekladu sa začala v 70. rokoch 20. storočia. Tento vzostup súvisel s nástupom výpočtovej techniky – vznikom mikropočítačov, rozvojom sietí a nárastom pamäťových zdrojov. Programátori opustili myšlienku vytvorenia „ideálneho“ prekladateľského stroja: nové systémy boli vyvinuté s cieľom výrazne zvýšiť rýchlosť prekladu informácií, ale s povinnou účasťou osoby v rôznych fázach procesu prekladu, aby sa dosiahli najlepšiu kvalitu práce.
O oživení strojového prekladu v 70-80 rokoch. Nasledujúce skutočnosti naznačujú: Komisia Európskych spoločenstiev (CEC) kupuje anglicko-francúzsku verziu Systran, ako aj prekladateľský systém z ruštiny do angličtiny (posledný vyvinutý po správe ALPAC a naďalej ho používa US Air Sila a NASA); okrem toho CEC zadáva vývoj francúzsko-anglickej a taliansko-anglickej verzie. V tom čase boli vďaka CEC položené základy projektu EUROTRA, ktorý vychádzal z vývoja skupín SUSY a GETA. Súčasne dochádza v Japonsku k rýchlemu rozširovaniu aktivít na vytváranie systémov strojového prekladu; v USA Panamerická zdravotnícka organizácia (PAHO) nariaďuje vývoj španielsko-anglickej stopy (systém SPANAM); Americké letectvo financuje vývoj systému MP v Lingvistic Research Center na Texaskej univerzite v Austine; Skupina TAUM v Kanade výrazne pokročila vo vývoji svojho systému METEO (ktorý slúžil predovšetkým na preklad správ o počasí). Množstvo projektov začatých v 70-80 rokoch sa následne rozvinulo do plnohodnotných komerčných systémov. U nás vo vývoji základov technológie strojového prekladu pokračovala skupina špecialistov vo VINITI pod vedením profesora G. G. Belonogova. V dôsledku toho v roku 1993 vznikla priemyselná verzia systému RETRANS na frazeologický strojový preklad z ruštiny do angličtiny a naopak, ktorý sa používal na ministerstvách obrany, železníc, vedy a techniky, ako aj v All- Ruské centrum vedeckých informácií.
Ďalšou etapou výskumu v oblasti strojového prekladu boli 90. roky minulého storočia. Súvisí to, samozrejme, s kolosálnym pokrokom moderných osobných počítačov, vznikom kvalitných skenerov a efektívnych programov na optické rozpoznávanie textu prístupných masovému používateľovi a samozrejme s nástupom globálnej počítačovej siete Internet. To všetko dalo nový impulz práci na strojovom preklade, pritiahlo nové významné investície do tejto oblasti a prinieslo vážne praktické výsledky. Na prácu na osobnom počítači sa totiž objavili celkom efektívne systémy strojového prekladu a počítačové slovníky; systémy strojového prekladu boli kombinované so systémami optického rozpoznávania textu a kontroly pravopisu. Pre prácu na internete boli vytvorené špeciálne nástroje strojového prekladu, ktoré poskytujú buď preklady textov na serveroch príslušných spoločností, alebo online preklady webových stránok, umožňujúce prekonať jazykovú bariéru a orientovať sa na zahraničných stránkach.

1.4 Moderný strojový preklad.

Dnešné prekladateľské programy majú oveľa širší záber a fungujú na báze pokročilejších prekladateľských technológií. Prekladateľské systémy sa aktívne využívajú na celom svete v prípadoch, keď je potrebné rýchlo pochopiť význam textu alebo často prekladať veľké množstvo informácií. Niektorým vývojárom sa dnes podarilo dosiahnuť veľmi prijateľnú kvalitu prekladu v určitých jazykových oblastiach.
Moderný strojový preklad by sa mal odlišovať od používania počítačov na pomoc ľudským prekladateľom. V druhom prípade máme na mysli automatický slovník, ktorý človeku pomôže rýchlo vybrať požadovaný prekladový ekvivalent. Obsah pojmu „strojový preklad“ zahŕňa myšlienku, že stroj preberá hlavnú časť práce na preklade a nachádza prekladové ekvivalenty a prekladové korešpondencie. Osoba má k dispozícii iba kontrolu a opravu chýb, zatiaľ čo počítačový slovník na pomoc osobe je čisto pomocný nástroj na rýchle vyhľadávanie zhôd prekladu.
V prekladateľskej praxi av informačných technológiách existujú dva hlavné prístupy k strojovému prekladu. Na jednej strane je možné výsledky strojového prekladu použiť na krátke oboznámenie sa s obsahom dokumentu v neznámom jazyku. V tomto prípade sa môže použiť ako informácia o signáli a nevyžaduje starostlivé úpravy. Ďalší prístup zahŕňa použitie strojového prekladu namiesto bežného ľudského prekladu. To zahŕňa starostlivé úpravy a prispôsobenie prekladateľského systému pre konkrétnu oblasť. Úlohu tu zohráva úplnosť slovníka, jeho zameranie na obsah a súbor jazykových prostriedkov prekladaných textov, efektívnosť metód riešenia lexikálnej nejednoznačnosti, efektívnosť algoritmov na extrakciu gramatických informácií, hľadanie prekladových korešpondencií a algoritmy syntézy. V praxi sa preklad tohto typu stáva nákladovo efektívnym, ak je objem prekladaných textov dostatočne veľký, ak sú texty dostatočne homogénne, systémové slovníky sú kompletné a umožňujú ďalšie rozširovanie a softvér je vhodný na následné úpravy. Tento druh systémov strojového prekladu sa používa v organizáciách, ktoré potrebujú rýchle a kvalitné preklady pomerne veľké.
V rámci technológie strojového prekladu existujú dva prístupy: tradičný (založený na pravidlách) a štatistický (založený na štatistickom spracovaní slovníkových databáz). Tradičnú metódu MT používa väčšina vývojárov prekladových systémov. Práca takéhoto programu zahŕňa niekoľko etáp a v podstate pozostáva z používania lingvistických pravidiel (algoritmov). Preto vytvorenie takéhoto elektronického prekladača zahŕňa vývoj pravidiel a doplnenie databáz slovníkov systému. Kvalita výstupného prekladu závisí od vývoja potrebných algoritmov. Bohatá slovná zásoba systému vám tiež umožňuje zvládnuť preklady širokej škály textov. Štatistická metóda funguje na úplne inom princípe. Je založený na matematických metódach na získanie prekladu. Presnejšie povedané, celý princíp fungovania takéhoto systému je založený na štatistickom výpočte pravdepodobnosti zhody fráz zo zdrojového textu s frázami, ktoré sú uložené v databáze prekladového systému.
V Rusku sa tradičnou metódou strojového prekladu vyvíjajú softvérové ​​produkty spoločnosti PROMT - jediného výrobcu prekladateľských programov u nás. V súčasnosti je spoločnosť PROMT popredným vývojárom automatizovaných prekladateľských systémov a má obrovské technologické znalosti, ktoré jej umožňujú rozvíjať saprekladové systémys rôznou funkcionalitou. Jedinečné technológie na konštrukciu prekladateľských systémov a originálne algoritmy pre prácu s textami v prirodzených jazykoch sa stali základom, na ktorom boli vytvorené všetky softvérové ​​produkty spoločnosti, a ktoré poskytli príležitosť vyvinúť širokú škálu riešení pre automatizovaný preklad z jedného jazyka do ďalší. Softvérové ​​produkty PROMT sú rovnako užitočné pri riešení obchodných problémov a na domáce použitie. PROMT v poslednom období venuje osobitnú pozornosť tvorbe špeciálnych nástrojov a technológií pre profesionálnych prekladateľov. V súčasnosti systémy PROMT vykonávajú preklady pre24 jazykových smerov. Všeobecný slovník pre jeden jazykový pár obsahuje od 40 do 200 tisíc slovníkových hesiel, ktoré zase obsahujú štruktúrovaný popis rôznych lingvistických informácií potrebných na to, aby systém mohol prevádzkovať komplexné algoritmy analýzy a syntézy textu. Slovníky podľa tém obsahujú špecifické slová a výrazy charakteristické pre danú oblasť, ich objem sa môže pohybovať od 5 do 50 tisíc slovníkových hesiel. Napríklad pre anglicko-ruský a rusko-anglický systém boli vyvinuté špecializované slovníky, ktoré pokrývajú viac ako 50 rôznych tém.

1.5 Strojový preklad na internete.

Online preklad informácií na internete je čoraz populárnejší. Internet sa rýchlo mení z prevažne anglicky hovoriaceho prostredia na viacjazyčné prostredie, čo núti vlastníkov webových stránok poskytovať informácie vo viacerých jazykoch. Informačné a vyhľadávacie stránky, ktoré sa snažia prilákať na svoje stránky viacjazyčných používateľov, sa najčastejšie uchyľujú k službám MP. Na kanadskom portáli na vyhľadávanie informácií InfiniT (http://www.infiniT.com) sa tak otvorila nová prekladateľská služba. Web teraz ponúka online preklad textu z angličtiny a nemčiny do francúzštiny a naopak. Nárast návštevnosti portálu je spôsobený možnosťou online prekladu webových stránok. Na tento účel stačí zadať adresu webovej stránky, vybrať smer prekladu a kliknúť na tlačidlo prekladu. Výsledkom je, že po niekoľkých sekundách používateľ dostane plne preloženú webovú stránku so zachovaným formátovaním.
Nová služba nám umožňuje odstrániť jazykový problém na kanadskom internete, kde sa vďaka historickým črtám bežne používajú dva jazyky: angličtina a francúzština. Online prekladač navyše poskytuje prístup na stránky v nemčine tým obyvateľom Kanady, ktorí neovládajú cudzie jazyky. Služba beží na serverovom riešení PROMT Internet s názvom PROMT Internet Translation Server verzie 2.0. Projekt bol realizovaný v spolupráci so spoločnosťou Softissimo, ktorá propaguje produkty PROMT pod značkou REVERSO. Zaujímavou črtou webových stránok, ktoré predstavujú programy MP, elektronické slovníky a iné lingvistické podporné programy, je, že sa môžete interaktívne zoznámiť s prácou mnohých softvérových produktov pomocou verzie nainštalovanej na serveri a brány na vzdialenú komunikáciu cez webové rozhranie. . Na serveri webového vydavateľstva "InfoArt" (http://www.
infoart.ru/misc/dict) bola zorganizovaná interaktívna ukážka slovníkov Lingvo a MultiLex. Môžete zadať slovo alebo frázu a okamžite získate preklad, výklad, príklady použitia a bežné frázy.
Najuniverzálnejší je PROMT Internet. Kúpou tohto balíka získate viacero programov na preklad webových stránok a nielen ich. Dá sa s istotou povedať, že možnosti tejto sady aplikácií úplne postačujú na plnohodnotnú prácu s dokumentmi v angličtine, francúzštine a nemčine. Ak plánujete využívať univerzálny prekladateľský program WebTranSite 98 alebo prehliadač WebView viac ako iné súčasti internetového balíka PROMT a zároveň chcete ušetriť, môžete si tieto produkty zakúpiť samostatne. V tomto prípade WebTranSite 98 osloví tých, ktorí často prekladajú malé fragmenty textu nielen z internetu, ale aj z kancelárskych, e-mailových a iných programov, ako aj z online systémov pomoci.
WebTranSite 98 je vhodný na viac ako len prekladanie webových stránok. Je celkom univerzálny a umožňuje vám spracovávať fragmenty
atď.................



Páčil sa vám článok? Zdieľajte so svojimi priateľmi!