Mašininis vertimas. Apimtis ir taupymas

Pranešėjai: Irina Rybnikova ir Anastasija Ponomareva.

Mes jums papasakosime apie mašininio vertimo istoriją ir kaip jį naudojame „Yandex.

Dar XVII amžiuje mokslininkai spėliojo apie kažkokios kalbos, jungiančios kitas kalbas, egzistavimą, ir tai tikriausiai per sena. Pažiūrėkime atidžiau. Visi norime suprasti mus supančius žmones – kad ir kur eitume – norime matyti, kas parašyta ant iškabų, norime skaityti anonsus, informaciją apie koncertus. Babelio žuvies idėja persekioja mokslininkų mintis ir randama literatūroje, kine ir visur. Norime sutrumpinti laiką, per kurį gauname informaciją. Norime skaityti straipsnius apie Kinijos technologijas, suprasti bet kokias svetaines, kurias matome, ir norime tai gauti čia ir dabar.

Šiame kontekste negalima nekalbėti apie mašininį vertimą. Būtent tai padeda išspręsti šią problemą.

Atspirties tašku laikomi 1954-ieji, kai JAV IBM 701 aparatu iš rusų į anglų kalbą buvo išversta 60 sakinių bendra organinės chemijos tema, ir visa tai buvo paremta 250 žodyno terminų bei šešiomis gramatikos taisyklėmis. Jis buvo vadinamas Džordžtauno eksperimentu, ir tai buvo toks šokiravimas realybei, kad laikraščiai buvo pilni antraščių, kad dar po trejų-penkerių metų problema bus visiškai išspręsta, visi bus patenkinti. Bet, kaip žinote, viskas vyko šiek tiek kitaip.

Taisyklėmis pagrįstas mašininis vertimas atsirado aštuntajame dešimtmetyje. Jis taip pat buvo pagrįstas dvikalbiais žodynais, bet ir tais pačiais taisyklių rinkiniais, kurie padėjo apibūdinti bet kurią kalbą. Bet kas, bet su apribojimais.

Taisykles surašyti privalėjo rimtų kalbininkų. Tai gana sudėtingas darbas, vis tiek negalėjo atsižvelgti į kontekstą, visiškai aprėpti jokią kalbą, bet jie buvo ekspertai, o didelės skaičiavimo galios tada nereikėjo.

Jei kalbėtume apie kokybę, klasikinis pavyzdys yra citata iš Biblijos, kuri tada buvo išversta taip. Dar neužtenka. Todėl žmonės ir toliau dirbo su kokybe. Dešimtajame dešimtmetyje atsirado statistinio vertimo modelis SMT, kuris kalbėjo apie tikimybinį žodžių ir sakinių pasiskirstymą, o ši sistema iš esmės skyrėsi tuo, kad visiškai nieko nežinojo apie taisykles ir apie kalbotyrą. Ji kaip įvestį gavo daugybę identiškų tekstų, suporuotų viena ir kita kalba, o tada pati priėmė sprendimus. Jį lengva prižiūrėti, nereikėjo būrio ekspertų, nereikėjo laukti. Galite atsisiųsti ir gauti rezultatą.

Reikalavimai gaunamiems duomenims buvo gana vidutiniai – nuo ​​1 iki 10 milijonų segmentų. Segmentai – sakiniai, mažos frazės. Tačiau buvo sunkumų ir nebuvo atsižvelgta į kontekstą. O, pavyzdžiui, Rusijoje tokių atvejų pasitaikė.

Man taip pat patinka GTA žaidimų vertimų pavyzdys, rezultatas buvo puikus. Viskas nestovi vietoje. Gana svarbus etapas buvo 2016 m., kai buvo pradėtas neuronų mašininis vertimas. Tai buvo gana epochinis įvykis, labai pakeitęs gyvenimą. Mano kolega, pažiūrėjęs į vertimus ir kaip juos naudojame, pasakė: „Šaunu, jis kalba mano žodžiais“. Ir buvo tikrai puiku.

Kokios yra savybės? Aukšti reikalavimai prie įėjimo, mokomoji medžiaga. Sunku tai išlaikyti įmonėje, tačiau dėl ženklaus kokybės pakėlimo ji buvo pradėta. Tik kokybiškas vertimas išspręs pavestas problemas ir palengvins gyvenimą visiems proceso dalyviams, tiems patiems vertėjams, kurie nenori taisyti prasto vertimo, nori atlikti naujas kūrybines užduotis ir palikti įprastas šablonines frazes. mašina.

Yra du automatinio vertimo būdai. Ekspertinis tekstų vertinimas / lingvistinė analizė, tai yra tikrų kalbininkų, ekspertų tikrinimas dėl atitikimo reikšmei, kalbinio raštingumo. Kai kuriais atvejais jie pasodindavo ekspertus, leisdavo jiems perskaityti išversto teksto korektūrą ir įvertindavo, kiek tai efektyvu šiuo požiūriu.

Kokios šio metodo ypatybės? Vertimo pavyzdys nėra būtinas, mes dabar žiūrime į paruoštą išverstą tekstą ir vertiname jį objektyviai pagal bet kurį aspektą. Bet tai brangu ir atima daug laiko.

Yra ir antras būdas – automatinė atskaitos metrika. Jų yra daug, kiekvienas turi privalumų ir trūkumų. Aš nesigilinsiu apie šiuos raktinius žodžius išsamiau.

Kokia savybė? Tiesą sakant, tai yra išverstų mašininių tekstų palyginimas su kažkokiu standartiniu vertimu. Tai yra kiekybinė metrika, kuri parodo pavyzdinio vertimo ir tikrojo rezultato neatitikimą. Tai greita, pigu ir tai galima padaryti gana patogiai. Tačiau yra keletas ypatumų.

Tiesą sakant, dabar dažniausiai naudojami hibridiniai metodai. Tai yra tada, kai iš pradžių kažkas įvertinama automatiškai, tada analizuojama klaidų matrica, o tada atliekama ekspertinė lingvistinė mažesnio tekstų korpuso analizė.

Pastaruoju metu vis dar paplitusi praktika, kai kviečiame ne kalbininkus, o tiesiog vartotojus. Sąsaja kuriama – parodykite, kuris vertimas jums labiausiai patinka. Arba eidami pas internetinius vertėjus įvedate tekstą ir dažnai galite balsuoti už tai, kas jums labiau patinka, ar toks metodas tinkamas, ar ne. Tiesą sakant, mes visi šiuo metu mokome šiuos variklius, o viską, ką jiems suteikiame išversti, jie naudoja mokymams ir dirba su savo kokybe.

Norėčiau papasakoti, kaip savo darbe naudojame mašininį vertimą. Suteikiu žodį Anastazijai.

Mes, „Yandex“ lokalizavimo skyriuje, gana greitai supratome, kad mašininio vertimo technologija turi didelį potencialą, ir nusprendėme pabandyti ją panaudoti atliekant kasdienes užduotis. Nuo ko pradėjome? Nusprendėme atlikti nedidelį eksperimentą. Nusprendėme tuos pačius tekstus išversti per įprastą neuroninio tinklo vertėją, taip pat surinkti apmokytą mašininį vertėją. Norėdami tai padaryti, per tuos metus, kai „Yandex“ lokalizavome tekstus šiomis kalbomis, parengėme tekstų korpusus rusų ir anglų kalbomis. Tada mes atėjome su šiuo tekstų korpusu savo kolegoms iš „Yandex.Translator“ ir paprašėme išmokyti variklį.

Kai variklis buvo apmokytas, išvertėme kitą tekstų partiją ir, kaip sakė Irina, padedami ekspertų įvertinome rezultatus. Paprašėme vertėjų pažvelgti į raštingumą, stilių, rašybą ir prasmės perteikimą. Tačiau didžiausias lūžis buvo, kai vienas iš vertėjų pasakė: „Aš atpažįstu savo stilių, atpažįstu savo vertimus“.

Norėdami sustiprinti šiuos jausmus, nusprendėme apskaičiuoti statistinius rodiklius. Pirmiausia apskaičiavome BLEU koeficientą pervedimams, atliekamiems per įprastą neuroninio tinklo variklį, ir gavome tokį skaičių (0,34). Atrodytų, kad jį reikia su kažkuo palyginti. Mes vėl kreipėmės į savo kolegas iš Yandex.Translator ir paprašėme paaiškinti, koks BLEU koeficientas laikomas realaus asmens vertimų slenksčiu. Tai nuo 0,6.

Tada nusprendėme patikrinti apmokytų vertimų rezultatus. Gavome 0,5. Rezultatai tikrai džiuginantys.

Pateiksiu pavyzdį. Tai tikra rusiška frazė iš tiesioginės dokumentacijos. Tada jis buvo išverstas per įprastą neuroninio tinklo variklį, o paskui per apmokytą neuroninio tinklo variklį, naudojant mūsų tekstus. Jau pačioje pirmoje eilutėje pastebime, kad tradicinis „Direct“ reklamos tipas nebuvo pripažintas. Ir jau ištreniruotame neuroninio tinklo variklyje pasirodo mūsų vertimas, ir net santrumpa beveik teisinga.

Gauti rezultatai mus labai paskatino ir nusprendėme, kad tikriausiai verta mašinos variklį naudoti kitose porose, ant kitų tekstų, o ne tik ant to pagrindinio techninės dokumentacijos rinkinio. Tada keletą mėnesių buvo atliekami eksperimentai. Susidūrėme su daugybe funkcijų ir problemų, tai yra dažniausiai pasitaikančios problemos, kurias turėjome išspręsti.

Apie kiekvieną papasakosiu plačiau.

Jei jūs, kaip ir mes, ketinate gaminti nestandartinį variklį, jums reikės gana daug aukštos kokybės lygiagrečių duomenų. Didelis variklis gali būti apmokytas 10 tūkstančių sakinių, mes paruošėme 135 tūkstančius lygiagrečių sakinių.

Jūsų variklis nerodys vienodai gerų rezultatų naudojant visų tipų tekstą. Techninėje dokumentacijoje, kur yra ilgi sakiniai, struktūra, vartotojo dokumentacija ir net sąsajoje, kur yra trumpi, bet nedviprasmiški mygtukai, greičiausiai jums pasiseks. Tačiau galbūt, kaip ir mes, susidursite su rinkodaros problemomis.

Atlikome muzikos grojaraščių vertimo eksperimentą ir gavome šį pavyzdį.

Taip apie žvaigždžių gamyklos darbuotojus galvoja mašininis vertėjas. Kad tai darbo šoko darbuotojai.

Verčiant per mašinos variklį, į kontekstą neatsižvelgiama. Tai ne toks juokingas, o labai realus pavyzdys iš „Direct“ techninės dokumentacijos. Atrodytų, kad tai aišku, perskaičius techninę dokumentaciją, tai techninė. Bet ne, mašinos variklis nepataikė.

Taip pat turėsite atsižvelgti į tai, kad vertimo kokybė ir prasmė labai priklausys nuo originalo kalbos. Išverčiame frazę į prancūzų kalbą iš rusų kalbos ir gauname tą patį rezultatą. Gauname panašią frazę su ta pačia prasme, bet iš anglų kalbos, ir gauname skirtingą rezultatą.

Jei, kaip ir mūsų tekste, turite daug žymų, žymėjimo ir kai kurių techninių funkcijų, greičiausiai turėsite jas sekti, redaguoti ir parašyti scenarijus.

Čia yra tikrų frazių iš naršyklės pavyzdžių. Skliausteliuose pateikiama techninė informacija, kuri neturėtų būti verčiama, ypač daugiskaitos formos. Anglų kalba jie yra anglų kalba, o vokiškai jie taip pat turėtų likti anglų kalba, tačiau jie yra išversti. Turėsite sekti šiuos taškus.

Mašinos variklis nieko nežino apie jūsų pavadinimo ypatybes. Pavyzdžiui, turime susitarimą, kad lotyniškai visomis kalbomis visur vadiname Yandex.Disk. Tačiau prancūziškai jis virsta disku prancūziškai.

Santrumpos kartais atpažįstamos teisingai, kartais ne. Šiame pavyzdyje BY, nurodantis, kad jis priklauso Baltarusijos techniniams reklamos reikalavimams, anglų kalba virsta prielinksniu.

Vienas iš mano mėgstamiausių pavyzdžių – nauji ir pasiskolinti žodžiai. Štai puikus pavyzdys, žodis atsakomybės atsisakymas, „iš pradžių rusiška“. Reikės patikrinti kiekvienos teksto dalies terminiją.

Ir dar viena, ne tokia reikšminga problema – pasenusi rašyba.

Anksčiau internetas buvo naujas dalykas, visuose tekstuose buvo rašoma didžiąja raide, o kai treniravome savo variklį, internetas visur buvo rašomas didžiąja raide. Dabar nauja era, mes jau rašome į internetą maža raide. Jei norite, kad jūsų variklis ir toliau rašytų internetą mažosiomis raidėmis, turėsite jį iš naujo išmokyti.

Nenusivylėme, šias problemas išsprendėme. Pirmiausia pakeitėme teksto korpusus ir bandėme versti kitomis temomis. Savo pastabas perdavėme kolegoms iš „Yandex.Translator“, iš naujo apmokėme neuroninį tinklą ir peržiūrėjome rezultatus, įvertinome juos ir paprašėme patobulinimų. Pavyzdžiui, žymų atpažinimas, HTML žymėjimo apdorojimas.

Parodysiu realius naudojimo atvejus. Mes puikiai išmanome techninės dokumentacijos mašininį vertimą. Tai tikras atvejis.

Čia yra frazė anglų ir rusų kalbomis. Vertėjas, tvarkęs šiuos dokumentus, buvo labai padrąsintas tinkamo terminų pasirinkimo. Kitas pavyzdys.

Vertėjas įvertino pasirinkimą vietoj brūkšnelio, kad frazės struktūra pasikeitė į anglų kalbą, tinkamas termino pasirinkimas, kuris yra teisingas, ir žodis tu, kurio nėra originale, bet tai daro vertimas tiksliai angliskai, naturalus.

Kitas atvejis yra tiesioginiai sąsajos vertimai. Viena iš tarnybų nusprendė nesivarginti su lokalizavimu ir versti tekstus iškart įkėlimo metu. Tačiau pakeitus variklį maždaug kartą per mėnesį žodis „pristatymas“ keisdavosi ratu. Komandai pasiūlėme prijungti ne įprastą neuroninio tinklo variklį, o mūsų, apmokytą prie techninės dokumentacijos, kad visada būtų naudojamas tas pats su komanda sutartas terminas, kuris jau yra dokumentacijoje.

Kaip visa tai veikia piniginį momentą? Istoriškai susiklostė taip, kad rusų ir ukrainiečių poroje reikalingas minimalus ukrainietiško vertimo redagavimas. Todėl prieš porą mėnesių nusprendėme pereiti prie redagavimo sistemos. Taip auga mūsų santaupos. Rugsėjo mėnuo dar nesibaigė, bet skaičiuojame, kad maždaug trečdaliu sumažinome išlaidas po redagavimo ukrainiečių kalba ir ketiname toliau redaguoti beveik viską, išskyrus rinkodaros tekstus. Apibendrinant Irinos žodis.

Irina:
– Visiems tampa akivaizdu, kad tuo reikia naudotis, tokia jau yra mūsų realybė, ir mes negalime to išskirti iš savo procesų ir interesų. Tačiau reikia pagalvoti apie keletą dalykų.

Nuspręskite, su kokiais dokumentų tipais ir kontekstu dirbate. Ar ši technologija tinka būtent jums?

Antras punktas. Kalbėjome apie Yandex.Translator, nes sutariame gerai, turime tiesioginę prieigą prie kūrėjų ir panašiai, bet iš tikrųjų jūs turite nuspręsti, kuris variklis bus optimaliausias jums konkrečiai, jūsų kalbai, jūsų temai. Kitas pranešimas bus skirtas šiai temai. Būkite pasirengę, kad vis dar yra sunkumų, variklių kūrėjai dirba kartu, kad išspręstų sunkumus, tačiau kol kas su jais vis dar susiduriama.

Norėčiau suprasti, kas mūsų laukia ateityje. Bet iš tikrųjų tai jau ne ateitis, o mūsų dabartis, tai, kas vyksta čia ir dabar. Mums visiems labiau reikia pritaikymo, kad jis atitiktų mūsų terminiją, mūsų tekstus, ir tai dabar tampa vieša. Dabar visi stengiasi, kad neįeitumėte į įmonės vidų ir nesiderėtumėte su konkretaus variklio kūrėjais, kaip jį optimizuoti jums. Tai galite gauti viešuose atviruose varikliuose per API.

Pritaikymas vyksta ne tik tekstuose, bet ir terminijoje, pritaikant terminiją pagal savo poreikius. Tai gana svarbus momentas. Antroji tema – interaktyvus vertimas. Kai vertėjas verčia tekstą, technologija leidžia jam numatyti kitus žodžius, atsižvelgiant į šaltinio kalbą, pirminį tekstą. Tai gali labai palengvinti jūsų darbą.

Apie tai, kas dabar tikrai brangu. Visi galvoja, kaip kai kuriuos variklius išmokyti kur kas efektyviau naudojant mažesnius teksto kiekius. Tai kažkas, kas vyksta visur ir suveikia visur. Manau, kad tema labai įdomi, o ateityje ji taps dar įdomesnė.

Paskaita Nr. 8 Tema: Mašininio vertimo sistemų paskirtis.

Mašininio vertimo tikslas

Mašininis vertimas (MT) arba automatinis vertimas (AT) yra intensyviai besivystanti mokslinių tyrimų, eksperimentinės plėtros ir jau veikiančių sistemų (SMT) sritis, kurioje kompiuteris dalyvauja vertimo iš vienos natūralios kalbos procese ( NL) kitam. SMP suteikia greitą ir sistemingą prieigą prie informacijos užsienio kalba, užtikrina efektyvumą ir vienodumą verčiant didelius srautus, daugiausia mokslinių ir techninių, tekstų. Pramoniniu mastu veikiančios EMS remiasi dideliais terminų duomenų bankais ir, kaip taisyklė, reikalauja asmens, kaip išankstinio, tarpinio ar posto redaktoriaus, dalyvavimo. Šiuolaikiniai SMP, ypač tie, kurie verčiami remiasi žinių bazėmis konkrečioje dalyko srityje, yra klasifikuojami kaip dirbtinio intelekto (AI) sistemos.

Pagrindinės MC naudojimo sritys

1. Pramonės informacinėse paslaugose esant dideliam užsienio kalbų šaltinių masyvui arba nuolatiniam srautui. Jei signalizacijos informacijai teikti naudojami SMP, vėliau redaguoti nereikia.

2. Didelėse tarptautinėse organizacijose, sprendžiančiose daugiakalbį daugiakalbį dokumentų rinkinį. Tokios darbo sąlygos Europos Bendrijų Komisijoje Briuselyje, kur visi dokumentai vienu metu turi būti pateikiami devyniomis darbo kalbomis. Kadangi vertimo reikalavimai čia yra aukšti, MP reikia redaguoti vėliau.

3. Paslaugose, kurios verčia techninę dokumentaciją, pridedamą prie eksportuojamų produktų. Vertėjai negali susidoroti su išsamia dokumentacija per reikiamą laikotarpį (pavyzdžiui, orlaivių ir kitų sudėtingų objektų specifikacijos gali užtrukti iki 10 000 ar daugiau puslapių). Techninės dokumentacijos struktūra ir kalba yra gana standartinės, todėl vertimas yra lengvesnis ir netgi geresnis už rankinį vertimą, nes garantuoja vienodą stilių
visą masyvą. Kadangi specifikacijų vertimas turi būti išsamus ir tikslus, MP produktus reikia redaguoti vėliau.

4. Tam tikro nuolatinio panašių pranešimų srauto sinchroniniam arba beveik sinchroniniam vertimui. Tai yra Kanados orų pranešimų srautas, kuris vienu metu turi būti rodomas anglų ir prancūzų kalbomis.

Be praktinio verslo pasaulio poreikio MT, MT plėtrai yra ir grynai mokslinės paskatos: stabiliai veikiančios eksperimentinės MT sistemos yra eksperimentinė sritis, skirta išbandyti įvairius bendrosios supratimo teorijos aspektus, kalbos komunikaciją, informacijos transformaciją. , taip pat naujų, efektyvesnių paties MT modelių kūrimui.

Pagal mastą ir išsivystymo laipsnį SMP galima suskirstyti į tris pagrindines klases: pramoninę, vystomąją ir eksperimentinę.

Mašininio vertimo sistemų kalbinis palaikymas

MT procesas yra transformacijų seka, taikoma įvesties tekstui ir paverčiant jį tekstu išvesties kalba, kuri turėtų maksimaliai atkurti pradinio teksto prasmę ir, kaip taisyklė, struktūrą, tačiau naudojant išvesties kalbą. SMP kalbinė parama apima visą kalbinių, metalingvistinių ir vadinamųjų „ekstralingvistinių“ žinių kompleksą, kuris naudojamas tokiai transformacijai.

Klasikiniuose SMT, kurie atlieka netiesioginį atskirų sakinių vertimą (vertimas po frazės), kiekvienas sakinys pereina transformacijų seką, susidedančią iš trijų dalių (etapų): analizė -> perkėlimas (tarpkalbinės operacijos) -> sintezė. Savo ruožtu kiekvienas iš šių etapų yra gana sudėtinga tarpinių transformacijų sistema.

Analizės etapo tikslas – sukurti įvesties sakinio struktūrinį aprašymą (tarpinį atvaizdavimą, vidinį atvaizdavimą), | Perkėlimo etapo (paties vertimo) užduotis – įvesties sakinio struktūrą paversti vidine išvesties sakinio struktūra. Šis etapas taip pat apima įvesties kalbos leksemų pakeitimą jų vertimo atitikmenimis (leksinės tarpkalbinės transformacijos). Sintezės etapo tikslas – remiantis analizės rezultatu gauta struktūra sukonstruoti teisingą tikslinės kalbos sakinį.

Standartinio šiuolaikinio SMP kalbinis palaikymas apima:

1) žodynai;

2) gramatika;

3) formalizuoti tarpiniai analizės vienetų atvaizdavimai skirtinguose transformacijos etapuose.

Be standartinių, kai kurie SMP gali turėti ir nestandartinių komponentų. Taigi ekspertines žinias apie programinę įrangą galima patikslinti naudojant specialius konceptualius tinklus, o ne žodynų ir gramatikos forma.

Veikimo su esamais žodynais, gramatikos ir struktūrinių vaizdų mechanizmai (algoritmai, procedūros) priskiriami matematiniam ir algoritminiam SMP palaikymui.

Vienas iš būtinų reikalavimų šiuolaikiniams SMP yra didelis moduliškumas. Kalbiniu požiūriu tai reiškia, kad analizė ir po jos vykstantys procesai yra kuriami atsižvelgiant į kalbinių lygmenų teoriją. Kuriant SMP, išskiriami šie analizės lygiai:

Ikisintaksinė analizė (tai apima morfologinę analizę – MorphAn, frazių analizę, neatpažintus teksto elementus ir kt.);

Sintaksinė analizė SinAn (sukuria sakinio sintaksinį vaizdą arba SinP); jos ribose galima išskirti keletą polygių, kuriuose pateikiama įvairių sintaksinių vienetų tipų analizė;

Semantinė analizė SemAn arba loginė-semantinė analizė (sukuria teiginių argumentų-predikatų struktūrą arba kitokio tipo semantinę
pasiūlymų pateikimas ir tekstas);

Konceptuali analizė (programinės įrangos semantiką atspindinčių konceptualių struktūrų analizė). Šis analizės lygis naudojamas SMP, skirtuose labai ribotai programinei įrangai. Tiesą sakant, konceptuali struktūra yra programinės įrangos schemų projekcija į kalbines struktūras, dažnai net ne semantines, o sintaksines. Tik labai siaurai programinei įrangai ir ribotoms tekstų klasėms konceptuali struktūra sutampa su semantine; Apskritai neturėtų būti visiško atitikimo, nes tekstas yra išsamesnis nei bet kuris kitas
konceptualios diagramos.

Sintezė teoriškai eina per tuos pačius lygius kaip ir analizė, bet priešinga kryptimi. Darbinėse sistemose paprastai įgyvendinamas tik kelias nuo SinP iki išvesties sakinio žodžių grandinės.

Skirtingų lygių kalbinė diferenciacija gali pasireikšti ir atitinkamuose aprašuose naudojamų formaliųjų priemonių diferencijavimu (šių priemonių rinkinys nurodomas kiekvienam lygiui atskirai). Praktikoje kalbinės priemonės MorfAn dažnai nurodomos atskirai, o priemonės SinAn ir SemAn derinamos. Tačiau skirtumas tarp lygių gali išlikti prasmingas tik tuo atveju, jei jų aprašymuose naudojamas vienas formalizmas, tinkamas informacijai iš visų išskirtų lygių.

Techniniu požiūriu kalbinės paramos moduliškumas reiškia frazių ir tekstų (kaip esamų, laikinų žinių apie tekstą) struktūrinio vaizdavimo atskyrimą nuo „nuolatinių“ žinių apie kalbą, taip pat kalbos žinių nuo programinės įrangos žinių. ; žodynų atskyrimas nuo gramatikų, gramatikos nuo jų apdorojimo algoritmų, algoritmų nuo programų. Konkretūs ryšiai tarp įvairių sistemos modulių (žodynai-gramatikos, gramatikos-algoritmai, algoritmai-programos, deklaratyvios-procedūrinės žinios ir kt.), įskaitant kalbinių duomenų paskirstymą lygiais, yra pagrindinis dalykas, lemiantis sistemos specifiką. SMP.

Žodynai. Analizės žodynai dažniausiai yra vienakalbiai. Juose turi būti visa informacija, reikalinga tam tikram leksiniam vienetui (LU) įtraukti į struktūrinį vaizdavimą. Pagrindų žodynai (su morfologine-sintaksine informacija: kalbos dalis, linksniavimo tipas, poklasis, apibūdinantis LE sintaksinę elgseną ir kt.) dažnai atskiriami nuo žodžių reikšmių žodynų, kuriuose yra semantinės ir konceptualios informacijos: LE semantinė klasė, semantinės viltys. (valencijos), sąlygoja jų įgyvendinimą fraze ir pan.

Daugelyje sistemų bendrosios ir termininės žodyno žodynai yra atskirti. Toks skirstymas leidžia pereinant prie kitos dalykinės srities tekstų apsiriboti tik besikeičiančiais terminų žodynais. Sudėtingų LE (frazių posūkių, konstrukcijų) žodynai dažniausiai sudaro atskirą masyvą, juose esanti žodyno informacija nurodo tokio vieneto „rinkimo“ analizės metu metodą. Dalis žodyno informacijos gali būti nurodyta procedūrine forma, pavyzdžiui, daugiareikšmiai žodžiai gali būti susieti su atitinkamo tipo neaiškumų sprendimo algoritmais. Naujus žodyno informacijos organizavimo tipus MT tikslais siūlo vadinamosios „leksinės žinių bazės“. Nevienodos informacijos apie žodį buvimas (vadinamas žodžio leksine visata) priartina tokį žodyną prie enciklopedijos nei prie tradicinių kalbinių žodynų.

Gramatika ir algoritmai. Gramatika ir žodynas apibrėžia kalbinį modelį, sudarydami didžiąją dalį kalbinių duomenų. Jų apdorojimo algoritmai, 1. ty koreliacija su teksto vienetais, vadinami matematine ir algoritmine sistemos atrama.

Gramatikos ir algoritmų atskyrimas yra svarbus praktine prasme, nes leidžia keisti gramatikos taisykles nekeičiant su gramatikomis dirbančių algoritmų (ir atitinkamai programų). Tačiau toks skirstymas ne visada įmanomas. Taigi sistemai, turinčiai procedūrinę gramatikos užduotį, o juo labiau procedūrinį žodyno informacijos atvaizdavimą, toks skirstymas nėra svarbus. Sprendimų priėmimo algoritmai esant nepakankamai (įvesties duomenų neišsamumas) arba perteklinei (analizės kintamumas) informacijai yra labiau empiriniai, jų formulavimas reikalauja lingvistinės intuicijos. Norint nustatyti bendrą valdymo algoritmą, kuris valdo skirtingų gramatikų iškvietimo tvarką (jei vienoje sistemoje jų yra kelios), reikia ir lingvistinio pagrindimo. Tačiau šiuo metu vyrauja tendencija atskirti gramatikas nuo algoritmų, kad visa lingvistiškai reikšminga informacija būtų nurodyta statine gramatikų forma, o algoritmus padaryti tokius abstrakčius, kad jie galėtų iškviesti ir apdoroti skirtingus kalbinius modelius.

Aiškiausias gramatikos ir algoritmų atskyrimas pastebimas sistemose, dirbančiose su bekontekstinėmis gramatikomis (CFG), kur kalbos modelis yra gramatika su baigtiniu būsenų skaičiumi, o algoritmas turi numatyti savavališką sakinį savo išvesties medį. pagal gramatikos taisykles, o jei yra keli tokie išėjimai , išvardykite juos. Toks algoritmas, kuris yra formali (matematine prasme) sistema, vadinamas analizatoriumi. Analizatoriui pasitarnauja gramatikos aprašymas, kurio universalumas, toks pat įėjimas kaip ir analizuojamas sakinys. Analizatoriai yra sukurti gramatikų klasėms, nors atsižvelgiant į specifines gramatikos ypatybes, galima pagerinti analizatoriaus efektyvumą.

Sintaksinio lygio gramatikos yra labiausiai išplėtota dalis tiek kalbotyros, tiek jų aprūpinimo formalizmais požiūriu.

Pagrindiniai gramatikos tipai ir juos įgyvendinantys algoritmai:

Grandininė gramatika fiksuoja elementų tvarką, tai yra tiesines sakinio struktūras, nurodydama jas gramatinėmis žodžių klasėmis (straipsnis + daiktavardis + prielinksnis) arba funkciniais elementais (dalykas + predikatas);

Komponentų gramatika (arba tiesioginių komponentų gramatika – NSG) įrašo lingvistinę informaciją apie gramatinių elementų grupavimą, pavyzdžiui, daiktavardžio frazę (sudarytą iš daiktavardžio, artikelio,
būdvardis ir kiti modifikatoriai), linksnio frazė (sudaryta iš linksnio ir daiktavardžio frazės) ir kt. iki sakinio lygmens. Gramatika konstruojama kaip pakeitimo taisyklių rinkinys, arba A-»B...C formos darinių skaičiavimas. NSG
Jos yra generatyvinio tipo gramatikos ir gali būti naudojamos tiek analizėje, tiek sintezėje: kalbos sakiniai generuojami pakartotinai taikant tokias taisykles;

Priklausomybių gramatika (DG) nurodo santykio tarp sakinio elementų hierarchiją (pagrindinis žodis nusako priklausomųjų formą). GZ analizatorius yra pagrįstas šeimininkų ir jų išlaikytinių (tarnų) identifikavimu. Pagrindinis dalykas sakinyje yra veiksmažodis asmenine forma, nes jis lemia priklausomų daiktavardžių skaičių ir pobūdį. Analizės strategija civilinėje teisėje yra iš viršaus į apačią: pirmiausia nustatomi šeimininkai, po to tarnai arba iš apačios į viršų: šeimininkus nustato pakeitimo procesas;

Bar-Hillel kategorinė gramatika yra sudedamosios gramatikos versija, kurioje yra tik dvi kategorijos - sakiniai S ir pavadinimai n. Likusieji apibrėžiami pagal galimybę derinti su šiomis pagrindinėmis NS struktūroje. Taigi pereinamasis veiksmažodis apibrėžiamas kaip n\S, nes jis jungiasi su vardo kairėje ir sudaro sakinį S.

Yra daug būdų, kaip atsižvelgti į kontekstines sąlygas: metamorfozės gramatikos ir jų variantai. Visi jie yra KS taisyklių išplėtimai. Apskritai tai reiškia, kad gamybos taisyklės perrašomos taip: A [a] -> B [b], ..., C [c], kur mažomis raidėmis nurodomos sąlygos, bandymai, instrukcijos ir pan., plečiantis. originalios griežtos taisyklės ir suteikia gramatikai lankstumo bei efektyvumo.

Apibendrintų komponentų-TCS gramatikoje įvedamos meta taisyklės, kurios yra KS1 taisyklių dėsningumų apibendrinimas.

Išplėstinių perėjimo tinklų-RSP gramatikose pateikiami lankų testai ir sąlygos, taip pat instrukcijos, kurios turi būti vykdomos, jei analizė atliekama pagal tam tikrą lanką. Įvairiose RSP modifikacijose lankams galima priskirti svorius, tada analizatorius gali pasirinkti didžiausio svorio kelią. Sąlygas galima suskirstyti į dvi dalis: be konteksto ir kontekstui jautrias.

RSPG tipas yra kaskadinis RSPG. Kaskada yra RSP su veiksmu 1shshsh1. Dėl šio veiksmo procesas šioje pakopoje sustabdomas, dėtuvėje išsaugoma informacija apie dabartinę konfigūraciją ir pereinama prie gilesnės kaskados, o vėliau grįžtama į pradinę būseną. RSP turi daugybę transformacinės gramatikos galimybių. Jis taip pat gali būti naudojamas kaip generavimo sistema.

Grafikų analizės metodas leidžia saugoti dalinius rezultatus ir pateikti analizės parinktis.

Naujas ir iš karto populiarus gramatinio apibūdinimo metodas – leksinė-funkcinė gramatika (LFG). Tai pašalina transformacijos taisyklių poreikį. Nors LFG yra pagrįstas CSG, bandymo sąlygos jame yra atskirtos nuo pakeitimo taisyklių ir yra „išspręstos“ kaip autonominės lygtys.

Unifikacinės gramatikos (UG) yra kitas analizės modelio apibendrinimo etapas po grafinių schemų: jos gali įkūnyti įvairaus tipo gramatikas. UG sudaro keturi komponentai: suvienodinimo paketas, taisyklių ir leksinių aprašymų interpretatorius, nukreiptų grafų apdorojimo programos ir analizatorius, naudojant grafinę diagramą. UG derina gramatikos taisykles su žodyno aprašymais, sintaksines valentnes su semantinėmis.

Pagrindinė bet kurios NL analizės sistemos problema yra parinkčių pasirinkimo problema. Jai išspręsti sintaksinio lygio gramatikos papildytos pagalbinėmis gramatikomis ir sudėtingų situacijų analizės metodais. NN gramatikos naudoja filtravimo ir euristinius metodus. Filtro metodas yra toks: kad pirmiausia jie gauna visas pasiūlymo analizės parinktis, o tada atmeta tuos, kurie neatitinka tam tikros filtro sąlygų sistemos. Euristinis metodas nuo pat pradžių sukuria tik dalį variantų, kurie yra labiau tikėtini pateiktų kriterijų požiūriu. Svorių naudojimas pasirenkant parinktis yra euristinių metodų naudojimo analizėje pavyzdys.

Semantinį lygmenį daug mažiau palaiko teorija ir praktiniai pokyčiai. Tradicinis semantikos uždavinys – pašalinti sintaksinės analizės – struktūrinės ir leksinės – dviprasmiškumą. Tam naudojamas atrankinių apribojimų aparatas, kuris pririšamas prie sakinių rėmų, t.y., telpa į sintaksinį modelį. Labiausiai paplitęs SeAn tipas yra pagrįstas vadinamosiomis raidžių gramatikomis. Gramatikos pagrindas yra gilaus arba semantinio atvejo samprata. Veiksmažodžio atvejo rėmas yra valentingumo sąvokos pratęsimas: tai semantinių ryšių rinkinys, galintis (privalomas arba neprivalomas) lydėti veiksmažodį ir jo variantus tekste. Toje pačioje kalboje tas pats gilusis dėmuo yra realizuojamas skirtingomis paviršinio linksnio formomis. Gilūs atvejai iš esmės leidžia peržengti sakinio ribas, o žengti į tekstą reiškia pereiti į semantinį analizės lygmenį.

Kadangi semantinė informacija, priešingai nei sintaksinė informacija, kuri daugiausia remiasi gramatikomis, daugiausia koncentruojama žodynuose, 80-aisiais gramatikos buvo intensyviai kuriamos siekiant „leksikalizuoti“ CSG. Vyksta gramatikos, paremtos diskurso savybių tyrimu, kūrimas.

Per pastaruosius dešimtmečius kompiuteris, prijungtas prie interneto, tapo svarbiausiu vertėjo įrankiu. Juk jos dėka suteikiama prieiga prie didžiulių informacijos kiekių, taip pat prie elektroninių žodynų ir vertėjų. Mašininis vertimas šiandien tapo įprastas dalykas.

Terminas „mašininis vertimas“ (MT, taip pat žinomas kaip mašininis vertimas arba MT) reiškia veiksmą, kai viena natūrali kalba verčiama į kitą naudojant specialią programinę įrangą šiam tikslui. Programa gali būti įdiegta tiesiai kompiuteryje (arba) arba pasiekiama tik prisijungus prie interneto.

Šiek tiek istorijos

Idėja naudoti skaičiavimo įrenginį vertimui kilo dar 1947 m. Tačiau tais metais to įgyvendinti buvo tiesiog neįmanoma, nes kompiuterinės technologijos buvo tik pradžioje. Tačiau jau 1954 metais buvo atliktas pirmasis mašininio vertimo bandymas. Pačiame pirmajame žodyne buvo tik 250 žodžių, o gramatika apsiribojo 6 taisyklėmis. Tačiau to pakako įtikinti mus, kad mašininio vertimo ateitis laukia puiki. Darbas šia kryptimi prasidėjo daugelyje šalių, pradėjo atsirasti pirmosios mašininio vertimo sistemos (MTS), buvo kuriamos specialios teorijos.

Pradžioje mašininio vertimo plėtrą stabdė žemas kompiuterinių technologijų lygis ir labai didelė kaina. Tačiau laipsniškas pirmųjų asmeninių kompiuterių, o vėliau ir interneto skverbimasis į mūsų gyvenimą lėmė sparčią šios pramonės plėtrą. Šiandien mašininis vertimas aktyviai naudojamas įvairiose žmogaus veiklos srityse.

Kam to reikia

Mašininio vertimo plėtrą palengvino tarptautinių santykių plėtra. Žmonės pradėjo dažniau keliauti į kitas šalis, o verslo plėtra užsienyje nustojo būti kažkuo išskirtiniu net mažų įmonių standartu. O jei taip, tai bendravimo sunkumų iškyla vis dažniau. Todėl šiandien versle vis dažniau naudojamas mašininis vertimas. Net jei kompiuterinių vertimų rezultatas toli gražu nėra idealus, tai vis tiek geriau nei nieko.

SMP pagalba tampa įmanoma labai greitai suprasti didelių tekstų apimties turinį, o tai tiesiog neįmanoma naudojant tradicinį požiūrį. Tai gali būti labai naudinga, pavyzdžiui, jei reikia klasifikuoti didelį kiekį informacijos užsienio kalba. Arba kalbinei analizei.

MP taip pat tapo įprasta bendraujant internete, kai labai svarbu greitas vertimas ir supratimas, ką pašnekovas tau pasakė. Tačiau šiuo atveju galite drąsiai pamiršti apie literatūrinių vaizdų perteikimą, jei norite, kad jus suprastų teisingai. Tik „sausos“ frazės, be jokių dviprasmybių.

Žmogaus dalyvavimas

Nepaisant įvairių metodų ir sprendimų, susijusių su skaičiavimo galios problemomis, plėtojama, mašininio vertimo kokybė vis dar toli gražu nėra ideali. Net jei sėkmę šiuo klausimu galima pavadinti įspūdinga, bet tik palyginti su pačiomis pirmosiomis sistemomis.

Šiuolaikiniai SMP jau išmoko daugmaž adekvačiai versti techninius tekstus, kuriuose, kaip žinome, nėra tų literatūrinių laisvių, kurios taip dažnai būna literatūros tekstuose. Vertimo kokybei didelę įtaką daro kalbų giminingumas. Pavyzdžiui, verčiant nuo iki, rezultatas bus daug vertesnis nei nuo iki. Antruoju atveju gautas tekstas gali pasirodyti tiesiog neįskaitoma nesąmonė.

Dėl šios priežasties mašininis vertimas dar negali veikti be žmogaus įsikišimo. Kuris arba iš pradžių adaptuoja tekstą, pašalindamas visus galimus neaiškumus (išankstinis redagavimas), arba redaguoja baigtą vertimą, pašalindamas iš jo beveik neišvengiamas klaidas (redagavimas). Taip pat yra intereditavimo sąvoka, kai asmuo tiesiogiai įsikiša į sistemos veikimą, ištaisydamas netikslumus, atsirandančius „skraidydamas“.

Kokių tipų greitosios pagalbos tarnybos yra?

Iki šiol darbas MP srityje buvo suskirstytas į dvi pagrindines sritis:

  • Statistinis mašininis vertimas (Statistikos mašininis vertimas, SMT);
  • Taisyklėmis pagrįstas mašininis vertimas (Taisyklėmis pagrįstas mašininis vertimas, RBMT).

Pirmuoju atveju turime savarankiško mokymosi sistemas. Vertimas tampa įmanomas nuolat analizuojant daugybę to paties turinio tekstų, bet skirtingomis kalbomis. Sistema suranda ir naudoja visada esamus šablonus. Vertimo kokybė naudojant SMT laikoma gana aukšta. Bet tik tuo atveju, jei sistema jau spėjo išanalizuoti didžiulį kiekį informacijos. Ir tam reikia turėti ne tik pačius testus, bet ir įspūdingą skaičiavimo galią. Tai reiškia, kad šia kryptimi gali dirbti tik didelės įmonės. Tokių sistemų pavyzdžiai: Google vertėjas, Yandex.Vertėjas, ir taip pat Bing vertėjas iš Microsoft.

RBMT sistemų atveju visas taisykles kuria žmonės, kurie vėliau jas nuolat „testuoja“. Atitinkamai, rezultato kokybė priklauso nuo to, kiek kalbininkai geba apibūdinti natūralią kalbą, su kuria jie dirba. Būtent būtinybė nuolat atnaujinti sukurtą kalbinę duomenų bazę yra pagrindinis RBMT sistemų trūkumas. Tačiau norint sukurti vertėją, galintį pateikti patenkinamą rezultatą, nereikia įspūdingos skaičiavimo galios, o tai leidžia mažoms įmonėms dirbti šia kryptimi. Pavyzdžiai apima tokias sistemas kaip Daugiafunkcis, Linguatec Ir PROMT.

Taip pat yra ir trečia galimybė: hibridinis mašininis vertimas. (Hibridinis mašininis vertimas, HMT). Šis metodas apjungia abu metodus – SMT ir RBMT. Teoriškai šis metodas leidžia pasinaudoti abiejų technologijų pranašumais. Tuo įmonė naudojasi Systran, įkurta 1968 metais ir laikoma seniausia MP srityje veikiančia komercine įmone.

Kontsevoy Daniilas Sergejevičius,
Privati ​​aukštojo mokslo įstaiga „Omsko teisės akademija“, Omskas

Profesinės komunikacijos srities vertėjas – asmuo, aktyviai mokantis profesinės sferos užsienio kalbą, gebantis logiškai taisyklingai, argumentuotai ir aiškiai konstruoti užsienio kalbos žodinę ir rašytinę kalbą, o svarbiausia – įvaldyti vertimo techniką. naudojant mašininio vertimo sistemas, nes net profesionalai neapsieina nesikreipdami į elektroninius vertėjus.

Mašininis vertimas - procesas, atliktas kompiuteriu ar kitu elektroniniu prietaisu tekstui iš vienos kalbos paversti lygiaverčiu tekstu kita kalba, taip pat tokio veiksmo rezultatas. Kadangi nėra visiškai automatizuotų elektroninių vertėjų, galinčių tiksliai ir taisyklingai išversti tekstą, šį tekstą paruošti arba ištaisyti jau mašininiu būdu apdorotame tekste esančias klaidas ir praleidimus turi parengti specialistas vertėjas.

Yra keturios kompiuterio ir žmogaus sąveikos organizavimo formos atliekant mašininį vertimą:

  • išankstinis redagavimas: asmuo paruošia tekstą kompiuteriniam apdorojimui (teksto prasmės supaprastinimas, dviprasmiškų skaitymų pašalinimas, teksto žymėjimas), po to atliekamas mašininis vertimas;
  • tarpredagavimas: asmuo tiesiogiai kišasi į vertimo sistemos veikimą, sprendžia probleminius klausimus;
  • poredagavimas: visas šaltinio tekstas yra apdorojamas mašininiu būdu, o žmogus rezultatą pataiso redaguodamas išverstą tekstą;
  • mišri sistema.

Šiuolaikiniai elektroniniai vertėjai geba sukurti suvokiamai adekvatų atskirų frazių ir sakinių vertimą, palengvina žmogaus vertėjo darbą, atleidžia jį nuo įprasto darbo ieškant tam tikrų žodžių ir frazių reikšmių žodynuose.

Norėdami įvaldyti mašininio vertimo sistemas, turite turėti bent bendrą supratimą apie elektroninio vertimo technologijas. Mašininiame vertime jų yra keletas:

1) Tiesioginis mašininis vertimas

Tiesioginis mašininis vertimas yra seniausias mašininio vertimo metodas. Taikant šį vertimo metodą, tekstas šaltinio kalba netaikomas struktūrinei analizei, išskyrus morfologiją. Šiame vertime naudojamas daug žodynų ir jis verčiamas žodis po žodžio, išskyrus nedidelius gramatinius pakeitimus, pavyzdžiui, dėl žodžių tvarkos ir morfologijos. Tiesioginio vertimo sistema skirta konkrečioms kalbų poroms. Leksika yra informacijos apie žodžių specifiką saugykla. Šios sistemos priklauso nuo žodyno rengimo kokybės, morfologinės analizės ir teksto apdorojimo programinės įrangos. Tiesioginio vertimo sistemos pavyzdys yra Systran.

2) Taisyklėmis pagrįstas mašininis vertimas kiekvienai kalbų porai naudoja daugybę kalbinių taisyklių ir dvikalbių žodynų. Taisyklėmis pagrįsto mašininio vertimo tipai apima Interlingua principą ir Transfer mašininį vertimą.

  • Mašininis vertimas į interlingu kalbą

Interlingua principu paremtame mašininiame vertime vertimas atliekamas naudojant tarpinį (semantinį) šaltinio kalbos teksto modelį. Interlingua yra nuo kalbos nepriklausomas modelis, iš kurio galima generuoti vertimus į bet kurią kalbą. Interlingua principas suteikia galimybę tekstą šaltinio kalba paversti modeliu, bendru kelioms kalboms.

  • Perkėlimo mašininis vertimas pagrįstas Interlingua idėja, naudojant lyginamąją dviejų kalbų analizę. Trys šio proceso etapai yra analizė, perdavimas ir generavimas. Pirma, šaltinio kalbos tekstas verčiamas į abstraktų arba tarpinį šaltinio kalbos modelį, kuris vėliau paverčiamas tikslinės kalbos modeliu, kad galiausiai būtų suformuotas į tekstą tiksline kalba. Šis principas yra paprastesnis nei interlingua, bet sunkiau išvengti dviprasmybių.

3) Mašininis vertimas ant teksto korpusų

Mašininio vertimo korpuso metodas naudoja lygiagrečių dvikalbių tekstų rinkinį (korpusą). Pagrindinis korpuso pagrindu veikiančių mašininio vertimo sistemų privalumas yra jų savaiminis derinimas, t.y. jie geba atsiminti terminiją ir net frazių stilių iš ankstesnių vertimų tekstų. Statistinis mašininis vertimas ir pavyzdžiais pagrįstas mašininis vertimas yra korpuso metodo variantai.

  • Statistinis mašininis vertimas

Tai mašininio teksto vertimo tipas, pagrįstas didelių kalbų porų kiekių palyginimu. Šis vertimo metodas naudoja statistinius vertimo modelius. Vienas iš naudojamų metodų yra Bayeso teorema. Statistinių vertimo modelių kūrimas yra gana greitas procesas, tačiau technologija labai priklauso nuo daugiakalbio teksto korpuso prieinamumo. Kiekvienai atskirai sričiai reikia mažiausiai 2 milijonų žodžių, jei kalbame apie kalbą kaip visumą. Statistiniam mašininiam vertimui reikalinga speciali įranga, kad būtų galima „vidurkinti“ vertimo modelius. Statistinio mašininio vertimo pavyzdys yra „Google“ vertėjas.

  • Mašininis vertimas su pavyzdžiais

Pavyzdžiais pagrįstos mašininio vertimo sistemos yra pagrįstos lygiagrečio dvikalbio tekstų korpuso, kuriame kaip pavyzdžiai pateikiamos sakinių poros, principu. Kiekvienas sakinys dubliuojamas skirtinga kalba. Statistinis mašininis vertimas turi „mokymosi“ savybę. Kuo daugiau tekstų (pavyzdžių) turėsite, tuo geresnis mašininio vertimo rezultatas.

Kiekvienas vertėjas profesinės komunikacijos srityje susidurs su tinkamos vertimo programos pasirinkimo problema. Išskyrus mokamas paslaugas, manome, kad būtina išanalizuoti labiausiai žinomas sistemas.

Elektroninis vertėjas Google Translate, kurį Google sukūrė 2000-ųjų viduryje, yra labai populiarus. Ši paslauga skirta tekstų ir svetainių vertimui skrydžio metu. Vertėjas naudoja savarankiškai besimokantį mašininio vertimo algoritmą, pagrįstą tekstų kalbine analize.

Skirtingai nuo daugelio mašininių vertėjų, naudojančių SYSTRAN technologiją, „Google“ naudoja savo programinę įrangą. Google vertėjas šiuo metu yra populiariausias vertėjas dėl savo paprastumo ir universalumo (taip pat dėl ​​tiesioginio ryšio su kompiuterių programinės įrangos kūrėju – Microsoft). Dėl šios priežasties ši mašininio vertimo sistema vystosi labai greitai ir yra optimizuota, kad atitiktų vartotojų poreikius. Todėl dabar galima stebėti šio vertėjo funkcijas: viso tinklalapio vertimas; informacijos paieška kartu su vertimu į kitą kalbą; teksto vertimas ant vaizdų; ištartos frazės vertimas; rašysenos vertimas; dialogo vertimas.

Šios mašininio vertimo sistemos funkcijos apima:

  1. Vertimo parinktis valdo statistinis algoritmas.

Vartotojai visada gali pasiūlyti savo tam tikrų žodžių vertimus ir/arba pasirinkti vieną iš vertimo variantų kaip tinkamiausią. Tokio algoritmo trūkumas gali būti sąmoningai neteisingos vertimo parinktys, įskaitant nepadorius žodžius.

  1. Pasaulio kalbų aprėptis.

Tai reiškia, kad programa dabar veikia su daugiau nei šimtu kalbų, įskaitant suahilių, kinų ir valų kalbas. Taigi Google vertėjas gali išversti iš vienos palaikomos kalbos į kitą palaikomą kalbą, tačiau dažniausiai verčiama anglų kalba. Šio mechanizmo trūkumas akivaizdus – nukenčia vertimo kokybė.

PROMT, sukurta 1991 m., užima lyderio poziciją Rusijos mašininių vertėjų rinkoje.

PROMT, kaip ir Google Translate, naudoja savo programinę įrangą, kuri buvo gerokai atnaujinta 2010 m. Nuo šiol PROMT vertimą atlieka hibridinės technologijos pagrindu. Jo esmė slypi tame, kad vietoj vienos vertimo parinkties programa sukuria apie šimtą to paties sakinio vertimų, priklausomai nuo žodžių polisemijos, konstrukcijų ir statistinių rezultatų. Tada mašina pasirenka labiausiai tikėtiną siūlomą vertimą. Taigi vertėjas geba greitai mokytis, tačiau turi tuos pačius trūkumus kaip ir visi statistiniais teksto apdorojimo metodais pagrįsti vertėjai.

Vertėjo galimybės apima: žodžių, frazių ir tekstų vertimą, įskaitant greitųjų klavišų naudojimą; pasirinktos ekrano srities vertimas su grafiniu tekstu; įvairių formatų dokumentų vertimas: doc(x), xls(x), ppt(x), rtf, html, xml, txt, ttx, pdf (taip pat ir nuskaitytus), jpeg, png, tiff; specializuotų žodynų ir vertimo profilių naudojimas, redagavimas ir kūrimas; Translation Memory duomenų bazių ir žodynėlių prijungimas; integravimas į biuro programas, žiniatinklio naršykles, įmonių portalus ir svetaines.

Vertėjo trūkumai: mažas kalbų porų, su kuriomis programa veikia, skaičius; sudėtinga sąsaja; profesinės žodyno vertimų netikslumai (tačiau tai pašalinama sujungiant teminius žodynus).

Tačiau PROMT buvo pripažintas geriausiu anglų-rusų kalbos vertėju kasmetiniame statistinio mašininio vertimo seminare, kurį globojo Kompiuterinės kalbotyros asociacija (ACL), 2013 ir 2014 m.

Yra daugybė kitų mašininio vertimo sistemų, tačiau jos vienaip ar kitaip kopijuoja įvairias vietinio PROMT vertėjo ar amerikietiškojo Google Translate funkcijas.

Taigi vertėjas profesinės komunikacijos srityje, išmanantis mašininio vertimo technologijas ir žinantis, kaip pasirinkti tinkamą elektroninį vertėją tam tikriems tikslams, bus išprusęs sėkmingai vykdyti profesinę veiklą, nes šiame kompiuterinių technologijų vystymosi etape tai per daug anksti galvoti apie visiškai automatinį mašininį vertimą. Žmogus vertėjas mąsto vaizdais ir siekia tikslo: perteikti konkrečią mintį klausytojui / skaitytojui. Vis dar sunku įsivaizduoti kompiuterinę programą su tokiomis galimybėmis. Šiuolaikiniai mašininiai vertėjai atlieka pagalbinį vaidmenį. Jie skirti išgelbėti žmogų nuo įprastų darbų vertimo proceso metu. Popierinių žodynų amžius baigėsi, o mašininio vertimo sistemos ateina į pagalbą profesionaliems vertėjams (ir ne tik kitiems).

Naudotos literatūros sąrašas

  1. www.promt.ru
  2. www.translate.google.com
  3. Belonogovas G.G. Zelenkovas Yu.G. Interaktyvi rusų-anglų ir anglų-rusų mašininio vertimo sistema, VINITI, 1993 m.
  4. Maskvos universiteto biuletenis. Ser.19 Lingvistika ir tarpkultūrinė komunikacija. 2004. Nr.4, 51 p.

Jūsų įvertinimas: Tuščias

Turinys:
Įvadas…………………………………………………………………………. 3
1.1 Kas yra mašininis vertimas?................................................ ........ ....... ................ 5
1.2 Mašininio vertimo pradžia………………………………………………… 8
1.3 Mašininio vertimo kūrimo etapai…………………….………….…. 12
1.4 Šiuolaikinis mašininis vertimas ………………………………………………….. 15
1.5 Mašininis vertimas internete ………………………… ………………….. 18
Išvada ……………………………………………………………………. 21
Literatūra………………………………………………………………. . 22

Įvadas.
Vertimo mechanizavimas yra seniausia žmonijos svajonė. Tačiau XX amžiuje tokia svajonė tapo realybe. Tai daugiausia lemia nuolatinis visuomenės globalizacijos ir net etninių konfliktų bei politinių kataklizmų troškimas, valstybių socialinių ir ekonominių ryšių stiprėjimas, daugelio anksčiau „uždarų“ šalių integracija į pasaulio bendruomenę. Užsienio kalbų mokėjimas yra ne tik naudingas įgūdis kasdieniame gyvenime, bet ir vienas pagrindinių reikalavimų kreipiantis dėl darbo. Šiuo metu poreikis mokėti vieną ar net kelias užsienio kalbas tampa vis aktualesnis. Kalbos (anglų ar vokiečių) žinios būtinos ne tik keliaujant atostogauti į užsienį, bet ir priimant verslo partnerius iš užsienio, kasdieniame gyvenime skaitant žinias ar žiūrint filmus. Todėl daugelis įprastų, kasdienių ir kasdienių operacijų, kurioms anksčiau nereikėjo užsienio kalbos žinių, šiandien dėl tarptautinių integracijos procesų vystymosi ir plačiai paplitusio verslo globalizacijos troškimo tampa vis sunkesni, jei pasikliaujama tik viena kalba. Šiuo atžvilgiu šiandien vis labiau paklausa vertėjų, atliekančių profesionalius vertimus į anglų, vokiečių ir kitas kalbas bei kalbų poras, paslaugos. Tačiau šiandien vien užsienio kalbų žinių nepakanka, nes informacijos, kurią reikia išversti kiekvieną dieną, kiekis gerokai išaugo. Kartu ši užduotis yra sėkmingai išspręsta, o išversti sutartį ar užsienio svetainės turinį niekam nesunku vos per kelias sekundes. Ir viskas dėl to, kad vertimą šiuo atveju atlieka vertėjo programa: žmogus net nespėja mirktelėti, o vertimas jau paruoštas.
Tačiau šiandien, kaip ir anksčiau, realybė nėra tobula. Nėra nei vienos mašininio vertimo sistemos, kuri, paspaudus vos kelis mygtukus, be žmogaus įsikišimo ar bent jau redagavimo galėtų nepriekaištingai išversti bet kokį tekstą bet kuria kalba. Kol kas tai tik tolimos ateities planai, jei tokį idealą apskritai pavyks pasiekti, nes daugelis abejoja šia prielaida.

1.1 Kas yra mašininis vertimas?

Mašininis vertimas – tai vertimo procesas, atliekamas specialia kompiuterine programa, leidžiančia vienos natūralios kalbos tekstą paversti lygiaverčiu tekstu kita kalba. Taip pavadinta ir mokslinių tyrimų kryptis, susijusi su tokių sistemų konstravimu.
Šiuolaikinis mašininis ar automatinis vertimas gali būti laikomas kompiuterio programos sąveikoje su asmeniu:

      Su poredagavimu, kai šaltinio tekstas apdorojamas mašina, o žmogaus redaktorius ištaiso rezultatą.
      Su išankstiniu redagavimu, kai asmuo pritaiko tekstą apdoroti mašina, pavyzdžiui, pašalina galimus dviprasmiškus skaitymus, supaprastina ir pažymi tekstą, po kurio prasideda programinės įrangos apdorojimas.
      Su tarpredagavimu, kai žmogus įsikiša į vertimo sistemos veikimą, sprendžiant sudėtingus atvejus.
      Mišrios sistemos, įskaitant, pavyzdžiui, vienu metu atliekamą išankstinį ir vėlesnį redagavimą.
Pagrindinis mašininio vertimo kaip mokslo tikslas yra sukurti algoritmą, kuris visiškai automatizuoja vertimo procesą.
Mašininiam vertimui atlikti į kompiuterį įvedama speciali programa, kuri įgyvendina vertimo algoritmą, kuris suprantamas kaip unikaliai ir griežtai apibrėžtų veiksmų seka tekstu, siekiant rasti vertimo atitiktį tam tikra kalbų pora L 1 - L 2 tam tikrai vertimo krypčiai (iš vienos konkrečios kalbos į kitą) . Mašininio vertimo sistemoje yra dvikalbiai žodynai, aprūpinti reikiama gramatine informacija (morfologine, sintaksine ir semantine), užtikrinančia atitikmenų, variantų ir transformacijų vertimo atitikmenų perdavimą, taip pat algoritminės gramatinės analizės įrankius, kurie įgyvendina bet kurią iš formalių gramatikų, priimtų automatizuoti. teksto apdorojimas. Taip pat yra atskirų mašininio vertimo sistemų, skirtų versti į tris ar daugiau kalbų, tačiau jos šiuo metu yra eksperimentinės.
Dažniausia yra ši formalių operacijų, atliekančių analizę ir sintezę mašininio vertimo sistemoje, seka:
1. Pirmajame etape įvedamas tekstas ir įvesties žodyne (kalbos, iš kurios verčiama, žodyne) atliekama įvesties žodžių formų (žodžių tam tikros gramatinės formos, pavyzdžiui, datatyvinio daugiskaitos) paieška. ) su lydinčia morfologine analize, kurios metu nustatoma, kad duotoji žodžio forma priklauso tam tikrai leksemai (žodžiui kaip žodyno vienetui). Analizės procese informaciją, susijusią su kitais kalbos sistemos organizavimo lygiais, galima gauti ir iš žodžio formos.
2. Kitas etapas apima tam tikros dalykinės srities idiomatinių frazių, frazeologinių vienetų ar klišių vertimą. Apima pagrindinių įvesties teksto elementų gramatinių (morfologinių, sintaksinių, semantinių ir leksinių) charakteristikų, sukurtų įvesties kalbos rėmuose, nustatymą; homografijos raiška (žodžių formų konvertavimo homonimija - tarkim, anglų kalba. apvalus gali būti daiktavardis, būdvardis, prieveiksmis, veiksmažodis arba prielinksnis); leksinė analizė ir leksemų vertimas. Paprastai šiame etape vienareikšmiai žodžiai yra atskiriami nuo daugiareikšmių žodžių (turinčių daugiau nei vieną vertimo atitikmenį tikslinėje kalboje), po to vienareikšmiai žodžiai verčiami naudojant atitikmenų sąrašus, o daugiareikšminiams žodžiams išversti, t. naudojami kontekstiniai žodynai, kurių žodyno įrašai yra konteksto užklausos algoritmai esant kontekstiniams reikšmės determinantams ar jų nebuvimui.
3. Galutinė gramatinė analizė, kurios metu nustatoma reikiama gramatinė informacija, atsižvelgiant į tikslinės kalbos duomenis (pvz. su rusų kalbos daiktavardžiais kaip rogutėmis, žirklės veiksmažodis turi būti daugiskaitos formos, nors originalas gali turėti ir vienaskaitos formą).
4. Išvesties žodžių formų ir sakinių visumos sintezė tikslinėje kalboje.
Atsižvelgiant į konkrečios kalbų poros morfologijos, sintaksės ir semantikos ypatybes bei vertimo kryptį, bendras vertimo algoritmas gali apimti kitus etapus, taip pat šių etapų modifikacijas ar jų atsiradimo tvarką, bet variacijas. tokios rūšies šiuolaikinėse sistemose paprastai yra nereikšmingos. Analizė ir sintezė gali būti atliekama tiek frazė po frazės, tiek visam tekstui, įrašytam į kompiuterio atmintį; pastaruoju atveju vertimo algoritmas numato vadinamųjų anaforinių ryšių identifikavimą.
Šiuolaikinis mašininis vertimas turėtų būti atskirtas nuo kompiuterių naudojimo žmonėms vertėjams padėti. Pastaruoju atveju turime omenyje automatinį žodyną, padedantį žmogui greitai pasirinkti norimą vertimo atitikmenį. Nors abiem atvejais kompiuteris dirba kartu su asmeniu (vertėju ar redaktoriumi), sąvokos „mašininis vertimas“ turinys apima mintį, kad pagrindinę vertimo ir vertimo atitikmenų bei vertimo atitikmenų paieškos darbo dalį atlieka pats patys, palikdami asmeniui tik valdyti ir taisyti klaidas. Nors kompiuterinis žodynas, padedantis žmogui, yra grynai pagalbinis įrankis greitai surasti vertimo atitikmenis; Tačiau tuo pačiu metu tokio pobūdžio žodynuose kai kurios automatinio vertimo sistemoms būdingos funkcijos gali būti įgyvendinamos ribotai.

1.2 Mašininio vertimo pradžia.

Mašininio vertimo technologija, kaip mokslo sritis, turi beveik šimtmečio istoriją, o pirmosios vertimo proceso automatizavimo idėjos atsirado XVII a.
Kaip visuotinai priimta, mašininio vertimo atsiradimo priežastys buvo nuo XX amžiaus antrosios pusės sparčiai augantis informacijos srautas įvairiomis skirtingų šalių ir žemynų kalbomis, poreikis ją įsisavinti mokslo ir technologijų pažangai, kvalifikuotų (ypač tam tikrų sričių) vertėjų trūkumas, taip pat didelės jų parengimo išlaidos.
Anglų išradėjas Charlesas Babbage'as pirmą kartą pagalvojo apie naujų vertimo metodų kūrimą, kuris jį pasiūlė 1830-ųjų pabaigoje. pirmojo kompiuterio istorijoje projektas. Įrenginio veikimo esmė buvo panaudoti kompiuterio atminties potencialą žodynams saugoti. Ch. Babbage'o idėja buvo tokia, kad žodynams saugoti galėtų būti naudojama 1000 50 bitų dešimtainių skaičių (50 pavarų kiekviename registre). Tačiau Babbage'ui niekada nepavyko įgyvendinti savo idėjos.
Pradinio darbo su mašininiu vertimu laikotarpio teorinis pagrindas buvo požiūris į kalbą kaip kodų sistemą. Mašininio vertimo pradininkai buvo matematikai ir inžinieriai. Dešimtojo dešimtmečio pabaigoje JAV buvo paskelbti jų pirmųjų eksperimentų, naudojant naujai atsirandančius kompiuterius kriptografinėms problemoms spręsti, aprašymai. Mašininio vertimo, kaip tyrimų srities, gimimo data paprastai laikoma 1947 m. kovo mėn. Tuomet Rokfelerio fondo gamtos mokslų departamento direktorius Warrenas Weaveris parengė memorandumą, kuriame teksto vertimo iš vienos kalbos į kitą užduotį įvardijo kaip kitą iššifravimo metodų taikymo sritį. Savo laiške Norbertui Wieneriui Warrenas Weaveris pirmiausia iškėlė mašininio vertimo problemą, lygindamas ją su iššifravimo problema.
Po to sekė karštos diskusijos apie automatinio vertimo idėją ir teorinį pirmųjų technologijų vystymąsi. Buvo pasiūlyta visiškai pakeisti žmonių vertėjus elektroninėmis sistemomis, o daugelis profesionalių vertėjų baiminosi artimiausiu metu likti bedarbiais. Weaverio idėjos sudarė interlingvos samprata pagrįsto požiūrio į mašininį vertimą pagrindą: informacijos perdavimo etapas skirstomas į du etapus; Pirmajame etape šaltinio sakinys išverčiamas į tarpinę kalbą (sukuriamas supaprastintos anglų kalbos pagrindu), o tada šio vertimo rezultatas pateikiamas tiksline kalba.
Tas pats Warrenas Weaveris po keleto diskusijų 1949 metais parengė memorandumą, kuriame teoriškai pagrindė esminę mašininio vertimo sistemų kūrimo galimybę.Mašininio vertimo sistemos tais metais gerokai skyrėsi nuo šiuolaikinių sistemų. Tai buvo labai didelės ir brangios mašinos, užėmusios ištisas patalpas, o jų priežiūrai reikėjo daug inžinierių, operatorių ir programuotojų. Šiais kompiuteriais daugiausia buvo atliekami matematiniai skaičiavimai karinių institucijų, taip pat universitetų matematikos ir fizikos katedrų reikmėms (pastarosios taip pat buvo glaudžiai susijusios su karine sfera). Todėl ankstyvosiose stadijose mašininio vertimo plėtrą aktyviai rėmė kariuomenė; Be to, JAV pagrindinis dėmesys buvo skiriamas rusų-anglų krypčiai, o SSRS - anglų-rusų krypčiai.
Be akivaizdžių praktinių poreikių, svarbų vaidmenį plėtojant mašininį vertimą suvaidino ir tai, kad garsusis intelekto testas („Turingo testas“), kurį 1950 m. pasiūlė anglų matematikas A. Turingas, iš tikrųjų pakeitė klausimą apie ar mašina gali mąstyti su klausimu, ar mašina gali bendrauti su žmogumi natūralia kalba taip, kad jis negalėtų jos atskirti nuo žmogaus pašnekovo. Taigi dešimtmečius kibernetikos (o vėliau ir dirbtinio intelekto) tyrimų centre atsidūrė kompiuterinio natūralios kalbos pranešimų apdorojimo klausimai, o matematikų, programuotojų ir kompiuterių inžinierių, viena vertus, ir lingvistų bendradarbiavimas užsimezgė produktyviai. kitas.
Netrukus pradėtas finansuoti moksliniai tyrimai, o 1952 metais Masačusetso technologijos institute įvyko pirmoji konferencija apie mašininį vertimą, kurią organizavo logikas ir matematikas J. Bar-Hillel.
1954 metais visuomenei buvo pristatyti pirmieji rezultatai: IBM kartu su Džordžtauno universitetu (JAV) sėkmingai atliko pirmąjį eksperimentą. Jis įėjo į istoriją kaip vadinamasis Džordžtauno eksperimentas, kurio metu buvo pristatyta pirmoji elektroninio vertėjo versija. Eksperimentas parodė visiškai automatinį daugiau nei 60 sakinių vertimą iš rusų į anglų . Pristatymas turėjo teigiamos įtakos mašininio vertimo plėtrai per ateinančius 12 metų.
Eksperimentas buvo sukurtas ir paruoštas pritraukti viešas ir vyriausybėdėmesį. Paradoksalu, bet jis buvo pagrįstas gana paprastu sistema : jis buvo pagrįstas tik 6gramatikos taisyklės ir žodyną įtraukta 250 įrašų. Sistema buvo specializuota: asdalykinė sritisbuvo pasirinktas vertimuiorganinė chemija. Programa veikė IBM 701 pagrindiniame kompiuteryje.
Tais pačiais 1954 metais SSRS Tiksliosios mechanikos ir kompiuterių mokslo institute I.K.Belskaya (kalbinė dalis) ir D.Yu (programinė dalis) atliko pirmąjį mašininio vertimo eksperimentą. ir pirmasis pramoniniu požiūriu tinkamas mašininio vertimo algoritmas ir mašininio vertimo sistema iš anglų į rusų kalbą universaliame kompiuteryje buvo sukurta Yu.A. Po to prasidėjo darbas daugelyje šalies informacinių institutų, mokslo ir švietimo organizacijų. Šios srities lingvistų, tokių kaip I. A. Melchuk ir Yu. D. (Maskva), darbas nusipelno ypatingo dėmesio. 1960 m. Leningrado Matematikos ir mechanikos tyrimų institute buvo organizuota eksperimentinė mašininio vertimo laboratorija, kuri vėliau buvo pertvarkyta į Leningrado valstybinio universiteto Matematinės lingvistikos laboratoriją.
Apie Džordžtauno eksperimento demonstraciją buvo plačiai praneštaŽiniasklaida ir buvo vertinamas kaip sėkmingas. Tai turėjo įtakos kai kurių vyriausybių sprendimams teigia , visų pirma JAV, investuoti į regioną kompiuterinė lingvistika. Eksperimento organizatoriai patikino, kad per trejus-penkerius metus mašininio vertimo problema bus išspręsta. Mašininio vertimo idėja paskatino teorinės ir taikomosios kalbotyros tyrimų plėtrą visame pasaulyje. Atsirado formaliųjų gramatikų teorijos, daug dėmesio skirta kalbos modeliavimui ir atskiriems jos aspektams, kalbinei ir protinei veiklai, kalbinės formos klausimams ir kalbinių reiškinių kiekybiniams skirstiniams. Atsirado naujos kalbotyros mokslo sritys – kompiuterinė, matematinė, inžinerinė, statistinė, algoritminė lingvistika ir nemažai kitų taikomosios ir teorinės kalbotyros šakų. XX a. šeštajame dešimtmetyje viso pasaulio švietimo centruose buvo atidarytos taikomosios kalbotyros ir mašininio vertimo katedros. Taigi SSRS tokie padaliniai buvo sukurti Maskvoje (MSU pavadintas M. V. Lomonosovo vardu, Maskvos valstybinis pedagoginis institutas M. Thorezo vardu - dabar MSLU), Minske Maskvos valstybiniame užsienio kalbų pedagoginiame institute, Jerevane, Machačkaloje, Leningrado universitete. , Kijevo, Charkovo, Novosibirsko ir daugelio kitų miestų universitetuose. Mašininio vertimo tyrimai ir plėtra taip pat vyko Prancūzijoje, Anglijoje, JAV, Kanadoje, Italijoje, Vokietijoje, Japonijoje, Nyderlanduose, Bulgarijoje, Vengrijoje ir kitose šalyse, taip pat tarptautinėse organizacijose, kuriose yra daug vertimų. iš įvairių kalbų. Šiuo metu tyrimai atliekami tokiose šalyse kaip Malaizija, Saudo Arabija, Iranas ir kt.

1.3 Mašininio vertimo kūrimo etapai.

Dėl tokios sėkmingos automatinio vertimo plėtros pradžios atrodė, kad per kelerius metus buvo gana įmanoma sukurti kokybiškas automatinio vertimo sistemas. Tuo pačiu metu buvo akcentuojamas visiškai automatinių sistemų, teikiančių aukštos kokybės vertimus, kūrimas; žmogaus dalyvavimas poredagavimo etape buvo vertinamas kaip laikinas kompromisas. Profesionalūs vertėjai rimtai baiminosi, kad greitai liks be darbo...
Tačiau mašininio vertimo tyrimai per visą savo istoriją patyrė ir pakilimų, ir nuosmukių. 1950-aisiais buvo daug investuota į mokslinius tyrimus, tačiau rezultatai greitai nuvylė investuotojus. Viena iš pagrindinių priežasčių, nulėmusių žemą mašininio vertimo kokybę tais metais, buvo ribotos techninės įrangos galimybės: mažas atminties kiekis su lėta prieiga prie joje esančios informacijos ir nesugebėjimas visapusiškai naudotis aukšto lygio programavimo kalbomis. Kita priežastis buvo teorinės bazės, reikalingos lingvistinėms problemoms spręsti, trūkumas. Dėl to pirmosios mašininio vertimo sistemos buvo sumažintos iki tekstų vertimo žodžiu (žodis po žodžio) be jokio sintaksinio, tuo labiau semantinio vientisumo.
1959 metais filosofas J. Bar-Hillel teigė, kad kokybiško, visiškai automatinio vertimo iš principo nepavyks pasiekti. Jis rėmėsi tuo, kad vieno ar kito vertimo pasirinkimą lemia nekalbinės tikrovės žinojimas, o šios žinios yra per plačios ir įvairios, kad jas būtų galima įvesti į kompiuterį. Tačiau Bar-Hillel nepaneigė paties mašininio vertimo idėjos, laikydamas perspektyvia kryptimi mašinų sistemų, orientuotų į žmogaus vertėjo naudojimą (savotiška „žmogaus ir mašinos simbiozė“), kūrimą. Tačiau ši kalba turėjo nepalankiausią poveikį mašininio vertimo plėtrai JAV. 1960-ųjų pradžioje baigėsi pradinis euforiškas MP raidos etapas. Tai labai palengvino vadinamosios „Juodosios mašininio vertimo knygos“ paskelbimas – JAV nacionalinės mokslų akademijos Ad hoc taikomosios kalbotyros komiteto (ALPAC) ataskaita, kurioje teigiama, kad neįmanoma sukurti visuotinės aukštosios. kokybiškas mašininio vertimo sistemas artimiausioje ateityje. Komisija priėjo prie išvados, kad mašininis vertimas buvo nuostolingas: kainos ir kokybės santykis akivaizdžiai nepalankus pastarajai, o techninių ir mokslinių tekstų vertimo reikmėms žmogiškųjų išteklių pakako. Šios publikacijos pasekmė buvo finansavimo sumažinimas ir bendras susidomėjimo mašininio vertimo problemomis sumažėjimas, tačiau visiškas mokslinių tyrimų, ypač teorinių, apribojimas neįvyko. Pirmosios vertimo sistemos ir toliau buvo populiarios SSRS ir JAV karinėse ir mokslo institucijose.
Aštuntajame dešimtmetyje prasidėjo naujas mašininio vertimo technologijų plėtros etapas. Šis pakilimas buvo siejamas su kompiuterinių technologijų atsiradimu – mikrokompiuterių atsiradimu, tinklų plėtra, atminties resursų didėjimu. Programuotojai atsisakė idėjos sukurti „idealią“ vertėjo mašiną: buvo sukurtos naujos sistemos, kurių tikslas buvo žymiai padidinti informacijos vertimo greitį, tačiau būtinas žmogaus dalyvavimas įvairiuose vertimo proceso etapuose. geriausia darbo kokybė.
Apie mašininio vertimo atgimimą 70-80-aisiais. Šie faktai rodo: Europos Bendrijų Komisija (VRK) perka anglišką-prancūzišką „Systran“ versiją, taip pat vertimo iš rusų į anglų kalbą sistemą (pastaroji sukurta po ALPAC ataskaitos ir toliau naudojama „US Air“). pajėgos ir NASA); be to, VRK užsako kurti prancūzų-anglų ir italų-anglų versijas. Tuo metu VRK dėka buvo padėti EUROTRA projekto pamatai, paremti SUSY ir GETA grupių raida. Tuo pačiu metu Japonijoje sparčiai plečiasi veikla kuriant mašininio vertimo sistemas; JAV Panamerikos sveikatos organizacija (PAHO) užsako sukurti ispanų-anglų trasą (SPANAM sistemą); JAV oro pajėgos finansuoja MP sistemos kūrimą Teksaso universiteto Ostine kalbinių tyrimų centre; TAUM grupė Kanadoje daro didelę pažangą kurdama savo METEO sistemą (kuri pirmiausia buvo naudojama orų pranešimų vertimui). Nemažai 70–80-aisiais pradėtų projektų vėliau išsivystė į visavertes komercines sistemas. Mūsų šalyje mašininio vertimo technologijos pagrindų kūrimą tęsė VINITI specialistų grupė, vadovaujama profesoriaus G. G. Belonogovo. Dėl to 1993 m. buvo sukurta pramoninė RETRANS sistemos versija, skirta frazeologiniam mašininiam vertimui iš rusų kalbos į anglų kalbą ir atvirkščiai, kuri buvo naudojama gynybos, geležinkelių, mokslo ir technologijų ministerijose, taip pat Visuose. Rusijos mokslinės informacijos centras.
Kitas mašininio vertimo srities tyrimų etapas buvo praėjusio amžiaus 90-ieji. Tai, be abejo, susiję su milžiniška šiuolaikinių asmeninių kompiuterių pažanga, aukštos kokybės skaitytuvų ir efektyvių optinio teksto atpažinimo programų, prieinamų masiniam vartotojui, atsiradimu ir, žinoma, pasaulinio kompiuterių tinklo Interneto atsiradimu. Visa tai davė naują impulsą darbui su mašininiu vertimu, pritraukė nemažai naujų investicijų į šią sritį ir davė rimtų praktinių rezultatų. Būtent, atsirado gana efektyvios mašininio vertimo sistemos ir kompiuteriniai žodynai darbui asmeniniu kompiuteriu; mašininio vertimo sistemos buvo sujungtos su optinėmis teksto atpažinimo ir rašybos tikrinimo sistemomis. Sukurti specialūs mašininio vertimo įrankiai darbui internete, teikiantys arba tekstų vertimą atitinkamų įmonių serveriuose, arba internetinių puslapių vertimą internetu, leidžiančius įveikti kalbos barjerą ir naršyti užsienio svetaines.

1.4 Šiuolaikinis mašininis vertimas.

Šiuolaikinės vertimo programos turi daug platesnę perspektyvą ir veikia pažangesnių vertimo technologijų pagrindu. Vertimo sistemos aktyviai naudojamos visame pasaulyje tais atvejais, kai reikia greitai suprasti teksto prasmę ar dažnai išversti didelius informacijos kiekius. Kai kuriems kūrėjams šiandien pavyko pasiekti labai priimtiną vertimo kokybę tam tikrose kalbų srityse.
Šiuolaikinis mašininis vertimas turėtų būti atskirtas nuo kompiuterių naudojimo žmonėms vertėjams padėti. Pastaruoju atveju turime omenyje automatinį žodyną, padedantį žmogui greitai pasirinkti norimą vertimo atitikmenį. Sąvokos „mašininis vertimas“ turinys apima mintį, kad mašina atlieka pagrindinę vertimo ir vertimo atitikmenų bei vertimo atitikmenų paieškos darbo dalį. Žmogui suteikiama tik klaidų kontrolė ir taisymas, o kompiuterinis žodynas, padedantis žmogui, yra grynai pagalbinė priemonė greitai surasti vertimo atitikmenis.
Vertimo praktikoje ir informacinėse technologijose yra du pagrindiniai automatinio vertimo būdai. Viena vertus, mašininio vertimo rezultatai gali būti naudojami trumpam susipažinti su dokumento turiniu nežinoma kalba. Šiuo atveju jis gali būti naudojamas kaip signalo informacija ir nereikalauja kruopštaus redagavimo. Kitas metodas apima mašininio vertimo naudojimą vietoj įprasto žmogaus vertimo. Tai apima kruopštų vertimo sistemos redagavimą ir pritaikymą konkrečiai temai. Čia turi reikšmės žodyno išsamumas, dėmesys verčiamų tekstų turiniui ir kalbinių priemonių rinkiniui, leksinės dviprasmybės sprendimo metodų efektyvumas, gramatinės informacijos išgavimo, vertimo atitikmenų paieškos ir sintezės algoritmų algoritmų efektyvumas. Praktiškai tokio tipo vertimas tampa ekonomiškai pelningas, jei verčiamų tekstų apimtis yra pakankamai didelė, tekstai pakankamai vienarūšiai, sisteminiai žodynai yra pilni ir leidžia toliau plėsti, o programinė įranga patogi redaguoti vėliau. Tokios mašininio vertimo sistemos naudojamos organizacijose, kurių operatyvaus ir kokybiško vertimo poreikiai yra gana dideli.
Mašininio vertimo technologijos rėmuose yra du požiūriai: tradicinis (pagrįstas taisyklėmis) ir statistinis (remiantis statistiniu žodynų duomenų bazių apdorojimu). Tradicinį MT metodą naudoja dauguma vertimo sistemų kūrėjų. Tokios programos darbas apima kelis etapus ir iš esmės susideda iš kalbinių taisyklių (algoritmų) naudojimo. Atitinkamai, tokio elektroninio vertėjo sukūrimas apima taisyklių kūrimą ir sistemos žodynų duomenų bazių papildymą. Išvesties vertimo kokybė priklauso nuo būtinų algoritmų sukūrimo. Turtingas sistemos žodynas taip pat leidžia susidoroti su įvairiausių tekstų vertimais. Statistinis metodas veikia visiškai kitu principu. Jis pagrįstas matematiniais vertimo metodais. Tiksliau, visas tokios sistemos veikimo principas paremtas statistiniu šaltinio teksto frazių sutapimų su vertimo sistemos duomenų bazėje saugomomis frazėmis tikimybės skaičiavimu.
Rusijoje, naudojant tradicinį mašininio vertimo metodą, yra kuriami PROMT kompanijos – vienintelės mūsų šalyje vertimo programų gamintojos – programinės įrangos produktai. Šiuo metu PROMT įmonė yra pirmaujanti automatizuotų vertimo sistemų kūrėja ir turinti didžiulę technologinę patirtį, leidžiančią kurtivertimo sistemossu skirtingu funkcionalumu. Unikalios vertimo sistemų kūrimo technologijos ir originalūs algoritmai darbui su tekstais natūraliomis kalbomis tapo pagrindu, kurio pagrindu buvo sukurti visi įmonės programinės įrangos produktai, o tai suteikė galimybę sukurti platų automatinio vertimo iš vienos kalbos į kitą sprendimų spektrą. kitas. PROMT programinės įrangos produktai yra vienodai naudingi sprendžiant verslo problemas ir naudojant namuose. Pastaruoju metu PROMT ypatingą dėmesį skiria specialių įrankių ir technologijų profesionaliems vertėjams kūrimui. Šiuo metu PROMT sistemos atlieka vertimus24 kalbų kryptys. Bendrajame vienos kalbų poros žodyne yra nuo 40 iki 200 tūkstančių žodyno įrašų, kuriuose savo ruožtu pateikiamas struktūrizuotas įvairios kalbinės informacijos, reikalingos, kad sistema veiktų sudėtingiems teksto analizės ir sintezės algoritmams, aprašymas. Žodynuose pagal temas yra specifinių dalykinei sričiai būdingų žodžių ir posakių, jų apimtis gali svyruoti nuo 5 iki 50 tūkstančių žodyno įrašų. Pavyzdžiui, anglų-rusų ir rusų-anglų sistemoms sukurti specializuoti žodynai, apimantys daugiau nei 50 skirtingų temų.

1.5 Mašininis vertimas internete.

Internetinis informacijos vertimas internete tampa vis populiaresnis. Internetas sparčiai transformuojasi iš aplinkos, kurioje daugiausiai kalbama angliškai, į daugiakalbę aplinką, todėl svetainių savininkai informaciją turi teikti keliomis kalbomis. Dažniausiai informacijos ir paieškos svetainės, siekiančios pritraukti į savo puslapius daugiakalbius vartotojus, naudojasi MP paslaugomis. Taigi Kanados informacijos paieškos portale „InfiniT“ (http://www.infiniT.com) atidaryta nauja vertimo paslauga. Dabar svetainė siūlo teksto vertimą internetu iš anglų ir vokiečių į prancūzų ir atvirkščiai. Portalo lankytojų skaičiaus padidėjimą lėmė internetinių puslapių vertimo internetu galimybė. Norėdami tai padaryti, vartotojui tereikia nurodyti tinklalapio adresą, pasirinkti vertimo kryptį ir spustelėti vertimo mygtuką. Dėl to per kelias sekundes vartotojas gauna visiškai išverstą tinklalapį su išsaugotu formatavimu.
Nauja paslauga leidžia pašalinti kalbos problemą Kanados internete, kur dėl istorinių ypatumų plačiai vartojamos dvi kalbos: anglų ir prancūzų. Be to, internetinis vertėjas suteikia prieigą prie svetainių vokiečių kalba tiems Kanados gyventojams, kurie nemoka užsienio kalbų. Paslauga veikia PROMT interneto serverio sprendimo, vadinamo PROMT Internet Translation Server 2.0 versija, pagrindu. Projektas įgyvendintas kartu su įmone Softissimo, kuri reklamuoja PROMT produktus su REVERSO prekės ženklu. Įdomi svetainių, pristatančių MP programas, elektroninius žodynus ir kitas kalbinės pagalbos programas, savybė yra ta, kad galite interaktyviai susipažinti su daugelio programinės įrangos produktų darbu, naudodami serveryje įdiegtą versiją ir turėdami šliuzus nuotoliniam ryšiui per žiniatinklio sąsają. . Interneto leidyklos „InfoArt“ serveryje (http://www.
infoart.ru/misc/dict) buvo surengta interaktyvi Lingvo ir MultiLex žodynų demonstracija. Galite įvesti žodį ar frazę ir iškart gauti vertimą, interpretaciją, naudojimo pavyzdžius ir įprastas frazes.
Universaliausias yra PROMT internetas. Įsigiję šį paketą gausite kelias interneto puslapių vertimo programas, o ne tik jas. Galima drąsiai teigti, kad šio programų rinkinio galimybių visiškai pakanka visaverčiam darbui su dokumentais anglų, prancūzų ir vokiečių kalbomis. Jei planuojate naudotis universalia vertimo programa WebTranSite 98 arba WebView naršykle daugiau nei kitomis PROMT interneto paketo dalimis ir tuo pačiu norite sutaupyti, šiuos produktus galite įsigyti atskirai. Šiuo atveju WebTranSite 98 patiks tiems, kurie dažnai verčia nedidelius teksto fragmentus ne tik iš interneto, bet ir iš biuro, elektroninio pašto ir kitų programų, taip pat iš internetinių pagalbos sistemų.
WebTranSite 98 tinka ne tik tinklalapių vertimui. Tai gana universali ir leidžia apdoroti fragmentus
ir tt............



Ar jums patiko straipsnis? Pasidalinkite su draugais!