Klassiekers door de vertaalmachine gehaald   24-01-2021

Frankensteinmonsters of Treasure Islands?

Margot Fonteyne
Rebecca Webster
 

Kunnen generieke (d.i. niet-domeinspecificieke) automatische vertaalsystemen zoals Google Translate en DeepL literaire teksten vertalen? Heel wat studies tonen aan dat deze systemen er de laatste jaren enorm op vooruit zijn gegaan. Microsoft kwam zelfs tot het besluit dat hun systeem menselijke vertalers evenaart (Hassan et al. 2018), in elk geval wat betreft het vertalen van zinnen uit Chinese nieuwsberichten naar het Engels. Menselijke beoordelaars gaven namelijk voor de machinevertalingen gelijkaardige scores als voor de menselijke vertalingen. Onderzoek naar de mate waarin zulke systemen er vandaag in slagen om creatievere tekstsoorten zoals literatuur foutloos te vertalen is echter nog schaars. Bovendien hoort een literaire vertaling voor een optimale leeservaring niet alleen foutloos te zijn, maar ook gevarieerd, samenhangend en creatief. De vraag die dan rijst is of de vertalingen van automatische vertaalsystemen deze kenmerken in dezelfde mate bezitten als die van hun menselijke tegenhangers. Vertrekkend vanuit vier Engelstalige literaire werken, waarvan we telkens drie verschillende Nederlandstalige vertalingen (twee machinevertalingen en een menselijke vertaling) hebben verzameld (Webster et al. 2020) willen we in deze bijdrage de sterktes en zwaktes van literaire machinevertalingen bespreken. De literaire teksten zijn alle vier klassiekers: The Memoirs of Sherlock Holmes (1893) en The Sign of the Four (1890) van Sir Arthur Conan Doyle, A Christmas Carol van Charles Dickens (1843) en Sense and Sensibility van Jane Austen (1811). De menselijke vertalingen die we in deze bijdrage bespreken zijn in dezelfde volgorde die van Paul Heijman (2015), Fanneke Cnossen (2014), Else Hoog (2008) en W.A. Dorsman-Vos (1982). De machinevertalingen werden gegenereerd met Google Translate (augustus 2019) en DeepL (oktober 2019).

Hoe langer de zin, des te meer fouten erin
Om te beginnen geeft het percentage zinnen met en zonder fouten in de machinevertalingen van de vier werken een idee van de globale kwaliteit van automatisch vertaalde literaire werken. Zowel bij Google Translate als bij zijn grote concurrent DeepL ligt het percentage foutloze zinnen gemiddeld op zo’n twintig procent. Dit percentage wordt wel wat omlaag getrokken door Sense and Sensibility. Deze uitschieter bevat gemiddeld slechts vijf procent volledig correct vertaalde zinnen, terwijl dat percentage bij de andere drie boeken telkens op zo’n 25 procent ligt. Een mogelijke verklaring hiervoor zou het verschil in gemiddelde zinslengte kunnen zijn. De zinnen in de klassieker van Jane Austen zijn namelijk gemiddeld een derde langer dan de zinnen uit de drie andere boeken en uit statistieken blijkt dat de kans dat een vertaalde zin fouten bevat groter is naarmate de zinslengte toeneemt.

De ene fout is de andere niet
Niet alleen door de fouten in de machinevertalingen te tellen, maar ook door ze te categoriseren kun je tot interessante inzichten komen. Er zijn natuurlijk verschillende manieren om machinevertaalfouten in te delen, maar een grof onderscheid kan steeds gemaakt worden tussen fouten die te maken hebben met de accuraatheid van de vertaling en fouten die te maken hebben met vlotheid ervan. Zo is de door Google Translate geproduceerde zin “Ik keek eroverheen,” zei hij.’ vlot Nederlands, maar geen accurate vertaling van het Engelse ‘“I glanced over it,” said he.’ (The Sign of the Four) in de betekenis van het vluchtig doornemen van een boek. Vertaalster Fanneke Cnossen opteerde daarom voor ‘“Dat heb ik een beetje doorgebladerd,” zei hij.’ als vertaling. De door DeepL geproduceerde zin ‘“Niets!” Scrooge antwoordde.’ is dan weer geen vlot Nederlands, maar geeft de inhoud van de Engelse zin ‘“Nothing!” Scrooge replied.’ (A Christmas Carol) wel accuraat weer. Om vlotheidsfouten te ontdekken volstaat het dus om de machinevertaling te lezen, om accuraatheidsfouten te detecteren moet je de vertaling naast het origineel leggen. De fouten kun je vervolgens binnen deze twee grote groepen nog fijnmaziger categoriseren. Zo werden de fouten in de machinevertalingen van de vier literaire werken die we in deze bijdrage bespreken gelabeld volgens een taxonomie met drie niveaus (Tezcan, Hoste en Macken 2017). De eerste vertaling is bijvoorbeeld niet accuraat doordat de vaste woordcombinatie ‘to glance over something’ verkeerd werd vertaald. Het stukje tekst dat de eigenlijke fout bevat kreeg daarom het label ‘accuraatheid → onjuiste vertaling → vaste woordcombinatie’. De tweede vertaling is niet vlot doordat het een in het Nederlands ongrammaticale woordvolgorde bevat. De fout in deze zin werd daarom gelabeld als ‘vlotheid → grammatica & syntax → woordvolgorde’. Om een idee te geven van waar de grootste werkpunten voor automatische vertaalsystemen zich bevinden, zullen we in de volgende alinea’s de drie meest voorkomende fouten in literaire machinevertalingen uitvoerig bespreken.

Pudding opwekken in een garretje
Vlotheidsfouten komen zowel in literaire als in andere machinevertalingen iets vaker voor dan accuraatheidsfouten, maar bij de accuraatheidsfouten staat de categorie ‘onjuiste vertalingen’ met stip op één. Deze willen bovendien nog al eens op de lachspieren werken. Een voorbeeld uit de subcategorie verkeerd vertaalde vaste woordcombinaties werd al eerder gegeven, maar er zijn natuurlijk nog andere manieren waarop iets fout vertaald kan zijn. De zin ‘[Hij] wekte de pudding op in zijn garretje’, de door DeepL geproduceerde vertaling van ‘[He] stirred up to-morrow’s pudding in his garret’ (A Christmas Carol), bevat bijvoorbeeld nog twee andere veelvoorkomende soorten onjuiste vertalingen: een in theorie correcte, maar door de context onmogelijke vertaling van een woord en een vertaling van een woord die inhoudelijk gezien niets te maken heeft met het origineel. Een mogelijke Nederlandse vertaling van ‘to stir up’ is namelijk inderdaad ‘opwekken’, maar dit werkwoord kan in combinatie met pudding enkel in de betekenis van ‘omroeren’ worden gebruikt. DeepL blijkt bovendien de Nederlandse vertaling voor het Engelse ‘garret’ (een zolderkamertje) niet te kennen, maar waagt toch een gokje en creëert zo het in het Nederlands onbestaande woord ‘garretje’. Qua vorm lijkt ‘garretje’ wel nog op het Engelse origineel, maar het is er qua betekenis niet aan gerelateerd. Een ander mooi voorbeeld van hoe beide automatische vertaalsystemen creatief omspringen met voor hen onbekende woorden in de hoop toch nog een correcte vertaling op te kunnen leveren, zijn de machinevertalingen voor ‘superannuated’ in de betekenis van ‘gepensioneerd’ (Sense and Sensibility). DeepL vertaalt dit adjectief als ‘superannuïde’, Google Translate als ‘supergeannuleerd’. Beide vertalingen zijn opnieuw wat hun vorm betreft duidelijk geïnspireerd op het Engelse origineel en zien eruit alsof ze in het woordenboek Van Dale zouden kunnen staan, maar hebben niets te maken met gepensioneerd zijn.

Een verhaallijn vol verrassingen
Dat een literaire tekst op inhoudelijk vlak goed samenhangt of met andere woorden coherent is, is belangrijk voor een aangename leeservaring. Helaas staan coherentiefouten op nummer twee in de lijst van meest voorkomende soorten machinevertaalfouten in het algemeen en vormen ze de grootste categorie binnen de vlotheidsfouten. Het gros van de coherentiefouten zijn zogenaamde ‘logische problemen’, stukjes tekst die geen steek houden in het licht van de rest van de tekst en daardoor het volgen van de verhaallijn bemoeilijken. Met de zin ‘Scrooge heeft Old Marley’s naam nooit geschilderd.’ (A Christmas Carol) lijkt bijvoorbeeld op het eerste zicht niet echt iets mis (met uitzondering van het onvertaalde ‘Old’ en de apostrof in ‘Marley’s’). Pas als je de rest van de tekst leest wordt het duidelijk dat wat Scrooge doet niet logisch is. De zin wordt namelijk gevolgd door ‘Daar stond het, jaren later, boven de deur van het magazijn: Scrooge en Marley.’ Hoe kan Marleys naam nu boven de deur van het magazijn staan als Scrooge die nooit heeft geschilderd, vraagt de lezer zich vervolgens af. Het Engelstalige origineel brengt duidelijkheid: de vaste woordcombinatie ‘to paint out’ werd niet volledig vertaald. In het Nederlands hoort er dus in plaats van ‘geschilderd’ ‘overschilderd’ te staan. Dat een onjuiste vertaling leidt tot een logisch probleem is geen uitzondering. Deze foutencombinatie is het frequentst van alle mogelijke combinaties van soorten accuraatheids- en vlotheidsfouten. Bovendien zijn automatische vertaalsystemen nog niet in staat voor de vertaling van een bepaalde zin rekening te houden met essentiële informatie uit de rest van de tekst. Automatisch vertalen gebeurt dus steeds op zinsniveau. Hierdoor ontstaan er natuurlijk ook heel wat coherentiefouten over zinnen heen.

   

Stroefheid troef
Naast coherentiefouten kan een machinevertaling ook vlotheidsfouten bevatten die weliswaar niet de verhaallijn volledig in de war sturen, maar toch door vreemde stijl- of registerkeuzes de leeservaring grondig verstoren. Zulke fouten vormen de derde grootste foutencategorie. Het overgrote deel van zulke fouten bestaat uit grammaticaal correcte constructies waarbij het wel duidelijk is wat ermee bedoeld wordt, maar die erg stroef klinken en veel idiomatischer hadden kunnen vertaald worden. Als voorbeeld kan de zin ‘“Het gaat goed”, zei hij, uit het raam kijkend en op zijn horloge kijkend.’ dienen. Dit is de Google Translate-vertaling van ‘“We are going well”, said he, looking out the window and glancing at his watch.’ (The Memoirs of Sherlock Holmes). De Nederlandse vertaling geeft de inhoud van het Engelse origineel wel accuraat weer, maar klinkt nogal stroef. Dat komt enerzijds doordat zowel ‘looking’ als ‘glancing’ als ‘kijkend’ werden vertaald en anderzijds doordat onvoltooide deelwoorden in het Nederlands iets minder gebruikelijk zijn dan in het Engels. De vertaling van Paul Heijman klinkt dan ook veel eleganter: ‘“We schieten goed op,” zei hij terwijl hij uit het raam keek en een blik op zijn horloge wierp.’

Toch zo slecht nog niet?
Duidelijk is dus dat literaire machinevertalingen op zichzelf nog niet bruikbaar zijn. Nadien moet er nog hevig aan gesleuteld worden, vooral aan lange zinnen. Bovendien moet de gebruiker alert zijn op onjuiste vertalingen, coherentiefouten en vreemde stijl- of registerkeuzes. Maar af en toe kun je ook verrast worden door een erg goed vertaalde zin. Zulke vertalingen worden nog indrukwekkender wanneer je er een vertaling gemaakt door een statistisch machinevertaalsysteem naast legt. Zulke op statistische modellen gebaseerde systemen waren enkele jaren geleden de norm, maar zijn ondertussen ingehaald door neurale machinevertaalsystemen, waarbij gebruik wordt gemaakt van neurale netwerken om vertalingen te genereren. Het verschil in kwaliteit is opvallend. Neem bijvoorbeeld de volgende zin (The Memoirs of Sherlock Holmes):

His head had been shattered by a savage blow from some heavy weapon, and he was wounded on the thigh, where there was a long, clean cut, inflicted evidently by some very sharp instrument.

Deze zin telt maar liefst 34 woorden en vormt dus een heuse uitdaging voor automatische vertaalsystemen. De statistische Google Translate-vertaling ziet er als volgt uit:

Zijn hoofd werd verbrijzeld door een hardere klap uit van een aantal zware wapen, en hij werd verwond op de dij, waar er was een lange, strak belijnd, kennelijk veroorzaakt door een aantal zeer scherp instrument.

Bovenstaande vertaling bevat enkele fouten, onder meer met betrekking tot de werkwoordstijden (‘werd’ in plaats van ‘was verbrijzeld’), voorzetsels (‘op’ in plaats van ‘aan de dij’), woordvolgorde (‘waar er was’), woordvorm (‘hardere’ in plaats van ‘hard’) en congruentie (‘een aantal zware wapen’ en ‘een aantal zeer scherp instrument’). In ons onderzoek analyseerden we de neurale Google Translate-vertaling, die deze fouten niet bevat en daardoor zo goed als foutloos is:

Zijn hoofd was verbrijzeld door een woeste klap van een zwaar wapen, en hij was gewond aan de dij, waar een lange, zuivere snee was, duidelijk veroorzaakt door een zeer scherp instrument.

Literaire machinevertalingen hebben enerzijds dus nog een lange weg te gaan voordat ze volledig foutloos zullen zijn, maar hebben anderzijds ook al heel wat kilometers afgelegd. Maar zelfs een foutloze machinevertaling is nog niet automatisch een goede vertaling. Voor een aangename leeservaring hoort het taalgebruik in een literaire vertaling lexicaal rijk te zijn, moeten er voldoende cohesieve elementen in de tekst aanwezig zijn en is het noodzakelijk de woordvolgorde uit de brontekst waar nodig aan te passen. Om inzicht te verkrijgen in of en hoe literaire machinevertalingen op vlak van deze tekstuele kenmerken verschillen van menselijke vertalingen, zullen we in de volgende alinea’s met behulp van automatische analyses de verschillende vertalingen vergelijken.

Variatie gaat niet vanzelf
Door het aantal unieke woorden in een tekst te delen door het totaal aantal woorden krijg je zicht op hoe rijk en gevarieerd het taalgebruik in die tekst is. Deze automatisch bepaalde waarde wordt ook wel de type-tokenratio genoemd. Hoe hoger de uitkomst, hoe rijker de woordenschat in een tekst is; hoe lager, hoe armer. Het is niet mogelijk om de type-tokenratio van de Engelse brontekst van elk literair werk te vergelijken met de overeenkomstige Nederlandse vertalingen. Om de ratio te berekenen worden woorden namelijk gedefinieerd als een reeks letters begrensd door spaties. Het Engels en het Nederlands verschillen echter wat betreft hun regels omtrent het aaneen- en losschrijven van samenstellingen, waardoor de type-tokenratio van een Nederlandse tekst vaak hoger is dan dat van het Engelse equivalent. Wel kun je de ratio’s van de drie vertalingen van elk werk naast elkaar leggen. Dan zie je dat de machinevertalingen steeds een lagere ratio hebben dan de menselijke vertaling. Hieruit kunnen we dus concluderen dat de machinevertalingen lexicaal armer zijn dan de menselijke vertalingen. Dat zagen we al in het voorbeeld uit The Memoirs of Sherlock Holmes dat we gebruikten om de stroeve stijl die automatische vertaalsystemen hanteren te illustreren. Daarin werden zowel ‘to look’ als ‘to glance’ als ‘kijken’ vertaald, terwijl er in de menselijke vertaling voor twee verschillende vertalingen werd gekozen (‘kijken’ en ‘een blik werpen op’). Een ander voorbeeld zijn de verschillende vertalingen voor het adjectief ‘sweet’ in Sense and Sensibility, dat twaalf keer voorkomt in de tekst. Google Translate geeft hiervoor vier vertalingen: zes keer ‘lief’, twee keer ‘mooi’, twee keer ‘zoet’ en nog eens twee keer ‘leuk’. DeepL vertaalt het ook op vier manieren: zeven keer als ‘lief’, drie keer als ‘zoet’, een keer als ‘leuk’ en nog een keer als ‘liefs’. Dat is al aardig wat variatie, maar vertaalster W.A. Dorsman-Vos deed het nog veel beter. Zij vertaalde ‘sweet’ maar liefst op negen verschillende manieren. Meestal zijn het zoals in de machinevertalingen vrij letterlijke vertalingen: ze gebruikte ‘snoezig’, ‘schattig’ en ‘zoet’ telkens twee keer en ‘zacht’, ‘kranig’ en ‘lief’ telkens eenmaal als vertaling. Maar af en toe bleek zo’n letterlijke vertaling van ‘sweet’ onmogelijk en zorgde Dorsman-Vos voor een creatieve oplossing. ‘Sweet disposition’ vertaalde ze bijvoorbeeld als ‘zachtmoedigheid’, ‘my sweet little Annamaria’ als ‘mijn engeltje Annamaria’ en ‘a sweet pretty place’ als ‘een alleraardigste villa’. Google Translate en DeepL zijn niet in staat om dit soort alternatieven te bedenken, waardoor er natuurlijk eenzijdige, niet-idiomatische constructies ontstaan.

   

Ontbrekende schakels
Inherent aan een tekst is dat die hints bevat om verbindingen tussen de inhoud van verschillende onderdelen (woorden, zinnen, alinea’s) te kunnen leggen. Voorbeelden van zulke aanwijzingen, die ook wel cohesieve elementen worden genoemd, zijn verbindingswoorden, herhalingen, synoniemen en voornaamwoorden. Al naar gelang de hoeveelheid cohesieve elementen in een tekst spreken we dus van veel of juist weinig cohesie. Onderzoek heeft al aangetoond dat literaire teksten, zowel originele versies als vertalingen, cohesiever zijn dan bijvoorbeeld nieuwsberichten (Voigt en Jurafsky 2012). Cohesie lijkt dus een essentieel kenmerk te zijn van literaire teksten. Een belangrijke vraag is dan of literaire machinevertalingen erin slagen even cohesief te zijn als hun menselijke equivalent. Er bestaan verschillende manieren om cohesie te meten en dus deze vraag te beantwoorden. Rob Voigt en Dan Jurafsky (2012) namen bijvoorbeeld het gemiddeld aantal verwijzingen naar eenzelfde entiteit (een voorwerp, een levend wezen, een abstract concept, ...) in een tekst als maatstaf voor de hoeveelheid cohesie in een tekst. Ze vergeleken dit gemiddelde voor statistische machinevertalingen met dat voor menselijke vertalingen. Het gemiddelde bleek hoger te liggen voor menselijke vertalingen. Statistische machinevertalingen zouden dus minder cohesie bevatten. Wij besloten cohesie op een andere manier te meten (Tezcan, Daems en Macken 2019), namelijk op basis van overlappingen tussen een zin en de twee zinnen die erop volgen. Een overlapping kan je heel eng of juist heel breed definiëren. Een enge definitie houdt alleen rekening met lexicale overlappingen. Zulke overlappingen ontstaan doordat een zin een inhoudswoord (substantieven, adjectieven, werkwoorden en bijwoorden) bevat dat wordt herhaald (eventueel in een andere woordvorm) in één van de twee opeenvolgende zinnen. In het onderstaande fragment uit de menselijke vertaling van The Sign of the Four overlapt bijvoorbeeld ‘gang’ uit de eerste zin lexicaal met ‘gang’ uit de derde zin en ‘deuren’ uit de tweede zin met ‘deur’ uit de vierde zin.

De derde trap kwam uit op een lange, rechte gang. Aan de rechtermuur hing een prachtig Indiaas wandtapijt en links bevonden zich drie deuren. Holmes liep daar op dezelfde trage, methodisch onderzoekende manier langs, terwijl wij hem op de voet volgden en lange schaduwen in de gang achter ons wierpen. We moesten bij de derde deur zijn.

Bij een brede definitie worden alle woorden die wat betreft hun betekenis aan elkaar verwant zijn als overlappende woorden meegerekend. In dat geval spreken we van semantische overlappingen. Ook synoniemen, bijna-synoniemen (bijvoorbeeld ‘leugen’ en ‘onwaarheid’), cohyponiemen (‘sla’ en ‘wortel’ zijn bijvoorbeeld beide een hyponiem van ‘groente’) of deel-geheelrelaties (bijvoorbeeld ‘neus’ en ‘gezicht’) tellen dus mee. Om dit te verduidelijken volgen opnieuw enkele voorbeelden uit de menselijke vertaling van The Sign of the Four. Een eerste semantische overlapping, hier op basis van cohyponiemen, is terug te vinden in het volgende fragment:

Mijn vader was officier in een Indiaas regiment en stuurde me naar Groot-Brittannië terug toen ik nog heel klein was. Mijn moeder was dood en ik had geen familie in Engeland.

Het woord ‘vader’ uit de eerste zin en het woord ‘moeder’ uit de tweede zin kunnen beide ingedeeld worden onder het hyperoniem ‘ouder’. Er is dus sprake van een semantische overlapping tussen beide woorden. Een tweede voorbeeld van een semantische overlapping, deze keer op basis van synonymie, zit vervat in het volgende citaat:

En ik moet ook bekennen dat ik me stoorde aan zijn zelfingenomenheid; klaarblijkelijk was hij van mening dat elke regel uit mijn boekje vooral aan zijn wapenfeiten gewijd moest zijn. In de jaren dat ik met hem in Baker Street had gewoond, had ik meer dan eens gemerkt dat er achter het kalme en schoolmeesterachtige voorkomen van mijn huisgenoot een zekere ijdelheid schuilging.

‘Zelfingenomenheid’ en ‘ijdelheid’ zijn synoniemen van elkaar en vormen daarom dus ook een semantische overlapping. Zowel wat betreft de lexicale als de semantische overlappingen blijken de menselijke vertalingen steeds erbovenuit te torenen, ongeacht of je nu kijkt naar het totale aantal overlappingen of het aantal zinnen dat minstens een overlapping bevat.

Herschikken hoort erbij
Ten slotte wijkt een menselijke literaire vertaling regelmatig af van de woordvolgorde in de brontaal, omdat die volgorde in de doeltaal niet idiomatisch of zelfs onmogelijk is. Er wordt dus van een literaire vertaler verwacht ook op syntactisch vlak creatief te zijn tijdens het vertalen. Om na te gaan of automatische vertaalsystemen in dezelfde mate woorden herschikken, berekenden we de kruisingswaarden van zowel de menselijke als de automatische vertalingen. Deze automatisch bepaalde waarde verkrijg je door lijnen te trekken van elk woord in de brontekstzin naar de vertaling van dat woord in de doeltekstzin. Dit proces wordt ook wel aligneren genoemd. Vervolgens tel je het aantal keer dat die lijnen elkaar kruisen bij elkaar op en deel je dat getal door het totale aantal getrokken lijnen (Vanroy, Tezcan en Macken 2019). De voorbeelden hieronder haalden we uit A Christmas Carol. Het voorbeeld links bevat de brontekstzin met de menselijke vertaling, het voorbeeld rechts de brontekstzin met de machinevertaling. In beide gevallen moet je telkens zes lijnen trekken tussen de brontekstzin en de vertaling. In het voorbeeld met de menselijke vertaling links kruisen de lijnen tweemaal, in het voorbeeld met de machinevertaling rechts kruisen ze maar één keer. De kruisingswaarde voor de menselijke vertaling is dus 0,33 en die voor de machinevertaling 0,17. Hoe hoger deze waarde, hoe meer woorden zijn herschikt in de vertaling; hoe lager, hoe minder herschikkingen.

     

Uit de cijfers blijkt dat de woordvolgorde van machinevertalingen minder afwijkt van de brontekst dan bij menselijke vertalingen het geval is. Automatische vertaalsystemen nemen met andere woorden vaker gewoon de woordvolgorde van de brontekst over. Zoals de voorbeelden aantonen levert die strategie niet altijd de meest elegante vertalingen op. Bovendien zou dit vastklampen aan de woordvolgorde uit de brontekst wel eens een verklaring kunnen zijn voor het hoge aantal vlotheidsfouten dat we al eerder rapporteerden.

De slotsom
Onderzoek naar automatische vertalingen stelt vaak de kwaliteit van een machinevertaling gelijk aan het aantal fouten in die vertaling. Zoals gezegd is een goede vertaling foutloos, maar een foutloze vertaling niet per se goed. Een goede vertaling bezit namelijk ook nog andere kenmerken, waaronder een gevarieerde woordenschat, samenhang en een aan de doeltaal aangepaste woordvolgorde. Dit geldt niet in het minst voor literaire vertalingen. Om na te gaan of door generieke, neurale systemen gegenereerde vertalingen menselijke vertalingen op deze vlakken kunnen evenaren, pasten we automatische analyses toe op verschillende Nederlandstalige literaire vertalingen. Die analyses toonden aan dat de machinevertalingen lexicaal armer zijn, minder cohesieve elementen bevatten en dichter bij de woordvolgorde van de brontekst blijven dan de menselijke vertalingen. Ondanks de grote vooruitgang die automatische vertaalsystemen de laatste jaren hebben geboekt, kunnen ze op deze vlakken zeker (nog) niet tippen aan menselijke vertalers. Een belangrijke kanttekening hierbij is dat DeepL en Google Translate generieke machinevertaalsystemen zijn. Het is niet ondenkbaar dat systemen die getraind werden op grote hoeveelheden literair materiaal vertalingen van een betere kwaliteit zouden kunnen genereren. Het verzamelen van grote hoeveelheden literatuur is echter geen gemakkelijke opdracht. Bovendien volstaat een willekeurige verzameling aan literaire teksten waarschijnlijk niet. Omdat auteurs vaak een unieke stijl hebben, is het goed mogelijk dat automatische vertaalsystemen pas echt nuttig kunnen zijn in het literair vertaalproces wanneer ze getraind werden op grote hoeveelheden tekstmateriaal van de auteur van het te vertalen werk.

 

Bibliografie
Austen, Jane. 2008. Sense and Sensibility. Urbana, Illinois: Project Gutenberg. Geraadpleegd op 20 augustus 2019 via http://www.gutenberg.org/ebooks/161.

Austen, Jane. 2013. Verstand en onverstand. Vertaling: W.A. Dorsman-Vos. Amsterdam: Meulenhoff Boekerij.

Dickens, Charles. 2004. A Christmas Carol. Urbana, Illinois: Project Gutenberg. Geraadpleegd op 20 augustus 2019 via http://www.gutenberg.org/ebooks/46.

Dickens, Charles. 2008. Een kerstvertelling. Vertaling: Else Hoog. Amsterdam/Antwerpen: Atlas Contact.

Doyle, Arthur C. 1997. The Memoirs of Sherlock Holmes. Urbana, Illinois: Project Gutenberg. Geraadpleegd op 20 augustus 2019 via http://www.gutenberg.org/ebooks/834.

Doyle, Arthur C. 2000. The Sign of the Four. Urbana, Illinois: Project Gutenberg. Geraadpleegd op 20 augustus 2019 via http://www.gutenberg.org/ebooks/2097.

Doyle, Arthur C. 2014. Het teken van vier. Vertaling: Fanneke Cnossen. Amsterdam: Meulenhoff Boekerij.

Doyle, Arthur C. 2015. De memoires van Sherlock Holmes. Vertaling: Paul Heijman. Amsterdam: Meulenhoff Boekerij.

Hassan, Hany, Anthony Aue, Chang Chen et al. 2018. Achieving Human Parity on Automatic Chinese to English News Translation. Geraadpleegd op 19 juni 2020 via https://arxiv.org/pdf/1803.05567.pdf.

Tezcan, Arda, Joke Daems en Lieve Macken. 2019. ‘When a “sport” is a person and other issues for NMT of novels’, in: Proceedings of the Qualities of Literary Machine Translation. Dublin: European Association for Machine Translation, p. 40-49.

Tezcan, Arda, Véronique Hoste en Lieve Macken. 2017. ‘Scate taxonomy and corpus of machine translation errors’, in: Gloria Corpas Pastor en Isabel Durán-Muñoz (ed.), Trends in E-tools and resources for translators and interpreters.  Leiden/Boston: Brill/Rodopi, p. 219-244.

Vanroy, Bram, Arda Tezcan en Lieve Macken. 2019. ‘Predicting syntactic equivalence between source and target sentences’, Computational Linguistics in the Netherlands Journal 2019, 9, p. 101-116.

Voigt, Rob en Jurafsky, Dan. 2012. ‘Towards a literary machine translation: The role of referential cohesion’, in: Proceedings of the NAACL-HLT 2012 Workshop on Computational Linguistics for Literature. Stroudsburg, Pennsylvania: The Association for Computational Linguistics, p. 18-25.

Webster, Rebecca, Margot Fonteyne, Arda Tezcan, Lieve Macken en Joke Daems. 2020. ‘Gutenberg Goes Neural: Comparing Features of Dutch Human Translations with Raw Neural Machine Translation Outputs in a Corpus of English Literary Classics’, Informatics, 7(3), 32.

 

Margot Fonteyne en Rebecca Webster zijn afgestudeerd in de Taal- en Letterkunde, waarna ze het postgraduaat Computer-Assisted Language Mediation volgden. Momenteel zijn ze beiden verbonden aan het Language and Translation Technology Team (Universiteit Gent), Margot Fonteyne als wetenschappelijk medewerker en Rebecca Webster in het kader van haar onderzoeksstage. Hun onderzoek maakt deel uit van het ArisToCAT-project (Assessing the Comprehensibility of Automatic Translations), waarin dieper wordt ingegaan op het automatisch vertalen van (literaire) teksten.

 

Reageren? info@tijdschrift-filter.nl.