Corpustaalkunde en vertalingen    50-58

Jos Hallebeek

Abstract: Parallelle corpora zijn rijke bronnen van informatie voor taal- en vertaalwetenschappelijk onderzoek en onderwijs van allerlei aard. Hallebeek geeft daar een overzicht van en stelt het parallelle corpus Nederlands-Spaans voor, waaraan aan de KUN wordt gewerkt.

 

Heden ten dage is het tekstcorpus voor taalkundigen een belangrijke bron voor empirisch onderzoek. Uit een corpus, een omvangrijke verzameling concrete taaluitingen, destilleert de taalkundige zijn hypotheses over het taalsysteem of taalgebruik, en hij toetst er deze hypotheses aan. Er bestaat een speciale tak van de taalkunde, de corpustaalkunde, die zich bezighoudt met het ontwerpen en samenstellen van corpora, met het ontwikkelen van software om corpora te analyseren en met de taalkundige analyse zelf van die corpora. Afhankelijk van zijn onderzoeksdoelen stelt de ontwerper van het corpus zijn selectiecriteria vast met betrekking tot de aard van de op te nemen teksten en de specifieke kenmerken van de persoon of de personen van wie deze teksten afkomstig zijn. Gaat het om geschreven of gesproken taal, om fictionele of niet-fictionele teksten? Spelen geslacht, leeftijd, afkomst van de spreker of de schrijver een rol?

Gelet op het tekstmateriaal in één of meer talen onderscheidt men eentalige, tweetalige en meertalige corpora. In principe kunnen de teksten in de verschillende talen die in een meertalig corpus zijn opgenomen willekeurig van aard zijn. Er hoeft geen thematisch of andersoortig verband te bestaan tussen de teksten in de ene taal en de andere taal. Toch zijn in de praktijk de teksten in die verschillende talen meestal geselecteerd volgens dezelfde criteria, met name wat betreft onderwerp.

Een speciaal soort twee- of meertalig corpus zijn het comparable corpus en het parallel corpus. Het eerste is een corpus dat in meerdere talen materiaal bevat over dezelfde onderwerpen, zoals buitenlandse politiek, economie, cultuur en dergelijke. De teksten zijn van hetzelfde type: wetenschappelijke artikelen, krantenartikelen, handboeken, romans enz. De teksten in de verschillende talen mogen geen vertalingen van elkaar zijn, hoewel het wel mogelijk is dat oorspronkelijke en vertaalde teksten deel uitmaken van het corpus. Het comparable corpus, mits uitgebreid en specifiek genoeg, verleent goede diensten bij het vinden van de juiste vertaling van domeinspecifieke technische terminologie. Waar de vertaler voorheen urenlang naar equivalenten voor technische termen moest zoeken in gedrukte teksten over een bepaald specialistisch onderwerp, lijkt nu een omvangrijk machine-leesbaar corpus en een eenvoudig te hanteren zoekprogramma te volstaan. Behalve een comparable corpus kan hiervoor ook een eentalig domeinspecifiek corpus gebruikt worden. Het raadplegen daarvan blijkt in de vertaalpraktijk veel sneller te werken dan het zoeken op het www (Friedbichler 1997). Ook veel neologismen en groepsgebonden jargon zijn te vinden in dergelijke eentalige of meertalige, domeinspecifieke corpora. Bovendien blijken ze hun nut te bewijzen als een vertaling een meer ‘natuurlijk’ karakter moet krijgen. Een aardig voorbeeld hiervan is te vinden in Gavioli & Zanettin (1997). Daar gaat het om de vertaling van de volgende Italiaanse zin afkomstig uit een abstract van een medisch artikel over hepatitis C:

In questo lavoro sono state esaminaie 183 biopsie epatiche di etilisti con o senza marcaiori HBV.

De letterlijke vertaling in het Engels zou zijn:

In this paper 183 hepatic biopsies of alcoholics with or without HBV markers were examined.

Een nadere analyse van Engelse tekstfragmenten van hetzelfde type en over hetzelfde onderwerp leverde de volgende vertaling op:

We examined 183 liver biopsies of alcoholics who were positive or negative for HBV markers.

Bestaat het corpus uit originele teksten in één of meer talen met de vertaling van die teksten in één of meer andere talen, dan is er sprake van een parallel corpus. Een klassiek voorbeeld hiervan is het Hansard Corpus met een verzameling handelingen van het Canadese parlement in de Engelse en de Franse versie. Aan het gebruik van parallelle corpora kleven wel enkele nadelen, waarvan men zich goed bewust moet zijn. Zo bestaan er fundamentele taalkundige verschillen tussen originele en vertaalde teksten. Daarnaast moet men de garantie hebben dat een vertaalde tekst die in een corpus wordt opgenomen van voldoende kwaliteit is, met andere woorden men moet er zeker van zijn dat de vertaler zijn vak goed beheerst.

Wat kun je met een parallel corpus?
Tweetalige parallelle corpora worden voor allerlei onderzoeks- en onderwijsdoeleinden gebruikt, maar er zijn ook andere toepassingen: bij voorbeeld in automatische vertaalprogramma’s van het type Example-Based Machine Translation. Als aan een dergelijk vertaalprogramma een tekst ter vertaling wordt aangeboden, deelt het programma deze tekst automatisch op in zinnen en delen van zinnen. Vervolgens zoekt het programma in het aanwezige corpus of daarin de hele zin of een deel ervan in vertaling voorkomt. Als dit het geval is wordt de vertaling gekopieerd naar de tekst die vertaald moet worden. De kans dat een volledige zin reeds vertaald wordt aangetroffen is echter maar klein, tenzij men over een geweldig uitgebreid corpus beschikt. Vandaar dat de zin met behulp van een automatisch syntactisch ontleedprogramma in kleinere delen wordt opgesplitst in de hoop dat de vertaling van de delen wel aanwezig is in het corpus.

De zogenaamde elektronische workbenches die vertalers tegenwoordig aanschaffen, beschikken over een vergelijkbare faciliteit. Te denken valt aan Trados Translator’s Workbench en Transit die onder andere over een vertaalgeheugen beschikken (Gouw 2000). Als een nieuwe tekst ter vertaling wordt ingevoerd, gaat het programma eerst na of zinnen of delen ervan reeds eerder vertaald zijn. Indien dit het geval is, wordt de gevonden vertaling aangeboden aan de gebruiker. Probleem is dat het vertaalgeheugen bij aanschaf van het programma leeg is en dat de gebruiker het zelf moet vullen met de vertalingen die hij in de loop van de tijd maakt.

Parallelle corpora bevatten het materiaal waaruit kan worden afgeleid in hoeverre vertaalde teksten qua taalgebruik verschillen van originele teksten in dezelfde taal. Het probleem bij het uitvoeren van dit soort onderzoek is dat men eigenlijk niet beschikt over een duidelijke karakterisering van de geschreven taal van oorspronkelijke teksten, of het nu om het Spaans of het Nederlands gaat, of een willekeurige andere taal. Bij de definiëring van de grammatica van vertaalde teksten betrekt men op syntactisch gebied onder andere de aanwezigheid van bepaalde constructies zoals de actieve en de passieve constructie. Ook het al dan niet hanteren van de standaardwoordvolgorde van de zinselementen kan een aanduiding zijn dat het gaat om oorspronkelijke of vertaalde taal. De aard van het gebruikte vocabulaire, mede blijkend uit de rijkdom van de woordenschat en de verhouding tussen inhoudswoorden en functiewoorden zegt iets over het gehanteerde taalgebruik, evenals de lengte van de zinnen in aantallen woorden uitgedrukt. Taalkundige karakterisering van vertaalde teksten staat steeds meer in de belangstelling (Baker 1993). Studies op dat gebied zijn mogelijk door het beschikbaar komen van steeds grotere corpora met vertaalde teksten. Binnen het vertaalonderzoek vindt er een verschuiving plaats van de bestudering van de betekenis, naar de ontwikkeling van een beschrijvende vertaalwetenschap die meer uitgaat van taal die in natuurlijke situaties gebruikt wordt.

Uitgevoerde studies
Er zijn tot nu toe verschillende studies uitgevoerd met gebruikmaking van parallelle corpora. In bijna alle gevallen gaat het om het Engels dat naast een andere taal geplaatst wordt, zoals Duits, Zweeds, Noors of Italiaans. Ik wil enkele voorbeelden daarvan noemen.

Zo bestudeerde Wikberg (1996) vragende zinnen in het Noors en in het Engels, in originele en vertaalde romans in beide talen. Hij lichtte zinnen uit het corpus die zeven tot tien woorden bevatten om min of meer complete zinnen te krijgen met een finiet werkwoord. Het vraagteken speelde een belangrijke rol bij het automatisch herkennen van de vraagzinnen. Vraagzinnen drukken niet alleen vragen uit, maar kunnen ook suggesties, verzoeken of raadgevingen bevatten. Het blijkt dat er geen één-op-één relatie is tussen zinnen van dit type in beide talen. Er zijn duidelijke verschillen op formeel, semantisch en pragmatisch gebied.

Stig Johansson (1997) gebruikte hetzelfde parallelle corpus Engels-Noors voor het vergelijken van ontkennende zinnen in beide talen. Het Engels kent de not-ontkenning: She did not see anything, en de no-ontkenning: She saw nothing. In de spreektaal wordt de not-ontkenning veel vaker gebruikt dan in de schrijftaal. In het Noors komen eveneens beide soorten ontkenning voor. Het gebruik hiervan is in beide talen afhankelijk van allerlei factoren, onder andere woordkeus, syntactische omgeving en soort van taalgebruik. Een van de conclusies is dat in het Noors de not-negatie (ikke in het Noors) meer gebruikt wordt dan in het Engels, waardoor de schrijftaal dichter bij de spreektaal lijkt te staan.

Door Hasselgard (1997) werd een comparatieve studie uitgevoerd naar zinsopeningen in het Engels en het Noors. Zij bekeek de eerste drie elementen van 600 mededelingszinnen in het Engels met de Noorse vertaling ervan en van een gelijk aantal uit het Noors met de bijbehorende Engelse vertaling. De niet zo opzienbare conclusie is dat in de vertaalde zinnen zowel in het Noors als in het Engels zoveel mogelijk de woordvolgorde van de brontaal wordt gevolgd, ondanks het feit dat dit niet altijd de meest gangbare is in de betreffende taal. Van het Noors in het Engels worden er meer veranderingen in de structuur van de zin aangebracht dan omgekeerd.

Mats Johansson (1996) bestudeerde het verschijnsel van fronting, vooropplaatsing, in drie Zweedse en drie Engelse werken met hun bijbehorende vertaling. Die zes teksten vertegenwoordigen drie tekstsoorten: algemene fictie, detective roman en autobiografie. Voor Johansson is fronting de plaatsing van een willekeurig element voor het onderwerp in een mededelingszin in het Engels en voor het werkwoord én het onderwerp in het Zweeds, met uitzondering van voegwoorden, betrekkelijke en vragende voornaamwoorden, en tussenwerpsels. Hij constateert aanmerkelijke verschillen tussen beide talen, het Engels kent het verschijnsel in veel mindere mate dan het Zweeds. In de laatste taal staat het lijdend voorwerp of een bijwoordelijke bepaling vaak aan het begin van de zin. Johansson bestudeert uitgebreid de soorten bijwoordelijke bepalingen en andere syntactische functies die voor het onderwerp of werkwoord en onderwerp voorkomen.

Schmied & Schäffler (1996) willen nagaan in hoeverre het waar is dat de Engelse taalgebruiker minder direct is dan de Duitse in zijn manier van uitdrukken. Zij analyseren daartoe het verschil in gebruik van modale bijwoorden en hulpwerkwoorden, onpersoonlijke constructies en tussenzinnen. De analyse is erg gecompliceerd en is gevoelig voor subjectieve interpretaties. Zij besteden ook aandacht aan het verschijnsel dat in het Engels translationese genoemd wordt. Dit staat voor afwijkingen van het normale taalgebruik die worden aangetroffen in vertaalde teksten en die te wijten zijn aan de invloed van de brontaal. Het kunnen simpele fouten tegen de grammatica van de doeltaal zijn, maar ook abnormale of infrequente zinsconstructies of woordplaatsingen. De tendens tot het vereenvoudigen, het inkorten van zinnen, het opheffen van ambiguïteit in de betekenis van zinselementen, het vermijden van herhalingen zijn universele kenmerken van vertaalde teksten, die echter niet veroorzaakt worden door de brontaal.

In een later artikel gaan Schmied & Schäffler (1997) in op twee andere uitingen van translationese, namelijk expliciteit en condensatie die beide kenmerken zijn van vertaalde teksten. Zij onderzochten wederom het Duits-Engelse parallelle corpus. Expliciteit kan structureel of niet-structureel zijn. Met structureel is bedoeld dat in de doeltaal de grammaticale structuur meer elementen vereist dan in de brontaal; bijvoorbeeld, een beknopte bijvoeglijke bijzin tegenover een volledige bijvoeglijke bijzin. Niet-structurele expliciteit is niet gerelateerd aan het taalsysteem van de doeltaal, maar heeft te maken met een bewuste of onbewuste keus van de vertaler om grammaticale en lexicale elementen toe te voegen. Tegenover expliciteit staat condensatie, dit laatste is het omgekeerde proces: van meer naar minder grammaticale of lexicale elementen. Het blijkt dat beide verschijnselen om structurele redenen en om niet-structurele redenen in de vertalingen voorkomen, ook zonder dat de doeltaal er aanleiding toe geeft. Het lijkt alsof de vertaler als het ware zijn eigen proces van interpretatie van de brontekst vormgeeft in de doeltaal en zo de tekst condenseert of juist uitbreidt.

Een corpus Nederlands ‒ Spaans
Zoals gezegd, bevat een parallel corpus een verzameling van dezelfde teksten in verschillende talen. Meestal zijn deze teksten oorspronkelijk in één bepaalde taal geschreven en vervolgens vertaald in één of meer andere talen. Er wordt voornamelijk gewerkt met paren van talen: Engels ‒ Noors, Engels ‒ Zweeds, Engels ‒ Duits, Engels ‒ Italiaans.

Een parallel corpus Nederlands ‒ Spaans van enige omvang ontbreekt tot op heden. Dit ondanks het feit dat zo’n corpus voor onderzoek op het terrein van de contrastieve grammatica en het lexicon een onmisbaar hulpmiddel vormt. In feite kan het totale tweedetaalonderwijs door dit soort studies een geheel nieuw fundament krijgen. In het verleden waren contrastieve studies voornamelijk gebaseerd op veronderstelde verschillen tussen twee talen. Nu is het echter mogelijk de werkelijke verschillen in actueel taalgebruik vast te stellen. De behoefte aan een uitgebreide database met authentiek en actueel tekstmateriaal geldt eigenlijk voor alle vreemde talen die in het Nederlands taalgebied worden onderwezen. De auteur van dit artikel maakt deel uit van de onderzoeksgroep corpustaalkunde van de KUN die het programma taal- en spraaktechnologie van het Center for Language Studies (CLS) uitvoert. Daarnaast is hij docent taalkunde, inclusief Spaanse grammatica, aan de afdeling Spaans van de KUN. Hij heeft het initiatief genomen tot de vervaardiging van een corpus van Spaanse en Nederlandse teksten, waarin oorspronkelijke én vertaalde teksten in beide talen worden opgenomen.

Zoals bij vrijwel alle corpora met teksten die auteursrechtelijk beschermd zijn het geval is, zal ook dit corpus alleen voor intern onderzoek gebruikt kunnen worden, zolang er geen rechten verworven zijn voor algemeen gebruik.

Het corpus is eigenlijk tegelijkertijd een dubbel eentalig corpus, een comparable corpus én een parallel corpus, want men kan de Nederlandse en de Spaanse teksten apart beschouwen, of alleen de oorspronkelijke, of de oorspronkelijke en de vertaalde samen. Met behulp van dit corpus kunnen ten minste vier soorten studies uitgevoerd worden:

  • beschrijvende studies van, afzonderlijk, oorspronkelijk Nederlands en Spaans taalgebruik;
  • contrastieve studies tussen taalgebruik in oorspronkelijke en vertaalde teksten in elk van de twee talen afzonderlijk;
  • contrastieve studies tussen oorspronkelijke teksten in één taal en de vertaling daarvan in de andere taal;
  • vergelijkende studies van taalgebruik in vertaalde teksten van beide talen.

Het pilot-corpus Nederlands ‒ Spaans bestaat uit een verzameling fragmenten uit Spaanse en Nederlandse romans die vertaald zijn in de andere taal. Voorlopig zullen er 32 fragmenten van 20.000 woorden lopende tekst worden opgenomen, 640.000 woorden in totaal. Het gaat om acht Nederlandse en acht Spaanse romans met de bijbehorende vertaling. Tot de geselecteerde auteurs behoren Hugo Claus, Margriet de Moor, Cees Nooteboom, Connie Palmen, Josefina Aldecoa, Almudena Grandes, Antonio Muñoz Molina en Manuel Vicent. Bij de keuze van de op te nemen auteurs van de oorspronkelijke romans zijn de enige criteria geweest dat het om een hedendaagse schrijver gaat en dat het aantal mannen en vrouwen gelijk is. En uiteraard dat er een ‘goede’ vertaling van de roman in het Nederlands of het Spaans voorhanden is. Er is naar gestreefd om het werk van verschillende vertalers op te nemen in het corpus. De fragmenten van 20.000 woorden zijn willekeurig gekozen maar vormen wel een lopende tekst.

Later zal het corpus worden uitgebreid met niet-literaire teksten, zoals handboeken en documenten op verschillend gebied. Vertalingen uit en in beide talen van dat soort werken zijn echter niet erg talrijk. Het is wel zo dat de verschillende bureaus van de EU een grote hoeveelheid documenten produceren die vervolgens in de verschillende werktalen van de gemeenschap voorhanden zijn. Een nadeel van dit soort teksten is dat zij nogal specialistisch van aard zijn en daarom wellicht minder geschikt voor algemene onderzoeks- en onderwijsdoeleinden.

Gebruiksdoelen van het corpus
Momenteel worden de in het Nederlands-Spaanse parallelle corpus op te nemen teksten gescand. Als alle teksten gedigitaliseerd en origineel en vertaling zin voor zin naast elkaar geplaatst (gealigneerd) zijn, kan het corpus worden ingezet voor onderzoeks- en onderwijsdoeleinden.

Om met het onderzoek te beginnen: het parallelle corpus zal worden ingezet voor een systematische beschrijving van de contrastieve grammatica van het Nederlands en het Spaans. Van de onderwerpen die aan bod komen, kunnen worden genoemd: het verschil in het gebruik van de werkwoordstijden, het verschil in de woordvolgorde in diverse soorten zinnen en woordgroepen, het gebruik van niet-finiete bijzinnen, de equivalenten van de Nederlandse werkwoorden ‘zijn’ en ‘worden’ in het Spaans. Het is duidelijk dat voor afstudeerscripties op het terrein van de descriptieve en de contrastieve grammatica het corpus een rijke bron van gegevens vormt.

Vertaalonderzoek zal vooral gedaan worden naar specifieke kenmerken van vertaalde teksten op lexicaal en syntactisch gebied, met name in het Spaans. Hoe onderscheidt zich een vertaalde tekst van een niet-vertaalde? Hierbij wordt gebruik gemaakt van de oorspronkelijke en de vertaalde teksten uit het corpus, alsmede van een ander eentalig computercorpus van het Spaans dat wij enige jaren geleden hebben samengesteld.

Daarnaast zal het corpus ingezet worden bij de Specialisatie Vertalen die onze opleiding aanbiedt in de eindfase van de studie. Door middel van zelfstudieopdrachten zullen de studenten hun vaardigheid in het vertalen van het Nederlands in het Spaans en omgekeerd leren vergroten. Te denken valt aan opdrachten op lexicaal gebied (woordkeuze, terminologie, woorden toevoegen of weglaten) en vooral ook syntactisch gebied (woordvolgorde, zinsconstructies, gebruik van werkwoordstijden). Daarbij zal de student er ook in getraind kunnen worden om de vertaalstrategieën die de vertaler gehanteerd heeft bij het overbrengen van de tekst uit de broncultuur naar de doelcultuur te herkennen. Maar het zal duidelijk zijn dat de combinatie tekst, vertaler en vertaling die in een groot parallel corpus overvloedig aanwezig is, nog veel andere mogelijkheden voor onderzoek biedt.

 

Bibliografie
Baker, Mona. 1993. ‘Corpus linguistics and translation studies. Implications and applications’, in: Baker et al. p. 233–250.

Baker, Mona. 1995. ‘Corpora in translation studies. An overview and some suggestions for future research’, Target, 7:2, p.223–243.

Baker, Mona, Gill Francis & Elena Tognini-Bonelli (eds). 1993. Text and Technology. In Honour of John Sinclair. Philadelphia/Amsterdam: John Benjamins Publishing Company.

Friedbichler, Ingrid & Michael. 1997. ‘The potential of Domain-Specific Target-Language Corpora for the Translator’s Workbench’, in: Corpus use and learning to translate, Bertinoro 14–15 November 1997.

Fries, Udo, Viviane Müller & Peter Schneider (eds). 1997. From Aelfric to the New York Times. Studies in English Corpus Linguistics. Amsterdam/Atlanta, GA: Rodopi.

Gavioli, Laura & Federico Zanettin. 1997. ‘Comparable corpora and translation: a pedagogic perspective’, in: Corpus use and learning to translate, Bertinoro 14–15 November 1997.

Johansson, Mats. 1996. ‘Fronting in English and Swedish: A text-based contrastive analysis’, in: Percy et al. 1996, p. 29–39.

Johansson, Stig. 1997. ‘In search of the missing not: Same notes on negation in English and Nortoegian’, in: Fries et al. 1997, p. 197–214.

Gouw, Priscilla. 2000. ‘Vertaaltools, een uitkomst voor vertalers?’. De Talen, jg. 116, nr. 5, p. 161–164.

Hasselgard, Hilde. 1997. ‘Sentence openings in English and Norwegian’, in: Ljung 1997, p. 3–20.

Ljung, Magnus (ed). 1997. Corpus-based Studies in English. Amsterdam/Atlanta, GA: Rodopi.

McEnery, Tony & Andrew Wilson. 1996. Corpus Linguistics. Edinburgh University Press.

Percy, Carol E., Charles F. Meyer & Ian Lancashire (eds). 1996. Synchronic corpus, linguistics. Amsterdam/Atlanta, GA: Rodopi.

Schmied, Josef & Hildegard Schäffler. 1996. ‘Approaching translationese through parallel and translation corpora’, in: Percy et al. 1996, p. 41–56.

Schmied, Josef & Hildegard Schäffler. 1997. ‘Explicitness as a universal feature of translation’, in: Ljung 1997, p. 21–34.

Wikberg, Kay. 1996. ‘Questions in English and Norwegian: Evidence from the English-Norwegian Parallel Corpus’, in: Percy et al. 1996, p. 17–28.