Download as pdf or txt
Download as pdf or txt
You are on page 1of 59

Je leest:

Taaltechnologie in het onderwijs

Taaltechnologie in het onderwijs


Auteurs: Erica Renckens en Peter van Rosmalen (Open Universiteit Nederland) | 5
december 2008
TAALTECHNOLOGIE (43)
Iedereen wil het als hij met zijn huiswerk bezig is: de juiste hulp op het juiste
moment. Stiekem maken we de laatste jaren al steeds meer gebruik van
taaltechnologische toepassingen, zoals zoekmachines en spelling- en
grammaticacontrole. Wat kunnen we in de toekomst allemaal nog aan
handigheden verwachten?

Het is voor docenten steeds moeilijker om hun leerlingen de begeleiding te geven die ze nodig
hebben. Meer en meer scholen werken met individuele studietrajecten met veel opdrachten en
maken gebruik van forums en mail. Het kost dan veel tijd om elke leerling goed te kunnen
volgen en helpen als hij dat nodig heeft. Uit onderzoek is onlangs dan ook gebleken dat
docenten uit het hoger onderwijs graag toepassingen zouden zien die hun werk minder
tijdsintensief maken. Te denken valt bijvoorbeeld aan software die automatisch vragen van
studenten beantwoordt, werkstukken nakijkt of achtergrondinformatie toegankelijk maakt.

Al deze toepassingen zijn voorbeelden van e-learning waarbij taaltechnologie een belangrijke
rol zou kunnen spelen. Taaltechnologie is een vorm van automatische verwerking van taal.
Hoewel deze techniek nog volop in ontwikkeling is, maakt bijna iedereen er wel al regelmatig
gebruik van. Denk maar eens aan zoekmachines zoals Google of plagiaatsoftware die nakijkt
of een werkstuk niet van internet is geplukt. Ook de spelling- en grammaticacontrole in je
tekstverwerker is een vorm van taaltechnologie.

De tijden waarin de hele klas een uur lang naar de docent luistert zijn allang voorbij.
Tegenwoordig werken studenten veelal zelfstandig, waarbij veel gebruik wordt gemaakt van
internet.

Taaltechnologie
Er zijn verschillende manieren om tekst met behulp van een computer te analyseren. Een
manier is door middel van grammaticale analyse. De computer krijgt dan de formele regels
van een grammatica aangeleerd en kan daarmee de taal ‘begrijpen’. Een andere manier is een
statistische methode. Hierbij ziet de computer een tekst alleen als een verzameling woorden,
dus zonder onderlinge regels. Door te kijken naar grote hoeveelheden teksten, weet de
computer welke woorden regelmatig in dezelfde context voorkomen en dus waarschijnlijk
met elkaar in verband staan. Vergelijk de volgende zinnen maar eens:
-De buurman rijdt in een luxe Volvo. -Tineke neemt altijd de trein naar haar oma. -Henk gaat
met de auto naar zijn werk. -Anja gaat met de fiets naar school.

Wij mensen weten dat een Volvo, een trein, een auto en een fiets vervoersmiddelen zijn. De
computer leert dit door heel veel van dit soort zinnen en hun context te bekijken. Met deze
methode kan de computer dus aangeven dat twee woorden erg op elkaar lijken of dat een
vraag over een bepaald onderwerp gaat.

Nederlandse kennis
In maart 2008 is een Europees project gestart dat zich bezighoudt met de ontwikkeling van
nieuwe taaltechnologische toepassingen in het onderwijs. De komende 3 jaar zullen 10
partijen, vooral universiteiten en enkele bedrijven, zich inzetten voor dit LTfLL-project, wat
staat voor Language Technologies for Lifelong Learning. Vanuit Nederland dragen de Open
Universiteit, de Universiteit Utrecht en Aurus KTS b.v. hun steentje bij. Dit zijn alle drie geen
onbekenden in het vakgebied.

Zo hebben onderzoekers van de Open Universiteit onlangs onderzocht hoe docenten kunnen
worden ondersteund met behulp van software die helpt vragen van leerlingen te
beantwoorden. Dankzij de software hoeven de docenten niet meer de hele avond achter hun
computers mailtjes te beantwoorden. Het programma beoordeelt automatisch over welk
onderwerp de vraag van de leerling gaat en stuurt deze vervolgens door naar een andere
student die al meer van dit onderwerp afweet. Tegelijk stuurt de software ook enkele
automatisch geselecteerde tekstfragmenten mee over het onderwerp. De studenten kunnen
elkaar zo helpen. Uit het onderzoek blijkt dat meer dan 70% van de vragen zo opgelost
worden en dat de leerlingen het een fijne manier van werken vinden. De leerling met de vraag
krijgt de uitleg die hij zoekt en de leerling die helpt kan door de vraag dieper over de stof
nadenken.

De Universiteit Utrecht was al betrokken bij het LT4eL-project, Language Technology for
eLearning. In dit project hebben de onderzoekers taaltechnologie en semantische netwerken
ingezet om automatisch informatie uit bronnen te halen. De toepassingen die zijn ontwikkeld
in dit project kunnen bijvoorbeeld automatisch de trefwoorden van een tekst bepalen of een
woordenlijst met definities maken. Zo kan een student snel en makkelijk aan de informatie
komen die hij nodig heeft. Tot slot heeft ook Aurus KTS veel ervaring met e-learning en
kennismanagement.

Beginner of expert?
In het LTfLL-project gaan de Europese onderzoekers nog een stapje verder. Ze gaan
onderzoeken hoe taaltechnologie op drie verschillende onderdelen van het onderwijs ingezet
kan worden. In het eerste onderdeel richten de onderzoekers zich vooral op de
zogenaamde positionering. Hiermee wordt het vaststellen van het niveau van de leerling op
een bepaald kennisgebied bedoeld. Het uitgangspunt hiervan is dat naarmate je meer van een
bepaald onderwerp afweet, je er ook anders over gaat praten en schrijven. Je gebruikt andere
termen en ziet relaties die je eerder nog niet zag.
De wetenschappers van LTfLL willen automatisch vast kunnen stellen of een student op het
voor haar gewenste niveau werkt voor een bepaald vakgebied, bijvoorbeeld als een beginner,
een expert of meer ertussenin. Voor een beginner doen ze dit door de teksten van een student
te vergelijken met teksten van ‘voorbeeld-beginners’. De software zal hierbij vooral kijken of
de gebruikte begrippen en de relaties die daartussen gelegd worden overeenkomen met die
van de voorbeeld-beginners. Afhankelijk van de verschillen en overeenkomsten in de teksten,
zal de software adviseren of er onderwerpen zijn waar het verstandig is om nog extra aan te
werken.

Feedback
In het tweede onderdeel kijken de onderzoekers hoe taaltechnologie studenten automatisch
kan ondersteunen bij specifieke opdrachten. Stel je voor dat je leraar als opdracht geeft om de
symptomen van suikerziekte in kaart te brengen. Je mag dit in je eentje doen door een
samenvatting in te leveren, maar je mag ook met een groepje werken en met behulp van een
forum- of chatomgeving de opdracht maken. Als je alleen hebt gewerkt, geeft de software je
automatisch feedback of je alle symptomen hebt behandeld. Bij de groepsopdracht wordt
daarnaast ook nog de samenwerking bekeken: heeft iedereen wel een bijdrage geleverd aan de
opdracht en wie heeft de discussie geleid?

Het werk van een leraar houdt niet op zodra de schoolbel is gegaan. Vaak is hij nog uren
bezig met nakijken, vragen beantwoorden en vergaderen. Als hij straks de toepassingen uit het
LTfLL-project kan gebruiken, zal hem dat veel tijd schelen.

Kennis delen
In het derde onderdeel van LTfLL gaan de onderzoekers bekijken hoe kennis het beste
gedeeld en toegankelijk gemaakt kan worden. Vroeger hielden alleen bibliotheken en scholen
zich bezig met het verstrekken van studiemateriaal. Met de komst van het internet is er echter
een gigantische hoeveelheid extra materiaal beschikbaar gekomen, bijvoorbeeld via
Wikipedia of YouTube. Het is nu niet langer de kunst om materiaal te vinden, maar wel om
de juiste informatie te vinden. Dat betekent dat je de juiste zoektermen moet gebruiken en dat
je goed moet kunnen inschatten van welke kwaliteit het gevonden materiaal is.

Het is de bedoeling dat studenten met behulp van taaltechnologie een betere keuze kunnen
maken en zo dus met beter studiemateriaal zullen werken. De wetenschappers willen in dit
deel van het project een speciale leeromgeving creëren die studenten helpt bij het selecteren
van het beste lesmateriaal. Dit kan door bijvoorbeeld automatisch geschiktere zoektermen aan
te dragen. Hiervoor kunnen ‘tags’ van de studenten gecombineerd worden met trefwoorden
uit het vakgebied en uit de tekst zelf. Ook zal gebruik gemaakt worden van kwaliteitsscores
die andere studenten aan het materiaal gegeven hebben

Beschikbaarheid
De toepassingen uit het LTfLL-project zijn nog niet klaar. Tot begin 2011, wanneer het
project afloopt, zullen de onderzoekers wel al zoveel mogelijk de toekomstige gebruikers
betrekken bij hun onderzoek. Dit doen ze door evaluaties, workshops en door alle ontwerpen
te beschrijven in scenario’s in gewone taal met een uitleg van de onderwijssituatie en de rol
en de verwachtte bijdrage van alle deelnemers. Scholieren en studenten zullen het voorlopig
dus nog even moeten doen met Google en de spellingchecker, maar een hele nieuwe generatie
aan taaltechnologische toepassingen is al onderweg naar het onderwijs.

https://www.nemokennislink.nl/publicaties/taaltechnologie-in-het-onderwijs/
De computer kan woorden voorspellen
Auteur: Erica Renckens | 10 oktober 2008
LEXICON (8)
Vandaag spreekt Antal van den Bosch aan de Universiteit van Tilburg zijn
oratie uit. De nieuwe hoogleraar Geheugen, taal en betekenis legt hierin uit
hoe een computer op basis van een groot aantal teksten woorden kan
voorspellen. Het model werkt op basis van waarschijnlijkheid en begrijpt
dus niet echt de grammatica en de betekenis van de taal.

De taal- en spraaktechnologie ontwikkelt meestal toepassingen die zijn gebaseerd op


expliciete taalmodellen. Zo’n taalmodel is een schematische benadering van hoe een
mens taal produceert en begrijpt. Als dit model perfect is, zal het alleen maar
grammaticaal en inhoudelijk correcte zinnen produceren. Een taal heeft alleen
meestal zóveel regels, en vaak nog meer uitzonderingen op die regels, dat het
wetenschappers nog niet is gelukt zo’n perfect taalmodel te maken. En doordat het
model niet perfect is, kan de techniek ook nog niet perfect werken.

Met het uitspreken van zijn oratie begint professor Antal van den Bosch vandaag
officieel als hoogleraar Geheugen, taal en betekenis aan de Universiteit van Tilburg.

Antal van den Bosch pleit er vandaag in zijn inaugurele rede voor dat taal- en
spraaktechnologen niet langer gebruik maken van expliciete taalmodellen, maar van
impliciete taalmodellen die analoog redeneren. Bij analoog redeneren wordt gebruik
gemaakt van informatie uit een grote collectie eerder verzamelde teksten. Als in die
opgeslagen teksten bijvoorbeeld “terugwerkende” meestal gevolgd wordt door
“kracht”, dan is de kans groot dat dit een volgende keer weer zo zal zijn.

Constructicon
Om zeker te kunnen zijn van zulke voorspellingen moet je beschikken over heel veel
teksten. Deze teksten moet de computer eerst uitgebreid analyseren, waarbij hij een
gigantische lijst maakt van alle rijtjes woorden die altijd opgevolgd worden door één
specifiek woord of misschien zelfs wel meerdere woorden. Ieder woord kan
verschillende keren in de lijst voorkomen, want woorden kunnen immers in veel
verschillende contexten voorkomen. “Zeg” komt niet alleen voor in “kom nou zeg”,
maar ook in “ik zeg maar zo” of “zeg eens” en in nog veel meer rijtjes woorden.
Computers kunnen tegenwoordig heel makkelijk zo’n lijst samenstellen, opslaan en
toegankelijk maken. De lijst lijkt een beetje op een woordenboek ( lexicon), maar dan
van vaste zinsconstructies. Men noemt het daarom ook wel een constructicon.

Impliciete grammatica
Maar hoe goed kan zo’n systeem nou voorspellen hoe een zin afgemaakt moet
worden? Dat hangt vooral af van de grootte van de collectie teksten waarop hij zijn
voorspelling baseert. Voorlopig liggen de resultaten tussen de 6% en de 50% correct
voorspelde woorden. Elke keer dat de hoeveelheid tekst in de database verdubbelt,
stijgt dit percentage. Enerzijds komt deze stijging doordat de computer bekende
zinsconstructies weer vaker tegen komt, zodat de kansverdeling uitgebreider wordt.
Anderzijds zal hij in nieuwe teksten ook weer nieuwe woorden en nieuwe
zinsconstructies tegenkomen, waardoor zijn lijst completer wordt.

In de informatica zijn de laatste decennia allerlei handige technieken ontwikkeld


waardoor het maken van een constructicon een kleine moeite is.

De woorden die de computer het best voorspelt zijn over het algemeen woorden die
vaak voorkomen. Daarvoor heeft hij immers de meeste statistieken en kan hij met de
grootste zekerheid een keus maken. Bij woorden die fout gaan, valt echter op dat de
computer wel al in de juiste richting zoekt. Als het systeem “tweede” voorspelt in
plaats van “eerste”, is dat officieel fout, maar hij zit wel dicht in de buurt. Het systeem
beschikt dan niet over expliciete grammaticale kennis zoals de ‘oude’ systemen,
maar impliciet lijkt hij er toch heel wat van af te weten.

Voorspellen…en dan?
In de praktijk zal je niet vaak een systeem nodig hebben dat je zinnen af kan maken.
Het door Antal van den Bosch voorgestelde systeem kan echter voor veel meer
toepassingen gebruikt worden. Zo kan het dienen als spellingchecker door jouw
tekst te vergelijken met zijn collectie. Grote kans dat jouw “ik wordt” fout is, als hij in
zijn constructicon alleen maar “ik word” heeft staan. Als het systeem wordt
uitgebreid met een groot aantal vertalingen tussen verschillende talen, kan de
computer ook automatisch teksten gaan vertalen. Google heeft al een vertaaldienst
opgezet dat volgens dit principe werkt. De nieuwe hoogleraar Van den Bosch is van
plan om tijdens zijn ambt dit taalkundig model van analoog redeneren verder te
ontwikkelen.

https://www.nemokennislink.nl/publicaties/de-computer-kan-woorden-
voorspellen/
Computer leert grammatica
Auteur: Inge Janse | 14 september 2005
COMPUTER (117)

Wetenschappers hebben een algoritme ontwikkeld


waardoor computers grammatica kunnen leren.
Wetenschappers van de Cornell Universiteit te New York en de universiteit
van Tel Aviv zijn er in geslaagd om een algoritme te schrijven dat zonder
sturing van buitenaf complexe patronen in taal kan detecteren en op basis
daarvan de onderliggende grammaticaregels kan construeren.

Het algoritme, Automatic Distillation of Structure (ADIOS) gedoopt, voedt zich


met een regulier stuk tekst en gaat vervolgens op zoek naar bijvoorbeeld
zinnen die meerdere keren op dezelfde manier achter elkaar voorkomen. Door
deze herhalingen met elkaar te vergelijken kan ADIOS leren hoe de
grammaticaregels van de taal in kwestie eruitzien. Op basis van deze
grammaticaregels kan ADIOS ook betekenisvolle zinnen maken. De methodes
van vergelijking en generalisatie die ADIOS gebruikt worden ook door
kinderen toegepast tijdens de verwerving van hun moedertaal. ADIOS past
daarnaast statistische modellen toe om de aannemelijkheid van de gevonden
grammaticaregels te berekenen.

Naast het analyseren van taal is ADIOS ook succesvol toegepast op


muzieknotatie, DNA en eiwitten. In het laatste geval kon ADIOS bijvoorbeeld
op basis van de aminozuurvolgorde van een eiwit voorspellen wat de
functionele eigenschappen van het eiwit zouden zijn. ADIOS zal voor veel
verschillende soorten onderzoek gebruikt kunnen worden. Zo kan het
algoritme losgelaten worden op het specifieke taalgebruik dat ouders
hanteren wanneer zij met hun twee- en driejarige kinderen praten. De analyse
van ADIOS zou in dit geval inzicht kunnen verschaffen in het complexe
vraagstuk hoe peuters op basis van een beperkte talige invoer van buitenaf
toch de volledige moedertaal in alle complexiteit leren begrijpen en toepassen.
Een ander mogelijk gevolg van ADIOS zou zijn dat het Chomsky’s theorie van
de universele grammatica verwerpt. De universele grammatica probeert het
verschijnsel taal te verklaren door er vanuit te gaan dat mensen een
aangeboren capaciteit voor taalverwerving en taalgebruik hebben. Deze
taalcapaciteit zorgt ervoor dat kinderen niet alle grammaticaregels van een
taal zelf hoeven te leren, maar deze regels alleen hoeven te specificeren voor
de taal die zij tijdens hun jeugd verwerven. Mocht een algoritme in staat zijn
om gelijke resultaten te boeken als mensen, dan zou deze aangeboren
capaciteit niet strikt noodzakelijk zijn, met als resultaat een verwerping van de
kerngedachte van de universele grammatica.

Een andere interessante toepassing van ADIOS zou zijn om een computer de
befaamde Turing-test met succes te laten uitvoeren. Aan deze in 1950
ontwikkelde test doen twee mensen en een taalsprekende computer mee. De
eerste proefpersoon dient door vragen te stellen te bepalen wie de computer
is en wie de tweede proefpersoon is. De Britse wiskundige en logicus Turing
stelde toentertijd dat door middel van deze test er een onderscheid gemaakt
kan worden tussen computergegenereerde tekst en menselijke taal. In een
beroemde uitspraak van Turing stelde hij dat aan het einde van de 20e eeuw
een computer met tien gigabyte werkgeheugen in staat zou zijn om dertig
procent van de ondervragers na vijf minuten te laten geloven dat de computer
een mens is. Tot nu toe is dit nog niet gelukt: de enige computer die de test
heeft gewonnen was de sprekende HAL9000 in Arthur C. Clarke’s beroemde
boek ‘2001: A Space Odyssey’ .

https://www.nemokennislink.nl/publicaties/computer-leert-grammatica/
OCR: van papier naar scherm
Auteur: Erica Renckens | 16 januari 2009
TAALTECHNOLOGIE (43)
Met behulp van Optical Character Recognition (OCR) is het mogelijk
om een tekst op papier om te zetten naar een tekst op je
computerscherm. De techniek werkt echter nog verre van perfect: de
digitale tekst staat vaak vol met herkenningsfouten. Wetenschappers
hebben verschillende taaltechnologische oplossingen bedacht om
deze fouten automatisch te corrigeren.

Stel, je schrijft een brief en wilt die vandaag nog met je vrienden aan de andere
kant van het land delen. Opsturen via de post is dan geen optie. Of je hebt een
tekst op papier waarvan je de opmaak zou willen veranderen. Als je gaat
knippen en plakken zal het een zooitje worden. En overtypen duurt te lang.
Gelukkig is het mogelijk om deze teksten automatisch zo te digitaliseren dat je
ze vervolgens ook nog kunt bewerken. Deze techniek heet OCR, wat staat
voor Optical Character Recognition. In het Nederlands wordt ook wel
gesproken van Optische Tekenherkenning.

Het patent op OCR werd al in 1929 aangevraagd door de Oostenrijker Gustav


Tauschek. Hij werkte toen nog met een mechanisch apparaat dat met behulp
van licht en een soort mal de letters herkende. In de jaren vijftig hebben de
Amerikanen de techniek verder ontwikkeld. Hierdoor konden bijvoorbeeld de
posterijen automatisch de adressen op de enveloppen lezen. Vanaf de
zeventiger jaren is de techniek ook voor consumenten beschikbaar.

Tekenherkenning
OCR-software kan pas gebruikt worden, nadat eerst een goede digitale
afbeelding van de tekst is gemaakt. Deze kan je maken met een scanner. Hoe
hoger de kwaliteit van de scan, des te beter de tekst vervolgens door de
computer herkend kan worden. Een scan van 72 dpi (dots per inch, het aantal
puntjes gemeten per 2,54 cm) geeft een klein document met een lage resolutie.
De computer zal moeite hebben om in deze afbeelding te onderscheiden wat
tekst is en wat toevallige vlekjes op het papier zijn. De meeste gebruikers van
OCR maken scans van minimaal 300 dpi.
Twee scans van dezelfde tekst. De linker scan is gemaakt met 75 dpi en de rechter met
600 dpi. De computer zal de linker tekst niet kunnen herkennen, omdat de resolutie te
laag is. De resolutie van de rechter afbeelding is wel hoog genoeg, maar de computer zal
veel moeite hebben met het onregelmatige handschrift.
Als je eenmaal een goede scan hebt gemaakt, kan je deze laden in de speciale
software voor optical character recognition. Deze software zit soms al
bijgeleverd bij de scanner, of is anders makkelijk te verkrijgen via internet of
een winkel. De bekendste programma’s zijn OmniPage en Abbyy Finereader.
De software begint niet gelijk met het ontcijferen van de tekst. Eerst kijkt hij
hoe de ingescande pagina is ingedeeld. Waar staat tekst en wat zijn
afbeeldingen of vlekjes op het papier? Staat er één lap tekst op de afbeelding of
is de tekst ingedeeld in kolommen? Is de tekst recht ingescand of staat hij een
beetje scheef? Pas als hij heeft vastgesteld wat tekst is en hoe deze op de
afbeelding loopt, begint de computer met de tekenherkenning.

In de fase van de tekenherkenning deelt de computer de tekst eerst in in


steeds kleinere onderdelen: eerst in zinnen, dan in losse woorden en ten slotte
in letters. Vervolgens probeert hij de losse letters te matchen met letters die
hij al kent. Hiervoor beschikt hij over de vormen van de letters uit vele soorten
fonts (lettertypes). Door het vergelijken van zijn eigen letterdatabase met de
vorm van de letter op de afbeelding, kiest hij welke letter er het meest
waarschijnlijk in de tekst staat. Zo construeert hij letter voor letter de hele
tekst uit het plaatje na.

De OCR-sftware beschikt over de vormen van alle letters in verschillende lettertypes.


Deze digitale vormen (rechts) probeert hij tijdens de herkenningsfase te matchen aan de
vormen op de afbeelding (links).
Je kunt je misschien voorstellen dat er nog heel wat fouten in de tekst staan,
als de software nu klaar zou zijn. De letters ‘in’ lijken bijvoorbeeld heel erg op
de ‘m’; grote kans dat die vaak door elkaar gehaald zijn. En als het streepje
door de ‘t’ erg dun is, zal de computer hem regelmatig voor een ‘l’ aanzien. Als
de software het lettertype van de ingescande tekst niet kent, zal de output al
helemaal onbegrijpelijk zijn. Laat staan als je de tekst handgeschreven hebt;
jouw handschrift staat al zeker niet in zijn letterdatabase. Hier zijn twee
oplossingen voor gevonden: training en taaltechnologie.

Training
Het tekstdocument dat de OCR-software zonder enige training uitspuugt zit
dus waarschijnlijk vol fouten. Als de software het lettertype van jouw tekst
niet kent, is het een goed idee om de software eerst te trainen voor hij aan de
tekenherkenning begint. Dit kan bijvoorbeeld nodig zijn bij een heel oud
krantenartikel waarvan het lettertype niet meer gebruikt wordt. In de
trainingsfase leer je de computer handmatig welke vorm op de scan
correspondeert met welke letter. Je leert hem dus in feite een nieuw lettertype.
Als de software nu aan de slag gaat met de tekenherkenning zal de herkende
tekst al een stuk leesbaarder zijn.

Voor het herkennen van handschriften is het allemaal nog net wat lastiger. In
tegenstelling tot bij een getypte tekst, verschillen dezelfde letters in een
handgeschreven tekst altijd wat van elkaar. De ene ‘e’ is net wat anders dan de
andere ‘e’, afhankelijk van de letters die er omheen staan, de vermoeidheid
van de schrijfhand en zo nog een paar factoren. Training zal hierbij dus niet
voor veel verbetering in de tekenherkenning zorgen. De meeste commercieel
verkrijgbare OCR-software is dan ook niet zo geschikt voor
handschriftherkenning. De techniek loopt flink achter op de ‘reguliere’ OCR en
wordt voornamelijk gebruikt door bedrijven voor schrift in een vaste opmaak,
zoals de postcode op een envelop of de blokletters op een ingevuld formulier.

Formulieren die automatisch verwerkt zullen worden moet je meestal invullen met
blokletters. Op die manier is er het minste variatie tussen verschillende handschriften en
zal de computer de tekst het best herkennen. Zulke formulieren zijn meestal heel strak
vormgegeven: je ziet precies wat je in welk vakje in moet vullen en nergens is ruimte
voor extra commentaar. Dat zou weer te onvoorspelbaar zijn voor de computer.

Taaltechnologie
Training vindt plaats vóór de software begint met de tekenherkenning, maar je
kan ook nog heel wat verbeteren ná de tekenherkenning. Dit
wordt postprocessing genoemd. Zo goed als alle OCR-software is tegenwoordig
voorzien van verschillende lexicons. Dit zijn een soort woordenboeken van
verschillende talen. Na de automatische tekenherkenning stelt de software (of
de gebruiker daarvan) vast in welke taal de tekst is geschreven. Lang niet alle
herkende woorden zullen in het lexicon voorkomen: sommige zijn nieuwe
samenstellingen, andere heeft de software verkeerd herkend. Hiervoor gaat de
software vervolgens op zoek naar vervangers: woorden die sterk lijken op het
herkende woord, maar die wel in het lexicon staan.

Maar hoe bepaalt de computer nu precies welk woord het wél had moeten
zijn? Hij kan bijvoorbeeld berekenen welk woord het dichtst bij het herkende
woord ligt. Het is waarschijnlijker dat ‘ontiokken’ ‘ontlokken’ had moeten zijn
(1 verandering) dan dat het ‘intrekken’ had moeten zijn (3 veranderingen).
Toch werkt dit niet altijd: misschien was het wel een vreemde tekst over
vrouwen wiens rokken worden afgenomen: het ‘ontrokken’ van vrouwen.
Het is ook mogelijk om de computer te laten leren van zijn eigen fouten. Als je
weet dat hij de ‘i’ en de ‘l’ vaak verwisselt, is het logisch om dat eerst te
proberen om te zien of er een bestaand woord uit komt. Dit werkt echter
vooral als je al weet welke verwarringen (zogenaamde confusies) veel
voorkomen in je ge-OCR-de tekst. Hierdoor is deze techniek vooral bruikbaar
bij hele grote tekstbestanden.

Een andere methode is het opdelen van woorden in losse delen.


Samenstellingen als ‘ramptoerisme’ zullen misschien beter herkend worden
als de computer het woord op kan splitsen in ‘ramp’ en ‘toerisme’. Dat dit niet
altijd goed werkt, blijkt uit een voorbeeld waarbij ‘visumprocedure’ werd
ontleed en herkend als ‘visurnprocedure’.

Een screenshot van de veelgebruikte OCR-sorftware OmniPage. Links staat de


ingescande afbeelding met daarin de door de software herkende tekstvakken. Rechts zie
je de door de computer herkende tekst.
Cnet.com

Tenslotte kan de computer tijdens de postprocessing ook rekening houden


met de context waarin een woord voorkomt. Op basis van de context kan de
computer vaak al redelijk voorspellen welk woord er zou kunnen staan. Deze
voorspelling kan hij gebruiken bij de automatische correctie. Vooral bij korte
woordjes, die vaak lastiger automatisch te corrigeren zijn, kan deze techniek
goed werken.

Aan de Universiteit van Tilburg is TICCL (Text-Induced Corpus Clean-up)


ontwikkeld, een programma dat automatisch de output van door OCR
gemaakte tekst corrigeert. Dit programma maakt onder andere gebruik van de
bovenstaande technieken. Momenteel wordt de software uitgebreid getest om
te kijken waar nog verbeteringen mogelijk zijn. In de toekomst zal onder
andere de Koninklijke Bibliotheek TICCL gebruiken bij haar
digitaliseringsprojecten.

Toepassingen
Hoewel optische tekenherkenning dus nog altijd niet helemaal perfect werkt,
wordt er wel al flink gebruik van gemaakt. Veel bedrijven werken met
formulieren die je met blokletters in moet vullen, zodat de computer ze
vervolgens automatisch kan verwerken. Dit gaat al erg goed, omdat van te
voren al duidelijk is waar een letter begint en eindigt (één letter per vakje), en
omdat iedereen blokletters ongeveer hetzelfde maakt. Er is dus niet veel
variatie die het de computer moeilijk maakt.
Dat gebrek aan variatie in de tekst werkt ook in het voordeel van automatische
nummerbordherkenning. De politie kan dankzij deze techniek snel een
nummerbord herkennen, met behulp van een speciale scanner. Zo kunnen de
agenten zelfs nog bij 160km per uur snel uitvinden of de auto bijvoorbeeld
gestolen is. Ook kan de techniek gebruikt worden bij tolwegen, om te
berekenen hoe lang de auto over de route heeft gedaan.

De OCR-software zoals die hierboven beschreven is, wordt vooral veel


gebruikt door bibliotheken en onderzoekers. Zij willen vaak enorme
hoeveelheden tekst digitaliseren; de Koninklijke Bibliotheek heeft onlangs 8
miljoen krantenpagina’s gedigitaliseerd. Dat zijn zo’n 25 miljard woorden!
Dankzij OCR besparen zij veel tijd en geld. Hoewel ze natuurlijk streven naar
een foutloze herkenning, is het bij hen niet altijd een groot probleem als er
toch nog een klein percentage fouten in de herkende tekst zit. De
zoekmachines waarmee na digitalisering in de tekst gezocht kan worden, zal
wel de correct herkende versies van je zoekwoord vinden, die
hoogstwaarschijnlijk in hetzelfde stukje tekst staan als de fout herkende
zoekterm. Bovendien werken veel zoekmachines met fuzzy matching: hij zoekt
ook naar woorden die sterk lijken op, of afgeleid zijn van je zoekterm. Zo
belandt de gebruiker toch nog op de gewenste plek in de tekst. Hij krijgt
vervolgens de ingescande afbeelding te zien, niet de herkende tekst met al z’n
fouten.

Er zijn al een tijdje speciale OCR-pennen te koop. Er bestaan twee soorten. Met de linker,
een scanpen, kan je eigenlijk niet schrijven; deze pen scant alleen regel voor regel de
tekst. Met de andere pen (rechts op de afbeelding) kan je wel schrijven, zodat je je tekst
tegelijk op papier en op je scherm krijgt.
Ten slotte zijn er sinds enige jaren ook speciale OCR-pennen op de markt. Er
zijn leespennen, die je als een mini-scanner regel voor regel over de tekst
haalt. De scan kan vervolgens naar de computer verstuurd worden die de tekst
herkent. Maar er zijn ook schrijfpennen. Met zo’n pen kan je gewoon op papier
schrijven, maar er zit bovendien een speciale sensor in die de bewegingen die
je maakt registreert. Deze bewegingen geeft de pen door aan de computer die
ze omzet in een digitale versie van je tekst. Omdat deze herkende tekst zeker
niet foutloos zal zijn, zal je hem altijd nog handmatig moeten nakijken en
verbeteren.

https://www.nemokennislink.nl/publicaties/ocr-van-papier-naar-scherm/
Text mining: Als je niet weet wat je zoekt
Auteur: Erica Renckens | 23 januari 2009
TAALWETENSCHAPPEN (444)
Als je weet wat je zoekt, kan je met een zoekmachine simpel in documenten zoeken. Als je
niet precies weet wat je zoekt, maar alle relevante informatie uit een grote hoeveelheid
documenten wil filteren, kan je gebruik maken van text mining. De nieuwe Maastrichtse
bijzonder hoogleraar Text mining, Jan Scholtes, legt in zijn oratie uit wat text mining is en
wie het gebruikt.

In dit artikel legt Prof. dr. ir. Jan Scholtes, de nieuwe bijzonder hoogleraar Text
mining, uit wat text mining is, welke technieken erachter schuilgaan en wie er
allemaal gebruik van kunnen maken. Zonder dat we het merken komen we in
ons dagelijks leven al regelmatig met text mining in aanraking.

Text mining of data mining


Met de opkomst van de computer en het internet is de laatste decennia de
hoeveelheid beschikbare informatie drastisch toegenomen. Om in deze
immense, digitale hooiberg toch nog de speld te vinden die je zoekt, kan je
gelukkig gebruik maken van zoekmachines. Je typt een zoekterm in en de
computer brengt je gelijk naar het juiste document en de juiste passage binnen
dat document. Soms weet je echter niet precies wat je zoekt, maar wil je de
inhoudelijke kern achterhalen van een grote hoeveelheid documenten. Een
eenvoudige zoekmachine zal je dan niet veel verder kunnen helpen. Text
mining wel.

Professor Scholtes legt in zijn oratie uit dat text mining een variant is van data
mining. Bij data mining zoekt de computer naar patronen in grote
hoeveelheden gegevens. Het verschil met text mining is dat de gegevens voor
data mining gestructureerd zijn: het is van te voren bekend of het gaat om
bijvoorbeeld data, prijzen of plaatsnamen. Bij text mining weet je van te voren
niet welke informatie in de teksten staat – de gegevens zijn dus
ongestructureerd. Een computer begrijpt echter geen taal, hij kent alleen enen
en nullen. Er komt dus de nodige techniek bij kijken voor de computer je kan
vertellen welke patronen hij in de teksten ziet. Hoe gaat dat in zijn werk?

Entiteiten en attributen
Het proces van text mining is in te delen in drie fases: preprocessing, text
mining en presentatie. In de eerste fase bewerkt de computer de documenten
zo dat hij ze kan doorzoeken op patronen en relaties. Hij voert onder andere
een taalkundige analyse uit. Door deze analyse weet hij precies de
grammaticale structuur van de zinnen, weet naar wie er binnen de teksten
verwezen wordt (met bv ‘hij’ of ‘die’) en weet welke namen en synoniemen er
in de teksten voorkomen. In deze fase zet hij de documenten om in een taal
waarin hij kan werken.

In de tweede fase (text mining) probeert de computer informatie uit de


documenten te halen. Aan de hand van zijn taalkundige analyse gaat hij op
zoek naar entiteiten, attributen, feiten en gebeurtenissen. Entiteiten zijn de
basiseenheden in een tekst: personen, bedrijven, locaties of producten.
Attributen zijn de eigenschappen van deze entiteiten: leeftijden, adressen, enz.
In deze fase probeert de computer ook de teksten in te delen in passende
categorieën.

In de laatste fase vertaalt de computer zijn bevindingen terug naar gewone


mensentaal. Hij geeft ze weer in mooie plaatjes zoals boomdiagrammen of
maakt het mogelijk om te zoeken op eigenschappen in de documenten. Ook
kan de gebruiker als hij wil statistische analyses uitvoeren op de uitkomsten.
Zo hoef je niet de enorme hoeveelheid documenten zelf door te pluizen en heb
je toch een goed beeld van wat er in te vinden is.

Een plaatje zegt meer dan duizend woorden. De computer kan de verbanden
en patronen die hij vindt in grote hoeveelheden tekst op verschillende
manieren weergeven. Een voorbeeld is de boomdiagram zoals je die bovenin
ziet. Zo zie je duidelijk hoe verschillende entiteiten aan elkaar gerelateerd zijn.

Onderin zie je een andere mogelijkheid. Hier zijn de ontelbare Twitter-


boodschappen gescand op filmrecensies. De uitkomsten zijn per film in een
plaatje weergegeven. Zo zie je in één oogopslag hoe goed de films beoordeeld
worden.

Bronnen: University of California, Berkeley (boven); FlixPulse.com (onder)

Grote vlucht
Text mining wordt al best veel gebruikt. Zo kiest Google met behulp van text
mining welke advertentie het best geplaatst kan worden naast een ontvangen
mailtje. En attenderen sociale netwerksites je op personen met dezelfde
interesses als jij. De oorsprong van text mining ligt eigenlijk bij officiële
instanties als de inlichtingendiensten. Zij gebruiken de techniek om in grote
stapels gegevens te speuren naar aanwijzingen van fraude en criminaliteit. Ze
weten dan nog niet precies wat ze zoeken, maar willen wel snel weten wat er
in die documenten staat. Ook bedrijven gebruiken text mining om te peilen
hoe hun product (of die van de concurrent) door de consumenten wordt
ontvangen. Deze vorm van text mining heet opinion mining.

De nieuwe hoogleraar Text mining hoopt dat met zijn aanstelling de


technologische ontwikkeling van text mining een grote vlucht zal nemen. Er
bestaan verschillende manieren om de taalkundige analyse en de text mining
uit te voeren. Deze manieren werken lang niet allemaal even goed. Er is zeker
nog verbetering mogelijk. Professor Scholtes voorspelt dat in de toekomst nog
veel meer mogelijk zal zijn met text mining. Websites zullen steeds
interactiever worden, zodat de informatie die je te zien krijgt speciaal op jou is
toegespitst.

https://www.nemokennislink.nl/publicaties/text-mining-als-je-niet-weet-
wat-je-zoekt/
I sit with the hands in the hair
Auteur: Erica Renckens | 23 februari 2009
TAALWETENSCHAPPEN (444)
In China staat een restaurant genaamd “Translate Server Error”. De
eigenaar probeerde de naam van zijn restaurant te vertalen via Google
Translate of Babel Fish. Helaas zei de vertaling toch net iets anders dan hij
eigenlijk bedoelde. Waarom vertaalcomputers nog niet helemaal te
vertrouwen zijn..

Maxime Verhagen keek in 2007 vreemd op toen hij een mailtje kreeg van
Israelische journalisten die hem naar zijn moeder vroegen. Wat bleek: de
Israeliërs hadden het online vertaalprogramma Babel Fish gebruikt om hun
vragen om te zetten van Hebreeuws naar Nederlands. Helaas voor de
journalisten had Babel Fish het Hebreeuwse woord ’ha’im’ (indien) verward
met ’ha’ima’, Hebreeuws voor moeder. Een laatste check door iemand met wat
kennis van de vreemde taal was geen overbodige luxe geweest.

De eigenaar van dit Chinese restaurant had beter niet blindelings op zijn
vertaalsoftware kunnen vertrouwen toen hij een hippe naam voor zijn
etablissement uitzocht.

Babel Fish of Google Translate


Hoe komt het dat automatische vertaalsoftware soms zulke wonderlijke
output genereert? Daarvoor moet je eerst begrijpen welke techniek er achter
schuilgaat. Grofweg zijn er twee methodes te onderscheiden om automatisch
te vertalen: gebaseerd op regels of gebaseerd op statistiek. Bij de eerste
methode leert de computer de woordenboeken en grammatica’s van
verschillende talen. Deze kan hij gebruiken om de tekst na een taalkundige
analyse om te zetten in de doeltaal. Afhankelijk van de diepte van de
taalkundige analyse zet hij de tekst woord voor woord, of per hele zin om. De
gevormde zin is in ieder geval grammaticaal correct, maar aan de inhoud kan
het wat schorten. Babel Fish werkt volgens deze regelgebaseerde methode.

Google Translate staat bekend om zijn statistische methode. De computer


maakt hierbij gebruik van een gigantische databank met bestaande
vertalingen, bijvoorbeeld van het Europees Parlement. Deze vertalingen kan
hij gebruiken als voorbeeld. Hij gaat op zoek naar zinnen in de databank die
zoveel mogelijk lijken op de zinnen in zijn tekst. Op basis hiervan berekent hij
hoe zijn tekst waarschijnlijk in de doeltaal omgezet moet worden. Bij deze
methode is de betekenis meestal goed, maar laat de grammatica juist te
wensen over.

Bovenlinkerhoek
Beide methoden werken blijkbaar niet perfect. Dit komt doordat de computer
taal niet werkelijk begrijpt. Als in een tekst bijvoorbeeld het woord ‘vorst’
voorkomt, weet de computer niet of het om een lid van het koninklijk huis gaat
of om een weersomstandigheid. Hij zal uit de context moeten proberen op te
maken om welke betekenis het gaat. Ook vaste uitdrukkingen geven
problemen; die zijn meestal niet letterlijk te vertalen. Een Engelsman weet niet
wat je bedoelt als je zegt ‘I sit with the hands in the hair’. Ook de volgorde van
woorden is lang niet altijd één-op-één te vertalen. Zo is ‘top left corner’ in het
Nederlands geen ‘bovenlinkerhoek’, maar ‘linkerbovenhoek’.

Emotie
Hoe bruikbaar is deze techniek dan, als hij niet perfect werkt? “Automatisch
vertalen wordt toch veel gebruikt.”, legt de Tilburgse hoogleraar Antal van den
Bosch uit. “Met name in zogenaamde beperkte domeinen, zoals weerberichten
of technische handleidingen, waarin maar een beperkt aantal begrippen
gebruikt wordt.” Van den Bosch verwacht dat in de toekomst de domeinen
waarbinnen vertaald zal worden steeds breder zullen zijn. “De
regelgebaseerde methode zal zijn steentje kunnen bijdragen, maar de statische
methode is nodig om gezegden en uitdrukkingen te kunnen vertalen. Dat
maakt de vertaling echt af.” Helemaal overbodig zullen menselijke vertalers
nooit worden. “Als de tekst een emotie overbrengt, zoals een gedicht of een
roman, zal een mens het altijd beter kunnen vertalen dan een computer.”

Zie ook:
• Automatisch vertalen (Kennislink)
• “ Waar is het toilet voor misvormde
mensen?” (Kennislinkartikel)
• Google Translate
• Yahoo! Babel Fish

https://www.nemokennislink.nl/publicaties/i-sit-with-the-hands-in-the-hair/
“Waar is het toilet voor misvormde mensen?”
Auteur: Erica Renckens | 29 juli 2008
STEVIN (93)
China is de strijd aangegaan met het Chinglish, het Engels vol met fouten dat veel
Aziaten gebruiken. Het Chinglish lijkt zich echter alleen maar verder te
ontwikkelen. Leidt dit tot een nieuwe wereldtaal, het Panglish, of zullen er
verschillende varianten van het Engels uit voortkomen?

Vanaf het moment dat bekend werd dat de Olympische Spelen van 2008 in
China gehouden zouden worden, vecht de Chinese regering een verloren strijd
tegen het Chinglish, het Chinese Engels dat vaak vol fouten zit. Nog steeds vind
je overal in Peking, van menukaarten tot officiële bordjes, vaak grappige en
soms ronduit beledigende vertalingen. Kan jij in een restaurant kiezen tussen
een good to eat mountain, een burnt lion’s head en husband and wife’s lungs? En
zou jij je niet beledigd voelen als je als homo kweerboy genoemd werd of als
gehandicapte naar het deformed man lavatory moest?

Als je dan toch uitglijdt, doe het dan voorzichtig….

Lingua franca
Waar komt dit Chinglish eigenlijk vandaan? En misschien belangrijker nog,
waar gaat het naartoe? Engels wordt overal ter wereld als lingua
franca gebruikt: als je op vakantie in Turkije met een winkelier wil
onderhandelen, doe je dat niet in het Turks of het Nederlands, maar in het
Engels. Bij het hoofdkantoor van LG Electronics in Seoel (Zuid-Korea) wordt
alleen nog maar Engels gesproken. Wereldwijd vindt zelfs het grootste deel
van de Engelstalige gesprekken plaats tussen mensen die een andere taal dan
het Engels als moedertaal hebben.

Geschat wordt dat in 2020 slechts 15% van de 2 miljard Engels-sprekenden


Engels als moedertaal heeft. De oorspronkelijke moedertaal van deze Engels-
sprekenden klinkt vaak door in het Engels, zeker wanneer het Engelstalige
onderwijs van een laag niveau is. Dit is vaak het geval in landen als China,
Japan en Indonesië, waar een groot tekort is aan docenten met Engels als
moedertaal. Chinese woorden kunnen vaak meerdere, compleet verschillende
betekenissen hebben, waardoor voor vertalingen soms de verkeerde betekenis
gekozen kan worden. Ook grammaticale fouten worden zonder goede scholing
niet verbeterd. Zo ontstaat niet alleen het Chinglish, maar ook
het Japlish (Japans en Engels), het Konglish (Koreaan en Engels),
het Singlish (Maleis en Engels in Singapore) en het Hinglish (Hindi en Engels).

De r en de l blijft voor veel Aziaten moeilijk uit elkaar te


houden. Bron:www.engrish.com

Panglish
De vraag is nu hoe deze varianten van het Engels zich verder zullen
ontwikkelen. Verbannen is zinloos, zoals blijkt uit de vruchteloze pogingen van
de Chinese regering. De sprekers ervan zijn er juist trots op, reclamemakers
pikken het op en het Hong Kong Museum of Art had vorig jaar zelfs een
Chinglish-expositie. De ontwikkeling van het Chinglish zal dus doorzetten,
maar taalkundigen zijn er nog niet over uit op welke manier.

Sommige onderzoekers, waaronder dr. Edwin Duncan van de Towson


University in Maryland (V.S.), beweren dat over 100 jaar het Engels zich, onder
invloed van Aziatische talen, heeft ontwikkeld tot een compleet nieuwe taal,
het Panglish. Het Panglish zal dan een taal zijn die wereldwijd wordt
gesproken en op scholen onderwezen. Het formele Engels zoals wij dat nu
kennen zal nog steeds bestaan, alleen niet langer als lingua franca. Over de
hele wereld zullen zich weer verschillende dialecten van het Panglish
ontwikkelen.

Andere onderzoekers zijn nog niet zo zeker van deze taalkundige voorspelling.
Zij denken dat de ontwikkeling van het Engels meer zal lijken op die van het
Latijn. Toen de Romeinen steeds meer van Europa veroverden, viel het Latijn
geleidelijk uit elkaar in verschillende talen. Uit het Latijn zijn zo onder andere
het Frans, Italiaans, Spaans en het Roemeens ontstaan. Zo kunnen uit het
Engels ook verschillende talen ontstaan die onderling niet meer te verstaan
zijn.

Wat het zal worden, Panglish of een rijtje van het Engels afgeleide talen, valt
alleen maar af te wachten. Dr. Suzette Haden Elgin van de San Diego University
in Californië (V.S.) verwacht dat we het binnen 100 jaar zullen weten.

https://www.nemokennislink.nl/publicaties/waar-is-het-toilet-voor-
misvormde-mensen/
Nooit meer rat op je bord
Vertaal de menukaart met je mobieltje
Auteur: Erica Renckens | 22 februari 2010
AUTOMATISCH VERTALEN (10)
Thema: Zomervakantie
Ben je ook wel eens onaangenaam verrast in een restaurant in het buitenland? Toeristen
ver over de grens krijgen nog wel eens iets anders voorgeschoteld dan wat ze besteld
dachten te hebben. Mobiele applicaties kunnen zulke vervelende situaties helpen
voorkomen.

Net als Apple heeft ook Google een online warenhuis voor toepassingen op de
mobiele telefoon. Eén van deze toepassingen is Google Goggles. Als je deze op
je mobieltje hebt, kun je een foto maken die je vervolgens gebruikt als
zoekopdracht in Google. Zo weet je binnen enkele seconden wie de schilder
van een schilderij is of wanneer de brug is gebouwd waar je voor staat.

Tekstherkenning
Vorige week presenteerden de ontwikkelaars van Google Goggles in Barcelona
een uitgebreidere versie van deze toepassing. De vernieuwde versie herkent
gefotografeerde teksten, ziet welke taal het is en vertaalt deze vervolgens naar
een andere taal. Zo kun je bijvoorbeeld op vakantie de menukaart fotograferen
en vertalen naar je eigen moedertaal. En kun je op tijd beslissen of rat wel écht
is waar je die avond zin in hebt.

Als je in Taiwan de menukaart niet zo goed begrijpt, kan je zomaar ineens rat geserveerd
krijgen. Google ontwierp een toepassing voor op je mobieltje die OCR combineert met
automatisch vertalen. Zo kun je een foto maken van de menukaart en vertalen wat de
keuzes zijn. Dat bespaart je onaangename verrassingen.
Nicolai Bangsgaard, CC by 2.0 via Flickr
Vertaling berekenen
Deze nieuwe toepassing is gebaseerd op drie verschillende, al langer
bestaande technieken: OCR, taalherkenning en automatisch vertalen. OCR
staat voor Optical Character Recognition, het automatisch herkennen van de
letters en woorden op een digitale afbeelding. Daarna kan de software
vaststellen in welke taal de tekst op de afbeelding is geschreven. Vervolgens
kan het programmaatje deze tekst vertalen naar een andere taal.

Automatisch vertalen kan op verschillende manieren: gebaseerd op regels of


gebaseerd op statistiek. De regelgebaseerde methode zet na een taalkundige
analyse de tekst met behulp van een woordenboek en grammaticaregels om in
de doeltaal. Google maakt echter gebruik van de statistische methode. Hun
software vergelijkt de woorden en zinnen uit de te vertalen tekst met een
enorme databank aan eerder vertaalde teksten. Deze gebruikt hij als
voorbeeld; aan de hand hiervan berekent hij de meest waarschijnlijke
vertaling.

Praktijk
Google kan ondertussen al vertalen tussen meer dan vijftig talen en ontwikkelt
steeds meer toepassingen voor zijn vertaalprogramma. Momenteel werken de
ontwikkelaars bijvoorbeeld aan een koppeling van de vertaalsoftware aan een
spraakherkenner. Hiermee zou het in de toekomst mogelijk moeten zijn
om gesprekken ‘live’ te vertalen.

Hoe goed de verschillende toepassingen in de praktijk werken moet nog


blijken. De kwaliteit van OCR hangt sterk af van het lettertype en de kwaliteit
van de foto. Een foto van een verfrommeld menu in een sierlijk lettertype zal
waarschijnlijk slecht herkend worden. En dat maakt vertalen vervolgens erg
moeilijk. Ook de spraakherkenningssoftware van Google laat nogal te wensen
over. Probeer het zelf maar eens uit door bovenstaand filmpje op de Google-
website zelf te bekijken. Dubbelklik hiervoor op de video en zet daarna via ‘cc’
en ‘transcribe audio’ de automatisch gegenereerde ondertiteling aan.

https://www.nemokennislink.nl/publicaties/nooit-meer-rat-op-je-
bord/?search_page=true
De voorspelbaarheid van taal
Auteur: Erica Renckens | 12 april 2010
ENTROPIE (5)

Soms kan het erg moeilijk zijn je gesprekspartner netjes


uit te laten spreken, vooral als je al op je klompen aan
voelt komen wat hij zal gaan zeggen. Taal is nu eenmaal
soms best voorspelbaar. Ontwikkelaars van luisterende
en sprekende computers kunnen hier handig gebruik
van maken.
Taal is niet bepaald willekeurig. Als je bijvoorbeeld al de letters carnava.. voor
je ziet, weet je dat je op de puntjes waarschijnlijk een l kunt verwachten. En na
het lezen van br… verwacht je hoogstwaarschijnlijk geen k. Niet alleen op
letter-niveau, maar ook op woordniveau is de afloop soms goed te voorspellen.
Na ‘met terugwerkende …’ verwacht je ‘kracht’ en na ‘het is veel te …’ volgt
waarschijnlijk een bijvoeglijk naamwoord (bv ‘heet’ of ‘kort’) en geen
zelfstandig naamwoord (bv ‘fiets’ of ‘brood’).

Ook al is een woord (of zin) niet compleet, vaak heb je wel een vermoeden wat er staat
of wat er gezegd zal worden.
Reid, Geleijnse & Van Tol

Wij mensen maken zonder dat we het doorhebben handig gebruik van deze
voorspelbaarheid. Doordat we verwachtingen hebben over wat onze
gesprekspartner zal zeggen, kunnen we hem ook beter verstaan. Als hij
vervolgens iets zegt wat we op basis van de context totaal niet hadden zien
aankomen, is de kans groter dat we hem niet verstaan. Sprekende en
luisterende computers die ook over zulke verwachtingen beschikken, werken
– net als mensen – beter dan wanneer elke volgende letter of woord volstrekt
willekeurig is.

God shave the queen


worth1000.com
Toen spraak- en taaltechnologen dit halverwege de jaren 80 beseften
veranderden zij hun koers. Tot dan toe hadden ze altijd geprobeerd om taal te
vatten in regels en woordenlijsten, maar de resultaten hiervan waren niet wat
ze ervan gehoopt hadden. In plaats van een theoretisch taalmodel gingen ze
werken aan statistische taalmodellen. Deze taalmodellen hebben eigenlijk geen
‘verstand’ van taal, maar kunnen op basis van ervaring berekenen wat de
kansen zijn voor verschillende woord- of zinsverlopen.

Onder leiding van Frederic Jelinek ontwikkelden techneuten van het Thomas J.
Watson Research Center van IBM de eerste statistische taalmodellen voor het
Engels. Deze modellen konden bijvoorbeeld aantonen dat ‘God save the queen’
in het Engels een stuk waarschijnlijker is dan ‘God shave the queen’ of ‘God save
the queer’. Een spraakherkenner hoefde vanaf toen niet meer alleen uit te gaan
van de klank die hij waarnam, hij kon ook gebruik maken van de kansen op
verschillende zinsverlopen.

N-gram
Hoe maken taal- en spraaktechnologen zo’n statistisch taalmodel? Ten eerste
hebben ze een hele hoop trainingsmateriaal nodig, zodat de kansberekeningen
op voldoende data gestoeld zijn. Deze data moeten de technologen zorgvuldig
selecteren; het moet wel geschikt zijn voor de uiteindelijke toepassing. Zo
moet een taalmodel dat gebruikt zal worden in een spraakherkenner getraind
worden met gesproken taal, soms zelfs met alle onvloeiendheden die spontane
spraak ook heeft. En een taalmodel voor vertaalsoftware zal juist moeten
trainen met geschreven taal, misschien zelfs specifiek over één onderwerp
waar de vertaalsoftware ook voor zal zijn.

h3. Word Salad Wetenschappers van de Universiteit van Tilburg ontwikkelden het
statistische taalmodel WOPR. Op basis van dit model kan een computer o.a. zelf zinnen
genereren in het Nederlands, Engels of Zweeds. Hij kiest het volgende woord steeds op
basis van de voorafgaande woorden. Dit kan natuurlijk ook een punt zijn; dan begint hij
gewoon aan een nieuwe zin. Na tien zinnen stopt de demo en kan je met F5 een nieuwe
reeks zinnen laten genereren. De Nederlandse versie is getraind op 1 miljoen regels
krantentekst. Er is inhoudelijk geen kaas van te maken, maar de demo’s kunnen prima
een eind in de ruimte kletsen.
Als het trainingsmateriaal is geselecteerd zullen de woorden zo geteld moeten
worden dat woordvoorspelling op basis van de voorafgaande woorden
mogelijk is. Hier gebruiken de taalkundigen het n-gram-model voor. De n staat
hierin voor het aantal woorden dat in de analyse telkens als eenheid genomen
zal worden. Bij een 2-gram (of bigram) zijn dit steeds twee woorden, dus ‘Ik
loop’, ‘loop naar’ en ‘naar school’. Bij een 3-gram (of trigram) zijn dit er juist
drie, dus ‘ik loop naar’ en ‘loop naar school’. In een n-grammodel wordt de kans
op het volgende woord steeds berekend op basis van de n-1 voorafgaande
woorden.

Hoe groter n dus is, hoe beter je kunt voorspellen wat het volgende woord zal
zijn. Op basis van één woord (in een bigram) is de keus vaak groot, behalve bij
woorden als ‘Verenigde’. Op basis van 8 woorden (in een 9-gram) is het vaak al
een stuk makkelijker, tenzij het 8e woord net een punt is en er dus een nieuwe
zin begint. Toch werkt het niet helemaal zo. In het trainingsmateriaal moeten
de verschillende woordvolgordes namelijk wel vaak genoeg voorkomen om
een statistisch verantwoord taalmodel te kunnen maken. Hoe groter je dus
de n kiest, hoe minder vaak dezelfde eenheid aan woorden voorkomt in je
trainingsdata en hoe moeilijker het is om nauwkeurig kansen te berekenen.
Taal- en spraaktechnologen kiezen daarom meestal voor de middenweg: het
trigram-model. Dit model voorspelt het volgende woord op basis van de 2
voorafgaande woorden.

Entropie
Een goed taalmodel weerspiegelt dus de voorspelbaarheid van een taal. En
deze voorspelbaarheid is meetbaar. Informatietheoretici als Claude
Shannon hebben hiervoor entropie ontwikkeld: een maat voor onzekerheid.
Hoe hoger de entropie van een taal, hoe groter de onzekerheid (en hoe kleiner
de voorspelbaarheid). Deze entropie wordt, zoals het informatici betaamt,
weergegeven in bits. Eén bit betekent twee mogelijkheden: 1 of 0. Een taal met
maar twee letters (A en B) die in elke willekeurige volgorde kunnen
voorkomen, heeft dus een entropie van 1: de volgende letter zal óf A zijn óf B.
Er is dus één bit nodig om de onbekende letter te coderen.

h3. Toepassing Taal- en spraaktechnologen gebruiken de maten voor entropie en


perplexiteit onder andere om de kwaliteit van een taalmodel te bepalen. Zo kunnen
verschillende taalmodellen ontwikkeld voor dezelfde toepassing makkelijk met elkaar
vergeleken worden.
Als we de leestekens voor het gemak even buiten beschouwing laten, is in het
Nederlands de volgende letter altijd één van de 26 letters uit ons alfabet of een
spatie; dat zijn dus 27 mogelijkheden. Hier zijn 5 bits voor nodig: 25 = 32, of
iets nauwkeuriger 4,75 bits, want 2log 27 = 4,75. Dit betekent dus dat je een rij
van 100 willekeurige letters en spaties kunt weergeven met 475 bits. Maar
zoals we aan het begin al hebben vastgesteld is taal niet willekeurig, maar
voorspelbaar, en moet de entropie van het Nederlands dus lager liggen dan
4,75.
Hoeveel lager precies is onbekend, maar voor het Engels weten we de entropie
wel ongeveer: 1,25 bits. Dat betekent dus dat je in het Engels gemiddeld 21,25 =
2,4 keuzemogelijkheden hebt voor de volgende letter. Soms zal het meer zijn,
bijvoorbeeld aan het begin van een zin, en soms juist minder, zoals aan het
eind van een lang woord. Dit getal wordt in de
informatietheorie perplexiteit genoemd. Hoe lager de perplexiteit van een
taalmodel is, des te minder keuzemogelijkheden en des te beter het taalmodel
is.

Zelf berekenen
De entropie en perplexiteit van een taalmodel kunnen op twee manieren
worden berekend: voor woorden (gebaseerd op n-grams) of voor letters. Dit
laatste kun je bijvoorbeeld doen via onderstaand spelletje. Typ telkens de
volgende letter (of spatie) die je verwacht. Onderaan staan de letters waar je
nog uit kunt kiezen en onder de streepjes zie je hoe vaak je gegokt hebt. Met de
knop linksonder kun je de entropie berekenen. Hoe langer je het spel speelt,
hoe nauwkeuriger deze berekend kan worden.

Dit spel is ontworpen op basis van de Engelse variant, ontwikkeld door David
Little en Adriano Garsia. Met dank aan Patrick Wambacq en Antal van den
Bosch.

https://www.nemokennislink.nl/publicaties/de-voorspelbaarheid-van-taal/
Automatische opiniepeilingen via Twitter
Auteur: Erica Renckens | 13 mei 2010
TEXT MINING (7)
Het afnemen van opiniepeilingen kost veel tijd – en dus geld.
Amerikaanse onderzoekers tonen aan dat automatische analyse van
tweets de resultaten van de peilingen al aardig benaderen. Zijn
automatische peilingen via Twitter de toekomst?

Taaltechnologie zou Maurice de Hond in de toekomst een hoop werk uit


handen kunnen nemen. Momenteel vraagt hij elke week in een grote
opiniepeiling aan een paar honderd Nederlanders op welke partij zij bij de
komende Tweede Kamerverkiezingen zullen stemmen. Een opinie die ook
terug te vinden is in de berichten op Twitter. Volgens onderzoekers van de
Carnegie Mellon University in Amerika geeft een automatische analyse van
deze tweets ongeveer dezelfde resultaten als de dure, tijdsintensieve
opiniepeilingen. Deze vorm van opinion mining zou de peilingen kunnen
aanvullen – en op den duur misschien zelfs vervangen.

Elke dag worden er meer dan zeven miljoen berichten gepost op Twitter.
Deze tweets van maximaal 140 tekens (gemiddeld 11 woorden) bevatten vaak
een mening over een recente gebeurtenis. Gemopper over prijsstijgingen of
bewondering voor de snedige taal van een politicus. Met opinion
mining kunnen deze online sentimenten in kaart gebracht worden. Speciale
software analyseert de tweets en kan zo nauwkeurig in beeld brengen hoe
positief ‘het volk’ over een bepaald onderwerp denkt.

Sentimenten
Brendan O’Connor, onderzoeker aan CMU, heeft op deze manier een miljard
tweets geanalyseerd die werden gepost in 2008 en 2009. Eerst selecteerde hij
uit deze berichten de tweets over drie onderwerpen: het
consumentenvertrouwen, de steun voor Obama en de verkiezingen van 2008.
De computer behield alleen de tweets waarin de woorden ‘economy’, ‘job’,
‘jobs’, ‘Obama’ en ‘McCain’ voorkwamen. Dagelijks ging 0,1 tot 0,5% van alle
tweets over één van deze drie onderwerpen. Dit lijkt misschien weinig, maar
elke dag kwamen er wel honderden tot duizenden berichten over elk
onderwerp bij.

Vervolgens kon het echte opinion minen echt beginnen. Aan de hand van een
speciale woordenlijst met 1600 positieve en 1200 negatieve woorden stelde
de computer van elke tweet vast hoe positief er over het onderwerp gesproken
werd. Zo konden de onderzoekers van dag tot dag vaststellen hoeveel
vertrouwen men in de economie had, hoeveel steun Obama kreeg en hoe
positief men over de verkiezingen dacht. Deze sentimenten heeft O’Connor
vervolgens vergeleken met opiniepeilingen over dezelfde onderwerpen.
Gemiddeld kwamen deze rond de 75% met elkaar overeen.

De correlatie tussen de analyse van één miljard tweets (groen) en een telefonische
opiniepeiling (blauw) over het vertrouwen in de economie is 73%.
CMU

Sms-taal
75 procent is misschien nog niet zo heel hoog, maar de onderzoekers zien veel
mogelijkheden om deze correlatie in de toekomst flink te verhogen. Ten eerste
komen er natuurlijk nog iedere dag meer twitteraars bij. Meer twitteraars
betekent meer tweets, en meer tweets betekent een betere benadering van de
online sentimenten. Daarnaast kan met de toename aan twitteraars ook beter
rekening gehouden worden met de achtergrond van de twitteraars.
Opiniepeilers kunnen dan bijvoorbeeld alleen de tweets analyseren van
mensen uit een geselecteerde steekproef, die een representatieve afspiegeling
van de gemeenschap vormen.

Daarnaast kan ook aan de taalkundige analyse van de tweets nog het een en
ander verbeteren. Zo is de woordenlijst met positieve en negatieve woorden
momenteel gebaseerd op formeel taalgebruik. In tweets gebruiken mensen
echter eerder sms-taal, inclusief alle afkortingen en smileys die daarbij horen.
Een woordenlijst op basis van dit informele taalgebruik zal tot een betere
analyse van de tweets leiden. Maurice de Hond kan zijn opiniepeilingen de
komende weken dus nog maar beter zelf doen, maar in de toekomst kan hij
heel wat geld en tijd besparen door de berichten op Twitter automatisch te
analyseren.

Bron
Brendan O’Connor e.a. in From Tweets to Polls: Linking Text Sentiment to Public Opinion
Times Series, Proceedings of the International AAI Conferende on Weblogs and Social
Media.

https://www.nemokennislink.nl/publicaties/automatische-opiniepeilingen-
via-twitter/
Software onderscheidt terminologie in teksten
Auteur: Erica Renckens | 15 juni 2010
STEVIN (93)
In veel bedrijven gaan zoveel vaktermen om dat werknemers op den duur
zelf door de bomen het bos niet meer zien. Het Amsterdamse bedrijf
Gridline gaat daarom in opdracht van de Nederlandse Taalunie software
ontwikkelen die automatisch het jargon uit een tekst haalt. Vervolgens kan
het bedrijf zelf beslissen of het aangepast moet worden.

Het is de grote valkuil voor veel bedrijven: zoveel terminologie gebruiken dat
het voor een buitenstaander onmogelijk is om te begrijpen waar een brief of
site over gaat. Soms schiet het gebruik van terminologie zelfs zo ver door dat
zelfs het eigen personeel ervan in de war raakt. Het Amsterdamse bedrijf
GridLine gaat daarom software ontwikkelen dat automatisch de vaktermen
kan onderscheiden van gewone woorden. De software zal over ongeveer een
jaar op de markt komen en gaat TermTreffer heten.

Woordenboekmakers en vertalers
Met TermTreffer kunnen bedrijven hun gebruik van terminologie automatisch
in kaart brengen. Vervolgens kunnen ze makkelijk bekijken welke moeilijke
woorden overbodig zijn en welke nu eenmaal noodzakelijk zijn. Aan deze
laatste kunnen vervolgens definities worden gekoppeld zodat iedereen
begrijpt wat ze betekenen. Dat is niet alleen handig voor het eigen personeel,
ook woordenboekmakers en vertalers kunnen veel tijd besparen met zo’n
automatisch aangemaakte jargonlijst.

Zonder dergelijke software voor terminologie-extractie moeten bedrijven nog


handmatig te werk gaan, willen ze hun terminologie in kaart brengen. Een klus
die veel tijd en geld kost, want er verschijnen erg veel vakteksten en
bovendien verandert de terminologie regelmatig. De Nederlandse Taalunie zag
in dat de selectie van van vaktermen wel geautomatiseerd móest worden en
heeft daarom GridLine gevraagd de software te ontwikkelen. Alleen het
corrigeren en bewerken van de geselecteerde vaktermen blijft dan nog voor
mensen liggen.

Techniek
De terminologie-extractie van TermTreffer werkt via statistische methodes,
regelgebaseerde taaltechnologie en machine learning. De software analyseert
grote hoeveelheden tekst en voorziet deze van grammaticale aanduidingen,
zoals bijvoorbeeld geslacht en vervoegingen. Vervolgens bekijkt
de TermTreffer welke woorden met elkaar in verband staan, bijvoorbeeld qua
vorm (afleidingen) of qua betekenis (synoniemen). Daarna worden op deze
geanalyseerde teksten statistische en machine learning-methodes toegepast.
Het resultaat is een lijst met woorden en uitdrukkingen die de terminologie
vormen voor het onderwerp waar de verzameling teksten over ging. Tenslotte
kan een redacteur deze lijst eventueel verder aanpassen via de bijgeleverde
editors. Het is de eerste keer dat deze technieken specifiek voor het
Nederlands ontwikkeld worden.

https://www.nemokennislink.nl/publicaties/software-onderscheidt-
terminologie-in-teksten/
“Dat zei mijn vrouw gisteravond ook!”
Humor uit je computer
Auteur: Erica Renckens | 3 mei 2011
HUMOR (10)

Het is misschien wel de bekendste grap op de


werkvloer: iemand zegt iets onbedoeld dubbelzinnigs
waarop een collega reageert met “Dat zei mijn vrouw
gisteravond ook!” Amerikaanse taalkundigen hebben
software ontwikkeld die precies aanvoelt wanneer de
klassieker gepast is.
Mijn leraar uit groep acht werd stapelgek van ons. Hij kon werkelijk niets
zeggen of we vatten het dubbelzinnig op. “Pak allemaal je dikke potlood.”
Giechel, giechel. “Veeg je ’m wel weer netjes schoon?” Proest. Zelf ben ik hier
uiteráárd al jaren overheen gegroeid, maar op menig kantoor wordt dit type
humor nog regelmatig uit de kast gehaald. In het Engels heet het de ’That’s
what she said’ -grap: een collega zegt iets onbedoeld dubbelzinnigs waarop een
ander reageert met “Dat zei mijn vrouw gisteravond ook!” Hilariteit alom.

Amerikaanse onderzoekers hebben nu software ontwikkeld die herkent


wanneer deze fameuze zin toepasselijk is. Ze presenteren hun resultaten in
juni tijdens een jaarlijkse conferentie voor computertaalkundigen.

Voor een mens is het over het algemeen niet zo moeilijk om een
dubbelzinnigheid te herkennen. Voor een computer is dat een heel ander
verhaal. Hij vindt het vaak al moeilijk genoeg om te begrijpen wat je letterlijk
bedoelt, laat staan om te begrijpen dat er ook nog iets anders bedoeld zou
kunnen worden. Onderzoekers Chloé Kiddon en Yoriy Brun gingen daarom op
zoek naar overeenkomsten in de zinnen waarop de ’That’s what she said’-grap
van toepassing is.
Moppengenerator

Kiddon en Brun zijn niet de eersten die de computer een grapje proberen te ontlokken.
De bekendste onderzoekers op dit gebied zijn Kim Binsted en Graeme Ritchie. Zij
ontwikkelden in de jaren 90 JAPE en STANDUP, twee automatische moppengenerators.
Deze maken raadsels in de trant van: “What do you call a spicy missile? A hot shot!”
Als eerste viel hen op dat bepaalde woorden beduidend vaker aanleiding
geven tot de klassieker dan andere woorden, Zelfstandige naamwoorden als
‘banana’ en ‘meat’, bijvoeglijke naamwoorden als ‘hot’ en ‘wet’ en
werkwoorden als ‘to hit’ en ‘to eat’.

Bovendien vormden ook bepaalde zinsconstructies opvallend vaak het


benodigde voorzetje: korte zinnetjes van het type ‘X stuck Y in’ of ‘X could eat Y
all day’. Kiddon en Brun analyseerden twee grote databases, eentje met 1,5
miljoen erotische zinnen en de ander met 57 duizend reguliere zinnen. Door
deze met elkaar te vergelijken konden ze alle woorden die een dubbele,
seksuele betekenis hadden in kaart brengen. Vervolgens trainden ze hun
software met neutrale citaten van wikiquote.org en dubbelzinnige citaten
van een site die de beroemde grap verzamelt.

Na deze training voelde het systeem in 70 procent van de situaties goed aan
wanneer de grap gepast was. De onderzoekers denken dat meer trainingsdata
zelfs zou kunnen leiden tot een score van 99,5 procent. Kiddon en Brun hopen
in de toekomst de computer ook aan te zetten tot andere vormen van humor.
Eén voordeel voor alle docenten en hardwerkende kantoormedewerkers: de
software zal voorlopig niet op de markt komen.

Zie ook:
• Website met ’That’s what she said’-grapjes
• Zegt de ene Inuk tegen de ander: ‘Ik haat je….grapje!’
• Humor in advertenties werkt, ook onbewust
• De strenge regels van de etnische grap

Dit artikel is een publicatie van NEMO Kennislink.


© NEMO Kennislink, sommige rechten voorbehouden
Dit artikel publiceerde NEMO Kennislink op 03 mei 2011

https://www.nemokennislink.nl/publicaties/dat-zei-mijn-vrouw-gisteravond-
ook/
Computer speurt naar fictie
Taal- en literatuuronderzoek in het digitale tijdperk
Auteur: Mathilde Jansen | 12 augustus 2011
CORPUS (8)
De taal in hedendaagse romans staat dicht bij de spreektaal. Toch vind je in fictie een
ander woordgebruik dan in non-fictie. Uitvoerige analyses van digitale corpora onthullen
dat veel fictieschrijvers dezelfde soort woorden gebruiken. Toch zijn we ons hier als lezer
maar zelden bewust van. Maar ook originaliteit kan ontdekt worden door de computer.
Dit is de verdienste van de Digital Humanities: een tak van wetenschap die momenteel
sterk in opmars is.

Binnen de Digital Humanities worden enorme hoeveelheden tekst in de computer gestopt –


gedigitaliseerd – om allerlei soorten onderzoek mee te kunnen doen. Het betreft uitsluitend
onderzoek in geesteswetenschappelijke disciplines zoals taal- en letterkunde, geschiedenis,
filosofie, muziekwetenschap, cultuurwetenschappen, kunstgeschiedenis en theologie.

De Amerikaanse literatuurwetenschapper Bridgman beschreef de taal in romans


vanaf de 20e eeuw als de vox populi, de stem van het volk.

Dat de taal in romans vóór die tijd veel plechtiger was, is een ding dat zeker is. Maar
komt de taal in fictie (zoals romans) echt zo sterk overeen met ons alledaagse
taalgebruik? Of zijn er ook verschillen? En hoe kun je fictie onderscheiden van non-
fictie, zoals kranten en academische teksten? Met dit soort vragen kunnen we ons
wenden tot een nieuwe tak van wetenschap: de Digital Humanities.

Om ze te beantwoorden kun je allerlei soorten online tekstcorpora raadplegen. Een


voorbeeld is het corpus van Hedendaags Amerikaans Engels (Corpus of
Contemporary American English, afgekort COCA), dat 425 miljoen woorden bevat uit
teksten die de afgelopen 20 jaar gepubliceerd zijn. Het gaat om teksten uit romans,
tijdschriften, kranten, academische teksten en transcripties van gesproken Engels.
Door teksten uit verschillende genres met elkaar te vergelijken, kun je onder andere
ontdekken hoe ‘genrespecifiek’ het taalgebruik is. Zo kun je even in de huid kruipen
van een onderzoeker.

Foefjes van schrijvers


Het COCA kun je aan allerlei taalkundige vragen onderwerpen. Je kunt bijvoorbeeld
zoeken op werkwoorden in de verleden tijd. Dat kan omdat elk woord in het corpus
gelabeld is. Zo heeft de veelvoorkomende werkwoordsvorm zei als kenmerken
meegekregen: ‘werkwoord’ en ‘verleden tijd’. Het is niet verwonderlijk dat je dit
woord in allerlei soorten tekst veelvuldig tegenkomt.

COCA kan ook tekstbestanden met elkaar vergelijken. Je kunt vragen welke verleden
tijdsvormen veel voorkomen in fictie in vergelijking met academisch proza. Je krijgt
dan werkwoorden op je beeldscherm als ‘grimaced’ (grijnsde), ‘scowled’ (fronste)
en ‘grunted’ (knorde). Het zijn opvallend veel woorden die verwijzen naar
gelaatsuitdrukkingen en geluiden. Het gebruik van dit soort werkwoorden is een
eenvoudig foefje van romanschrijvers: op deze manier kunnen ze romanpersonages
emotioneel laten reageren en tot leven brengen.

Behalve op individuele woorden, kun je ook zoeken naar veelvoorkomende


combinaties van woorden. Zo maakte lexicoloog Orin Hargraves in een column in
2008 melding van het werkwoord to brush (borstelen) in het Oxford English Corpus.
Wat hem opviel aan dat werkwoord was dat het normaal gesproken alleen voorkomt
in combinatie met de woorden ‘hair’ (haar) en ‘teeth’ (tanden). In fictie komt het ook
opvallend vaak voor in combinatie met een van de volgende
woorden: ‘strand’ (haarstreng), ‘lock’ (haarlok) en ‘lip’ (lip). In het Engels kun je de
zin ‘hij kuste haar’ ook vertalen met ‘he brushed her lips with his’. De reden dat je deze
combinaties alleen tegenkomt in fictie, verklaart Hargraves als volgt:
romanpersonages moeten altijd iets aan het doen zijn, anders komt het verhaal niet
tot leven. Als de schrijver niets beters weet de bedenken, laat hij de personages met
hun haar spelen…

Originaliteit
Het voorafgaande laat zien dat romanschrijvers regelmatig in clichés vervallen. Kijk
maar eens naar deze zinnen: ‘Hij haalde nog eens diep adem’ en ‘Hij trok zijn
wenkbrauwen op’. In non-fictie zul je ze niet snel aantreffen. Toch zullen dergelijke
clichés de lezer maar zelden echt opvallen. Met de moderne computertechnieken
kunnen ze aan de oppervlakte komen. Zo komt de voorbeeldzin met de opgetrokken
wenkbrauwen in de debuutroman ‘Het Juvenalis Dilemma’ van Dan Brown maar
liefst 14 keer voor.

Hetzelfde geldt overigens voor het tegenovergestelde: het doorzoeken van digitale
corpora kan ook de originaliteit van een schrijver aantonen. Iets dergelijks deed
Masahiro Hori, hoogleraar Engelse taalkunde aan de Kumamoto Gakuen Universiteit
in Japan. Hij gebruikte het Dickens Corpus om aan te tonen hoe Charles Dickens een
eigen draai gaf aan bestaande woordcombinaties. Zo kun je ‘een dodelijke blik
werpen op’ in het Engels vertalen met ’to look daggers (dolken) at someone’. Dickens
maakte ervan: ’An old lady looked carving-knives (vleesmessen) at the hardheaded
delinquent (misdadiger)’. (In: The Pickwick Papers)

Intertekstualiteit
De techniek maakt het de nieuwste generatie onderzoekers ook een stuk makkelijker
wanneer zij op zoek zijn naar intertekstualiteit. Iets dergelijks doet David Bamman,
projectleider van een corpus met Klassieke Latijnse en Griekse teksten. Daarin vind
je bijvoorbeeld de Ilias en de Odyssee van Homerus en de Aeneis van Vergilius. Elk
woord in het corpus is voorzien van taalkundige informatie op woord- en zinsniveau.

Bamman toont aan dat bepaalde constructies uniek zijn voor de klassieke teksten.
Vervolgens laat hij zien dat latere schrijvers zich hierdoor lieten beïnvloeden, zoals
de 17e-eeuwse John Milton. De volgende zin uit Paradise Lost laat een vrij
ongebruikelijke volgorde zien: ‘Of man’s disobedience, and the fruit of that forbidden
tree… sing, heavenly muse’. Iets vergelijkbaars komen we tegen bij Vergilius: ‘arma
virumque cano’ (over wapenfeiten en een man zing ik, in plaats van: ik zing over
wapenfeiten en een man). Een zin die overigens op zijn beurt weer te herleiden is tot
één van Homerus.

Al met al laten de voorbeelden zien dat de computationele analyses ons veel nieuwe
inzichten opleveren. De computer neemt wetenschappers zo een hoop werk uit
handen. Letterkundigen hebben hiermee een machtig middel om fictie en non-fictie
te scheiden. En om clichématige versus originele romanteksten op te sporen. Zouden
met deze nieuwe technieken in het vervolg alle clichéschrijvers door de mand gaan
vallen?

Bronnen:
• Ben Zimmer (2011): The Mechanic Muse – The Jargon of the Novel, Computed. The New York
Times.
• David Bamman & Gregory Crane (2011): The Ancient Greek and Latin Dependency
Treebanks.
• Masahiro Hori (2004): Investigating Dickens’ Style. A Collocational
Analysis. PalgraveMacmillan.

https://www.nemokennislink.nl/publicaties/computer-speurt-naar-fictie/
Taaltechnologie helpt wetenschap
met beter zoeken en meer vinden
SOCIALE MEDIA (70)
Antal van den Bosch, hoogleraar Example-based language modelling aan de
Radboud Universiteit Nijmegen, ontwikkelt taaltechnologie zoals
vertaalprogramma’s, spellingscorrectoren en zoekmachines. Systemen die zo slim
zijn, dat ze nieuwe inzichten opleveren voor de taalwetenschap en andere
wetenschapsgebieden. Vrijdag 9 november spreekt Van den Bosch zijn oratie uit,
getiteld Taal in uitvoering.

Antal van den Bosch, hoogleraar Example-based language modelling, RU Nijmegen.


Een voorbeeld: wat zijn de betekenisdragende eenheden van taal?
Theoretische taalwetenschappers zoeken het antwoord in een systeem dat
uitgaat van woorden en een grammaticaal regelsysteem. Maar
een vertaalprogramma dat leert uit vertalingen en verder geen taalkundige
kennis krijgt aangereikt, ontdekt dat taal ook uit andere elementen is
opgebouwd.

“Als je onder de motorkap van zo’n programma kijkt, vallen veelvoorkomende


woordcombinaties op die samen een specifieke betekenis hebben. Zoals een
eigen huis, waarmee een koophuis bedoeld wordt. Dat staat er niet, maar dat
betekent het wel. Die betekenis is niet af te leiden uit losse woorden of
grammaticale regels. Taaltechnologie toont hier aan dat de betekenis van taal
voor een belangrijk deel in woordgroepen zit verpakt.”

Vruchtbare tegenstelling
Taaltechnologie krijgt wel eens het verwijt een extreem datagedreven
wetenschapsgebied te zijn: je hebt een databerg, daar laat je wat zoekvragen
op los en allicht komt er dan een antwoord uit. Bovenstaand voorbeeld is er
één dat duidelijk maakt hoe Van den Bosch naar de tegenstelling tussen
theoretici en datagedreven onderzoekers kijkt. Hij vindt die “wezenlijker voor
de wetenschap dan die tussen alfa’s en bèta’s. En vruchtbaarder: want de ene
onderzoeker die wil bewijzen dat zijn theorie klopt en de andere die
onbevooroordeeld naar de data wil kijken, dagen elkaar uit en stimuleren
elkaar.”

Zelf promoveerde hij na studies Taal- en literatuurwetenschap en Informatica


op een onderzoek over woorduitspraak: hij ‘trainde’ de computer om nieuwe
woorden uit te spreken op grond van verschillende theorieën en concludeerde
dat de computer met minder theorie tot betere resultaten kwam.

Stakingen, Rembrandt, dreigtweets…


De laatste jaren werkt Van den Bosch aan slimme zoeksystemen waar niet
alleen taalkundigen wat aan hebben. “Veel wetenschap,
zeker geesteswetenschap, draait om tekst. Veel tekst. Onderzoekers zitten met
de vraag: hoe doorzoek je die snel en goed?” Samen met collega’s
Bedrijfscommunicatie onderzoekt Van den Bosch de komende jaren welke
gezondheidsbevorderende communicatie goed, beter of juist helemaal niet
overkomt en overgenomen wordt. Met het Internationaal Instituut voor
Sociale Geschiedenis (IISG) werkt hij aan een zoekfilter waarmee historici die
onderzoek doen naar stakingen, ook arbeidsconflicten kunnen opsporen die
net niet tot staking hebben geleid.

Radboud Universiteit

En met onder andere de afdeling Kunstgeschiedenis van de


Radboud Universiteit werkten de Nijmeegse
taaltechnologen afgelopen jaar samen aan RemDoc, een
digitale omgeving waarin onderzoekers elke snipper tekst
over Rembrandt kunnen raadplegen. Gesprekken over een
vergelijkbaar systeem voor teksten over Jheronimus Bosch worden
momenteel gevoerd.

Daarnaast werken Van den Bosch en collega’s op dit moment met het ANP aan
een zoeksysteem dat twitterberichten kan doorzoeken op signalen die
voorspellen wat nieuws kan worden. En met het Korps Landelijke
Politiediensten (KLPD) wordt een zoeksysteem naar dreigtweets ontwikkeld.

Antal van den Bosch spreekt zijn oratie ‘Taal in uitvoering’ uit op vrijdag 9 november
2012, om 15.45 uur precies, in de Aula Radboud Universiteit, Comeniuslaan 2, Nijmegen
https://www.nemokennislink.nl/publicaties/taaltechnologie-helpt-wetenschap-met-
beter-zoeken-en-meer-vinden/
Google Translate in het onderwijs?
Auteur: Anna Tuenter | 16 oktober 2014
TAALTECHNOLOGIE (43)BEKIJK VERBINDINGEN
Thema: Over taal gesproken
Google Translate is geen knullige vertaalmachine meer. Zijn naar het
Engels vertaalde teksten naderen het niveau dat studenten moeten
hebben om te slagen voor hun toelatingsexamen Engels op de
universiteit. Studenten zullen er clandestien hele teksten mee gaan
vertalen, denken onderzoekers van de Universiteit van Nottingham.
Daarom moeten we nu vooruitblikken: willen we vertaalmachines in
het onderwijs verbieden of omarmen?

Je bent er niet trots op maar oké, je gooit wel eens een woord of tekst
in Google Translate. Soms voor de grap, om wat steenkolenitaliaans of -spaans
te leren. Maar vaak om te kijken hoe je iets zegt in het Engels. Hoe vaker we dit
doen, zeggen Michael Groves en Klaus Mundt van de Universiteit van
Nottingham, hoe beter deze techniek wordt. Ze ontdekten dat de vertalingen
van Google Translate al bijna het niveau halen dat studenten moeten hebben
om te slagen voor hun toelatingsexamen Engels op een Britse universiteit.

Elke student moet leren hoe hij academisch


moet schrijven in het Engels.
Flickr.com

Studenten zullen deze ontwikkeling


oppikken, voorspellen de
onderzoekers. Ze gebruiken al online
woordenboeken, en het lijkt
onvermijdelijk dat als vertaalmachines
goed genoeg zijn, ze deze clandestien gaan inzetten om grote stukken tekst van
hun moedertaal naar het Engels te vertalen. Voor vakken als Academic
Writing bijvoorbeeld, waarvan het doel is om volgens strikte en universele
regels academisch te leren schrijven in het Engels. Daarom moeten we nu gaan
nadenken: willen we vertaalmachines in het onderwijs verbieden of juist
omarmen?

De onderzoekers publiceerden hun verzoek tot reflectie vorige week in English


for Specific Purposes. Antal van den Bosch, taaltechnoloog aan de Radboud
Universiteit Nijmegen, legt uit hoe Google Translate werkt en welke fouten de
machine nu nog maakt. Vindt hij dat Google Translate het taalonderwijs zal
verarmen? En aan welke vertaalmachine sleutelt hij zelf?

Pure kansberekening
Nu maakt Google Translate nog allerlei kleine foutjes. Vaak klopt de
grammatica niet, ook kiest hij soms het verkeerde woord en leest de tekst niet
lekker. “Dat is niet gek,” zegt Van den Bosch. “Veel technologie die iets met
natuurlijke taal doet zit nog ruim onder het niveau van ervaren menselijke
taalgebruikers. Dat zie je aan vertaalmachines, maar ook aan
spraakherkenning en ook aan spellingscorrecties.” Dat komt omdat ons
taalgebruik zo gevarieerd is. “Geen enkele zin is hetzelfde – tenzij je plagiaat
pleegt – dus een vertaalmachine moet op basis van wat hij wél weet een
statistische inschatting maken van hoe hij dénkt dat de zin er in een andere
taal uitziet. Veel vertaaltechnieken werken dus puur op kansberekening.”

Zou het handig zijn als je gewoon


in je moedertaal kan schrijven, en
de hele tekst naar het Engels kan
vertalen?
Flickr.com

Google Translate vertaalt niet


woord voor woord, zegt Van
den Bosch, maar heeft een
grote hoeveelheid aan teksten
tot zijn beschikking die
elkaars vertaling zijn. “Stel je wil een Maleise tekst naar een Engelse vertalen.
Op grond van wat hij al heeft, gaat hij op zoek naar woordreeksen die elkaars
vertaling zijn. Welke reeks heb ik al eerder gezien, en welke waarschijnlijke
vertaling hangt daar aan?" Hoe meer teksten worden ingevoerd, hoe preciezer
hij kan vertalen, zegt Van den Bosch. “Meestal zijn er zelfs meerdere
vertalingen voor een woordreeks en kan hij er op basis van statistieken een
kiezen.” Ook is Google Translate interactief: je kan de machine niet alleen
beter maken door teksten in te voeren, maar ook door zijn vertaling zelf te
corrigeren.

Al die naamvallen
De fouten die de taalmachine maakt zijn vaak contextgerelateerd. Van den
Bosch geeft drie voorbeelden. “Hij vertaalt vaak verkeerd als de grammatica of
de woordvorming van de twee talen verschillend is. Als hij van het Engels naar
het Duits vertaalt, moet hij opeens rekening houden met vier mogelijke
naamvallen. Als er in het Engels the staat, wordt dat in het
Duits der, die, das, des, dem, of den. Om de goede keuze te maken moet hij de
zinscontext meenemen. Welke functie heeft het woord in de zin? Is het het
onderwerp of lijdend voorwerp?” Je hoopt dat hij dit op en duur statistisch
oppakt, vervolgt Van den Bosch, maar dat is moeilijk. “Van het Duits naar het
Engels vertalen is dus veel makkelijker.”

Google Translate herkent aan de omringende


woorden of je het met een ‘bank’ hebt over een
zitmeubel of een financiële instelling.
Flickr.com

Ook vindt Google Translate het moeilijk om


homoniemen te duiden. “Als je het hebt
over een bank, bedoel je dan een zitmeubel
of een financiële instelling?“ Maar dat gaat tegenwoordig al best goed, zegt Van
den Bosch. “Er staat vaak een ander woord in de buurt dat duidelijk maakt
welke vertaling op zijn plaats is. Probeer het maar. Kopieer maar eens een
tekst uit de Ikea-catalogus en een brochure van een bank, en kijk of Google
Translate de eerste bank als sofa of couch, en de tweede als bank vertaalt.”

Aantrekkelijke teksten fabriceren vindt de vertaalmachine ook lastig.


“Academisch taalgebruik, vooral het Engels, zit vol met nuancerende woorden
die het ‘geloof’ in iets aangeven: we argue, however, yet, possibly. Omdat deze
duiding in elke cultuur en taal anders is, zal een al te letterlijke vertaling leiden
tot een lastig leesbare tekst, met bijvoorbeeld een te formele toon." Ook daar
komt verandering in, zegt Van den Bosch. "We
ontwikkelen parafraseermachines die bijvoorbeeld moeilijk Engels in
eenvoudig Engels omzetten, door die machines te trainen op artikelen uit de
Engelse Wikipedia en de vereenvoudigde variant Simple English Wikipedia .”

Nieuwe vertaalmachine
Willen we vertaalmachines überhaupt toelaten in het taalonderwijs? Verarmt
dat het leerproces niet? “Niet per se. Het ligt aan de doelen die je voor ogen
hebt. Docenten willen de diepte in, zodat studenten de doeltaal echt leren
begrijpen. Maar studenten vinden het vaak prima om trucjes leren." Een leuke
vergelijking is de invoer van de rekenmachine, zegt Van den Bosch. “Daar was
veel verzet tegen. Maar aan de kern van het vak – het leren van de wiskundige
principes – doet de rekenmachine niets af.”
Hijzelf is samen met computerprogrammeur Maarten van Gompel aan het
sleutelen aan een nieuwe vertaalmachine die het schrijven in een tweede taal
juist ondersteunt. Deze vertaalt slechts kleine fragmenten en met behulp van
de tekst die je al hebt. “Als je een verhaal in het Engels aan het schrijven bent,
lukt dat vaak aardig. Maar op een gegeven moment loop je vast. Hoe heet
zoiets in het Engels? Welk voorzetsel hoort bij dit werkwoord, en hoe gebruik
ik deze combinatie in een zin?”

Zo zou de vertaalmachine ongeveer werken: je hebt al een tekst geschreven in de


doeltaal, maar wil nog een klein fragment in de context van de doeltaal vertalen.
Antal van den Bosch

“Wij maken een vertaalmachine waarbij je een tekst in doeltaal kan


opschrijven, en alleen dat ene fragment hoeft te vertalen, in de context van de
doeltaal. Deze bestaat gek genoeg nog niet. Eigenlijk is het een gewone
vertaalmachine – maar we richten het kanon gewoon een andere kant op.”

Bron:
• Michael Groves en Klaus Mundt: Friend or foe? Google Translate in
language for academic purposes, English for specific purposes, oktober
2014. DOI: 10.1016/j.esp.2014.09.001

https://www.nemokennislink.nl/publicaties/google-translate-in-het-onderwijs/
Twitterfilter heeft moeite met
het herkennen van meningen
Auteur: Mathilde Jansen | 23 april 2021
Pixabay CC0
DIGITAL HUMANITIES (21)BEKIJK VERBINDINGEN
Thema: Over taal gesproken

Het gebeurt regelmatig: iemand krijgt een twitterban opgelegd


omdat hij bijvoorbeeld over corona of vaccinaties twittert. Staan
de filters van Facebook en Twitter niet te streng afgesteld? We
spraken met taaltechnoloog Antal van den Bosch.

Sociale media als Twitter en Facebook gebruiken algoritmes om verspreiders


van nepnieuws en haatdragende berichten op te merken. Maar ook goed
bedoelde tweets worden door die algoritmes nogal eens aangemerkt als
ongewenst. Zo gebeurt het de laatste tijd regelmatig dat mensen tijdelijk een
‘twitterban’ opgelegd krijgen omdat ze bijvoorbeeld schrijven over corona of
vaccinaties en hun tweet net die woorden bevat die het algoritme gebruikt om
nepnieuws op te sporen. Dat gebeurde onder andere onze collega-journalist
Arnout Jaspers die in een tweet benadrukte hoe goed vaccins werken.

Twitter, @Focusscience1
Zelfs de bestuursvoorzitter van het OLVG in Amsterdam werd van LinkedIn
verwijderd toen hij aandacht vroeg voor de neveneffecten van de
coronamaatregelen. Ook kan het algoritme de fout ingaan door een
taaldwaling. Zo kreeg de Vlaamse taalkundige Miet Ooms een twitterban
opgelegd na het versturen van de tweet ‘Topinfluencer, die Bernie’. Het
twitterfilter zag de tweet ten onrechte aan voor een Engelstalig bericht waarin
iemand de politicus Bernie Sanders dood wenste.

Waarom gaat het algoritme nog zo vaak de fout in en kan dat in de toekomst
anders? NEMO Kennislink sprak erover met taaltechnoloog Antal van den
Bosch. Hij is hoogleraar Taal en Kunstmatige intelligentie aan de UvA en
directeur van het Meertens Instituut.

Waarom gaan de algoritmes zo vaak de mist in?

“Welke filters bedrijven als Facebook en Twitter precies gebruiken weet


niemand. Maar in het algemeen is het zo dat ze een combinatie hanteren van
menselijke moderatie en automatische filters. Omdat het om zulke gigantische
hoeveelheden data gaat, staat er in eerste instantie een hele batterij aan
automatische filters klaar, die als het ware vlaggetjes plaatst bij ongewenste
tweets. Wat ongewenst is, is terug te vinden in de richtlijnen van zo’n bedrijf.
Voorbeelden zijn haat zaaien, bedreigen, desinformatie en misinformatie. De
taak van de menselijke moderatoren is om steekproefsgewijs te controleren of
de vlaggetjes terecht zijn.”

Meestal scoren automatische filters die sociale


media gebruiken tussen de 75 en 85 procent.
Pixabay CC0

“Die automatische filters zijn


computerprogramma’s die min of meer
werken zoals een spamfilter twintig jaar
geleden al werkte. Naïef zou je zeggen:
zo’n algoritme heeft het goed of heeft het
fout. Maar eigenlijk – en dat is vaak een eyeopener – zijn er vier uitkomsten
mogelijk, waarvan er twee goed zijn en twee fout. Het gaat goed bij de
berichten die volgens het algoritme en ook volgens de menselijke maat
aanstootgevend zijn. Hetzelfde geldt voor berichten die het algoritme terecht
goedkeurt. Maar het gaat fout bij vals positieven en vals negatieven. In het
eerste geval zegt het algoritme dat het bericht niet op de site hoort terwijl er in
feite niks mis mee is; in het tweede geval zegt het algoritme dat er niks aan de
hand is, terwijl het wel degelijk aanstootgevend is.”
“Het probleem is dat er geen algoritme bestaat dat het honderd procent goed
doet. Meestal scoren ze ergens tussen de 75 en 85 procent. Maar dat getal zegt
nog niets over de verdeling van de vals positieven en vals negatieven. Die
verdeling kun je zien als een touwtrekwedstrijd. Trek je aan de ene kant, om
het aantal vals positieven terug te dringen, dan krijg je een heleboel vals
negatieven. Je zult dus voortdurend moeten testen hoe goed je algoritme
werkt op beide typen fouten.”

Wat is dan de beste verdeling tussen de twee typen fouten?

“Dat hangt er vanaf wat je wilt. Als je bijvoorbeeld heel veel menselijke
moderatoren in dienst hebt, dan hoeft het algoritme niet zo precies te zijn. De
menselijke moderatoren keuren dan de onterecht afgekeurde berichten alsnog
goed. Je kunt je dan meer vals positieven veroorloven. Maar als het algoritme
volledig automatisch werkt, dan wil je wél dat deze heel precies is.”

Waarschijnlijk hebben Twitter en Facebook veel menselijke


moderatoren in dienst?

“Absoluut. Maar uiteindelijk is het nooit genoeg. Dus ook daar zullen ze weer
een soort evenwicht in moeten vinden. Je moet eerst bepalen wat de
moderatieteams aan kunnen. Het controleren van die ‘vlaggetjes’ gaat eigenlijk
altijd steekproefsgewijs: je kunt niet alles controleren. Maar moderatie is
bijvoorbeeld ook taal- en cultuurafhankelijk. Je zult in Nederland echt mensen
moeten hebben die dat voor Nederlandstalige berichten doen. En dan moet er
ook altijd een deel van het team zijn dat nazorg levert aan mensen die bezwaar
indienen omdat ze geblokkeerd zijn. Ik denk dat deze bedrijven veel tijd
steken in die nazorg. Daarmee houd je toch je klantrelaties goed.”

Het lijkt er dus op dat de huidige algoritmes veel vals positieven


opleveren: berichten die ten onrechte als aanstootgevend worden
aangemerkt. Wat gaat hier taaltechnologisch gezien fout?

“Het is heel moeilijk voor algoritmes om alle nuances van een bewering te
detecteren. Dit gebeurt bijvoorbeeld als je iets quote waar je het niet mee eens
bent: je gebruikt dan immers wel woorden die in de verboden hoek zitten,
naast je eigen inbreng als ‘ik snap niet waarom mensen nog altijd beweren
dat…’. Het onterecht wegfilteren van zulke nuance gaat uiteindelijk ten koste
van het debat. Elk gezond debat heeft baat bij common ground, gedeelde
kennis, anders kan je elkaar niet begrijpen. In het zwartepietdebat is ‘zwarte
piet’ een beladen term, maar als we ons in geheimtaal moeten gaan hullen dan
is de discussie steeds verder weg. Tegelijkertijd hebben we de filters toch wel
nodig, want zonder een vorm van moderatie kunnen discussies totaal
ontsporen.”

“Algoritmes hebben moeite met het duiden van wat het betekent als een
bewering begint met ‘ik vind’ of ‘ik snap niet waarom’ en woorden die
voorzichtigheid uitdrukken zoals ‘misschien’. En dat zijn juist heel belangrijke
aanwijzingen dat er iets meer aan de hand is dan dat iemand een scheldpartij
aan het opzetten is. De meest geavanceerde algoritmes proberen dat nu wel
mee te nemen. Ze kijken sowieso naar woordgroepen en woordcombinaties in
plaats van naar individuele woorden, en dus ook steeds vaker naar de
relatieve positie van die woorden.”

Twitter, @BuurtaalMiet

“Een andere moeilijkheid is de factor tijd. Door de tijd heen komen nieuwe
onderwerpen op, of verandert de hoeveelheid aandacht die een bepaald
onderwerp krijgt. Je moet die algoritmes dus vaak bijtrainen, want er kan
zomaar een beweging ontstaan, een hashtag, een persoon die van de ene op de
andere dag beroemd wordt zoals George Floyd. Wat ook nogal eens misgaat is
de taalidentificatie, dus in welke taal een bericht is geschreven: hoe korter de
boodschap, hoe vaker het misgaat. Neem de woorden in die tweet van Miet
Ooms, ‘die Bernie’: op basis van een eigennnaam kun je nog niet beslissen met
welke taal je te maken hebt, en het woordje ‘die’ komt in meerdere talen voor
met een andere betekenis. Hier heeft het algoritme het Nederlands aangezien
voor Engels.”
Kunnen de automatische algoritmes bij het overwinnen van deze
problemen naar honderd procent foutloos modereren?

“Dat denk ik niet. Als je dit door verschillende menselijke moderatoren laat
doen dan krijg je scores die ook geen honderd procent zijn, omdat er verschil
van mening is. En het algoritme is getraind op menselijke data. Het is
misschien wel zo dat als je data laat labelen door meerdere mensen en daar
weer een discussie overheen laat gaan, die data weer aanbiedt als
trainingsmateriaal, dan heb je wel materiaal dat misschien een soort
collectieve intelligentie representeert. Misschien kom je op die manier wel ooit
uit bij een heel intelligent algoritme.”

https://www.nemokennislink.nl/publicaties/twitterfilter-heeft-moeite-met-
het-herkennen-van-meningen/
Artificiële intelligentie in taal- en letterkunde
Linguïsten schrijven software om automatisch taal te analyseren.
Literatuurwetenschappers maken digitale tekstedities. Sinds 2010 wordt al het
digitale taal- en literatuuronderzoek op UAntwerpen gegroepeerd op het platform
Digital Humanities. Computerlinguïst Walter Daelemans en literatuurspecialist
Dirk Van Hulle kraken de code.

De tijd dat een literatuurwetenschapper zich opsloot in de bibliotheek met stoffige


manuscripten, ligt achter ons. Onderzoekers in de geesteswetenschappen maken
almaar meer gebruik van digitale instrumenten: databanken van boeken of
documenten, of taalkundige corpora. Niet alleen het materiaal is in toenemende
mate digitaal, ook de methodes.

Computerlinguïst Walter Daelemans en literatuurspecialist Dirk Van Hulle


stampten samen met collega’s Thomas Crombez en Mike Kestemont het platform
Digital Humanities uit de grond (uahost.uantwerpen.be/platformdh), dat al dat
digitale taal- en literatuuronderzoek verzamelt. Samen met Kestemont zijn ze ook
verantwoordelijk voor het bachelorvak Digital Humanities.

Softwareskills

Wil dat zeggen dat taal- en letterkundigen naast een goeie talenknobbel nu ook
software moeten kunnen schrijven? “Bij ons in de computerlinguïstiek is dat een
vereiste”, bevestigt Walter Daelemans. “In de letterkunde is er minstens de
bereidheid nodig om bijvoorbeeld transcripties van manuscripten te maken in de
markup-taal XML”, aldus Dirk Van Hulle. “Een erg open consortium, Text Encoding
Initiative (TEI), komt jaarlijks samen om de conventies van die markup-taal te
bepalen en eventueel aan te passen. De bedoeling is immers om een taal te
creëren waarin we elkaar begrijpen en die hopelijk binnen 100 jaar nog door
computers kan gelezen worden.”

Digitale tekstgenese
"We willen handschriften omzetten in bewerkbare tekst", zegt Dirk Van Hulle.

Van Hulle kreeg drie jaar geleden een Starting Grant van 1,1 miljoen euro van de
European Research Council voor baanbrekend onderzoek naar literaire
manuscripten. Met zijn team maakt hij digitale tekstgenetische edities van de
werken van de Ierse schrijver Samuel Beckett, inclusief diens bibliotheek.

“We proberen een digitale omgeving te creëren waar je de tekstgenese kan


reconstrueren, maar waar ook interactie mogelijk is met de bronteksten die
Beckett heeft gebruikt. Dit project is een case study om een groter punt te maken
over editiewetenschap. Vroeger werd tekstgenetisch onderzoek gezien in functie
van het maken van een teksteditie. Maar het schrijfproces is zeker zo belangrijk
als het product. Waarom dus geen teksteditie maken als instrument om de
tekstgenese te onderzoeken?”
Schrijfprocessen

Met dit digitale onderzoek naar creatieve processen maakt Van Hulles team deel
uit van een Europees Marie Curie-netwerk over ‘Digital Scholarly Editing’ en
binnen Vlaanderen trekt UAntwerpen aan de kar als woordvoerder van de FWO
Wetenschappelijke Onderzoeksgemeenschap ‘Digital Humanities Flanders’.

“Niet alleen in het Departement Letterkunde, ook facultair en interfacultair wordt


binnen onze universiteit samengewerkt met schrijfonderzoekers. Onder meer om
het schrijfproces van Roosevelt, de nieuwste roman van Gie Bogaert, te
analyseren met het aan onze universiteit ontwikkelde softwareprogramma
Inputlog, dat elke toetsaanslag en muisklik van de auteur registreert."

Van Hulle onderzocht onder meer ook het schrijfproces van The Origin of
Species van Charles Darwin. “Tijdens Darwins leven zijn er zes edities van het
boek verschenen. Je wil die teksten kunnen vergelijken met elkaar, maar ook met
wat Darwin in zijn notitieboekjes, zakboekjes, dagboeken en brieven schreef.
Samen met het Huygens Instituut voor Nederlandse Geschiedenis hebben we
gewerkt aan het programma CollateX om van om het even welke zin alle
varianten in alle schrijfstadia snel terug te vinden. We zoeken naar manieren om
dat wat een schrijfproces eigenlijk heel dynamisch maakt, namelijk die
tekstvarianten, gemakkelijk te onderzoeken en zo meer inzicht te verwerven in de
werking van de menselijke verbeelding.”

Automatische transcripties

“We zijn nu ook volop op zoek naar manieren om het transcriptiewerk te


automatiseren”, vertelt Van Hulle. “Zoals je met Optical Character Recognition
(OCR) ingescande teksten kan omzetten in bewerkbare tekst, zouden we in
samenwerking met andere Europese onderzoeksgroepen Handwritten Text
Recognition (HTR) verder willen ontwikkelen, zodat we ook handschriften kunnen
omzetten in bewerkbare tekst. Gemakkelijk is dat niet want elk handschrift is
anders, waardoor er verschillende ‘training data’ nodig zijn voor het lerende
algoritme.”

Van algoritmes weet Walter Daelemans als computerlinguïst alles. Binnen zijn
onderzoeksgroep lopen tal van projecten die met behulp van algoritmes op basis
van verzamelde tekstverzamelingen en -fragmenten ongewenst gedrag à la
cyberpesten en IS-propaganda kunnen opsporen, persoonlijkheid aan schrijfstijl
kunnen koppelen, diagnoses kunnen stellen op basis van patiëntdata, kunnen
simuleren hoe een kind taal leert, en zo verder.

Sentiment mining

“We doen onderzoek op een aantal niveaus”, vertelt Daelemans. “Het eerste
niveau is het tekstbegrip: zijn we in staat een tekst automatisch te begrijpen en
de kennis die erin staat in databases te stoppen? Een voorbeeldonderzoek is ons
project over medische taal. We werken aan een systeem dat patiëntdata
analyseert en de bedoeling is om op termijn automatische diagnoses te kunnen
stellen. We gebruiken hiervoor de nieuwste technologieën, namelijk diepe neurale
netwerken.”

Het tweede niveau waarop tekst kan geanalyseerd worden, is emotie en opinie:
“We doen aan sentiment mining en opiniedetectie”, licht Daelemans toe.
“Momenteel hebben we een interessant nieuw project met de politieke en de
communicatiewetenschappers waarin we analyseren hoe mensen op sociale
media het nieuws analyseren, hoe ze een opinie vormen op basis van wat ze op
sociale media en in de pers vinden, en omgekeerd: hoe de pers daarop inspeelt.
De verkiezingen van 2019 zijn ons doel. We willen in kaart brengen wat daar aan
opinies aan voorafgaat op sociale media en in de pers. Het klassieke idee is dat
de politiek de agenda bepaalt, de pers daarover informeert, en dat er daar op de
sociale media commentaar over wordt geleverd. Maar eigenlijk staat die piramide
nu op zijn kop. Het zijn de sociale media die de agenda van politici bepalen. Met
behulp van die subjectieve tekstanalyse kunnen we opvolgen hoe dat in real
time gaat.”

Persoonlijkheidsprofilering

Op het derde niveau trachten Daelemans en zijn team te achterhalen wat je op


basis van tekst over de auteur ervan kan te weten komen. “Kan ik iets leren over
demografische factoren zoals leeftijd en geslacht, en over psychologische factoren
zoals of de auteur introvert of extravert is, of hij hoogopgeleid is of niet, politiek
in het linkse of rechtse spectrum zit? Tot op zekere hoogte kan je dat afleiden uit
de tekst.”

"In ons onderzoek gebruiken we de nieuwste technologieën", legt Walter


Daelemans uit.

Het net afgeronde AMiCA-project ging bijvoorbeeld over online security en


veiligheid voor kinderen en jongeren, om hen te beschermen tegen schadelijke
content. In het extreemste geval zijn dat pedofielen, maar ook cyberpesten kan
automatisch worden gedetecteerd: “Zijn mensen wel diegenen voor wie ze zich
uitgeven? Dat kunnen we checken door aan de hand van hun posts hun leeftijd en
geslacht te achterhalen. Of we kunnen gaan kijken of iemand een
persoonlijkheidsstructuur heeft om een slachtoffer of een pester te zijn in
cyberpesten.”

Momenteel is Daelemans bezig met personeelsprofilering. “Sommige bedrijven in


China krijgen duizenden sollicitaties voor elke vacature. Op dit moment bekijken
ze enkel kandidaten uit ‘goede’ universiteiten en vallen heel wat interessante
profielen uit de boot. We werken nu samen met een bedrijf dat onze software
gebruikt om op basis van de ‘open tekst’-antwoorden van kandidaten te
analyseren of die sollicitant op vlak van niveau, persoonlijkheid en visie
tegemoetkomt aan de criteria voor de functie.”

Neurale netwerken

“Wij ontwikkelen die toepassingen op basis van de state of the art in ons
vakgebied en dat evolueert momenteel bijzonder snel”, getuigt Daelemans. “Zo
komen we bij de ‘neurale netwerken’ die het veld van de artificiële intelligentie,
waar computerlinguïstiek een onderdeel van is, overgenomen hebben. In alle
domeinen waar die netwerken worden gebruikt, zie je een aanzienlijke
verbetering van de accuraatheid van die systemen, zowel qua beeldverwerking
als wat spraak- en tekstanalyse betreft. Eigenlijk is het heel eenvoudig wat die
neurale netwerken doen. Je biedt het netwerk eenvoudigweg erg veel data aan en
het leert zelf om daarin patronen te herkennen, of het nu om tekst, geluid of
beelden gaat. Het gaat eigenlijk om algoritmes die in de vorige eeuw zijn
uitgevonden, maar pas nu met de rekenkracht van vandaag zeer efficiënt kunnen
worden ingezet.”

Nu kunnen we zoveel input aan die neurale netwerken geven dat die voor
sommige taken het niveau van het menselijke brein bereiken of het zelfs beter
doen, weet Daelemans. “Ook op gebied van automatisch vertalen hebben de
neurale netwerken enorme vooruitgang geboekt. Google Translate is op die
manier trouwens recent met 60 procent verbeterd. Door de snelle evolutie is het
allemaal heel spannend wat er nu gebeurt. Omdat dit soort van onderzoeken ver
van de klassieke taalkunde afstaat, leiden we onze studenten in de master
computertaalkunde zo op dat ze goed kunnen programmeren en een stevige basis
hebben om de algoritmes te kunnen begrijpen en ontwikkelen.”

Moderne psycholinguïstiek

Wat het Computational Linguistics and Psycholinguistics Research Center (CLiPS)


van Walter Daelemans zo uniek maakt, is dat het computertaalkunde met
psycholinguïstiek verbindt. Op dat kruisvlak lopen ook een aantal erg interessante
projecten.

“Met professor Steven Gillis hebben we bijvoorbeeld een TOP-project dat met
computermodellen tracht te simuleren hoe een kind uit primaire linguïstische data
taal leert. Het gaat om fundamenteel langetermijnonderzoek rond de hypothese:
hoeveel van onze taalkennis is aangeboren en hoeveel zit er verborgen in de
input en kan je er dus met algemene cognitieve processen uithalen? Met
professor Dominiek Sandra hebben we dan weer een project over
computermodellen van meertaligheid. Zo werken we binnen CLiPS goed samen op
de drie onderdelen: taalverwerving, -verwerking en computermodellering.”

https://www.eoswetenschap.eu/technologie/artificiele-intelligentie-taal-en-
letterkunde
Taal is sleutel tot artificiële intelligentie
Wat hebben drie germanisten van UAntwerpen te maken met de enorme rekenkracht
van spelconsoles? Kort en krachtig: ze leren computers aan hoe menselijk gedrag
werkt. “Taal weerspiegelt het wezen van wie we als mensen zijn.”

Hoe kan de beheerder van een online chatforum weten of er in een van de talloze
gesprekken die hij moet overzien een chatter over de schreef gaat en de anderen
de huid vol scheldt? Of hoe kunnen ouders merken dat hun tiener zwaar gepest
wordt op sociale media, die zoon- of dochterlief net zorgvuldig afschermt voor
hen? En in navolging van dat laatste: hoe weten deze ouders dat cyberpestgedrag
niet escaleert, in die mate dat hun kind met zelfmoordgedachten kampt, en dat
online ook laat merken?

Dergelijke situaties komen steeds vaker voor, en telkens vallen ouders en


leerkrachten uit de lucht over de ernst van de situatie. Terwijl het antwoord op de
drie vragen eenvoudig is: vraag het aan de computer. Althans, dat vinden toch
de vorsers van onderzoekscentrum CLiPS. Die naam staat voor Computational
Linguistics and Psycholinguistics, een groep opgericht in 2003. Zij ontwikkelen
vandaag een tool die cyberbullying herkent, en zelfs uit iemands online posts kan
opmaken of die persoon depressief gedrag vertoont. Eens operationeel kan de
tool fungeren als een filter voor chatboxen of sociale media, bijvoorbeeld als deel
van een antivirusprogramma, en bij problemen een waarschuwing sturen naar
moderatoren, ouders of leerkrachten.

Bitch = stom wijf

Het onderzoek maakt deel uit van het AMiCA-project, dat samen met UGent en de
KULeuven ontwikkeld wordt, en waarmee ook seksueel overschrijdend gedrag op
sociale media kan worden herkend en gemeld. Niet doordat de tool elke keer als
het over seks gaat een waarschuwing stuurt naar de ouders. Maar door te
controleren of iemand die bijvoorbeeld in haar profiel zegt een 15-jarig meisje te
zijn, niet in werkelijkheid een 50-jarige pedofiel is. Hoe? Door te analyseren wat
die persoon schrijft en hoe die zijn of haar taal gebruikt.

Dat laatste geeft aan hoe complex de wetenschap achter deze toepassingen wel
is. En wat taal in hemelsnaam met computers en dataonderzoek te maken heeft,
zoals de computational linguistics in CLiPS aangeven. Dit gaat over artificiële
intelligentie. Over een computer die uit taalgebruik begrijpt dat iemand een man
is, van middelbare leeftijd, of een depressieve tiener.

“Het begint met een hele reeks woorden en teksten die, in ons project, als
pestgedrag kunnen worden omschreven, en waarmee we de computer als het
ware voeden”, begint Walter Daelemans, hoofd van CLiPS. “Dat was een hele
opdracht”, gaat collega Guy De Pauw verder. “We zijn zelf een tiental scholen
afgegaan, waarbij we jongeren een rollenspel rond pesten hebben laten spelen,
om de juiste scheldwoorden te leren kennen.” Met die data kan een computer
perfect reageren wanneer een van de ingevoerde woorden en uitdrukkingen
gebruikt wordt. Maar dan wordt het pas interessant.

Herken de kat

“Iemand een klootzak noemen kan ook plagerig bedoeld zijn”, merkt Daelemans
op. “Kortom, de computer moet de context van een bepaald gesprek vatten, om
uit te maken of het om een belediging of een plaagstoot ging.” “En meer nog”,
valt Mike Kestemont bij. “De computer moet ook weten dat als ‘bitch’ een
scheldwoord is, wat we hem hebben geleerd, ‘stom wijf’ vaak in dezelfde context
gebruikt wordt en dus ook een belediging is.”

Een computer die leert, en die een context interpreteert? Bestaat dat
dan? “Absoluut”, knikt een merkelijk enthousiaste Kestemont. “Een aantal jaar
geleden verscheen een paper over een onderzoek waarbij een computer een week
lang YouTube-filmpjes heeft gekeken. Nadien genereerde hij zelf een beeld van
onder meer een kattenkop. Een wezen dat hij niet kende, maar dat hij door de
talloze kattenfilmpjes op YouTube wel was gaan herkennen als iets wat hetzelfde
was. Een later onderzoek deed iets soortgelijks met Google News. Een computer
die geen taal kende, kon na een periode van het scannen van al die berichten
woordenwolken maken die uiteenvielen in onder meer de maanden van het jaar,
landen, steden, voorzetsels, … Hij wist nog steeds niet wat die woorden
betekenden, maar door de context waarin ze gebruikt werden, kon hij wel
opmaken dat ze wat met elkaar te maken hadden.”

Spelconsoles

“Computers kunnen dat slechts door een grote sprong in rekenkracht”, legt De
Pauw uit. “En dat gebeurde opvallend genoeg met de grafische processors die ook
in spelconsoles gebruikt worden. Die berekenen in enkele milliseconden enorm
ingewikkelde matrixen vol data, op een manier die vergelijkbaar is met de
werking van ons brein. We weten al tientallen jaren dat dergelijke zogenaamde
neurale netwerken theoretisch zouden kunnen, maar het is maar door de huidige
rekenkracht dat we ze ook kunnen toepassen. Op die manier kan de computer
triljoenen connecties maken, meer dan onze hersenen.”

Spelconsoles berekenen in milliseconden ingewikkelde matrixen vol data, net


zoals ons brein.Guy De Pauw

Het grote woord is gevallen: een computer die werkt zoals onze hersenen, en
situaties kan inschatten, vertoont die menselijke eigenschappen? “We modelleren
het brein, en daarmee de mens”, bevestigt Daelemans. “Al blijft dat beperkt. De
elektrische impulsen in een brein kunnen we nabootsen – in de mate dat we ze al
kennen – maar de chemische reacties natuurlijk niet. Toch kunnen we bij een
computer al spreken van een vorm van intuïtie, van gezond verstand. Een grote
doorbraak op dat vlak zagen we onlangs: voor de eerste keer won een computer
van een topspeler in het Aziatische bordspelletje Go. Schaakcomputers zijn al een
tijdje beter dan mensen, maar Go is een spel dat veel meer intuïtie vereist dan
schaak. Door rekenkracht kunnen computers steeds vaker situaties en
gesprekspartners inschatten. We werken hier bijvoorbeeld met robots, waarvan
we weten dat autistische kinderen er goed op reageren. Maar dan moet die
computer wel weten wie hij voor zich heeft natuurlijk. Zo’n kind heeft niets aan
een jolige robot.”

Lernout & Hauspie

"Volgens alle grote spelers is tekst wel degelijk de toekomst", menen Kestemont,
Daelemans en De Pauw (van linksaf).

Het is ironisch dat het een computer vergt om het belang van taal voor ons mens-
zijn aan te tonen. Alleen op het eerste zicht is de combinatie van taal- en
letterkunde en computers opvallend. “Taal is wat ons onderscheidt”, glimlacht
Daelemans. “Al onze emoties worden erin weerspiegeld. Al zijn er meer
taalkundigen die dat doorhebben en in deze sector werken, dan informatici.”

“Het was dan ook stevig studeren nog”, herinnert Kestemont zich. “Maar volgens
alle grote spelers is tekst wel degelijk de toekomst. Bedrijven als Google pompen
miljarden in het onderzoek rond computerlinguïstiek. Opvallend toch: twintig jaar
na Lernout & Hauspie zijn taal en spraak opnieuw dé uitdaging.”

https://www.eoswetenschap.eu/technologie/taal-sleutel-tot-artificiele-intelligentie
OPINIE ARTIFICIËLE INTELLIGENTIE

De grootste intellectuele
hold-up uit de geschiedenis
Patrick Goethals
Hoogleraar Toegepaste Taalkunde (UGent).
Dinsdag 24 januari 2023 om 3.25 uur
De grote techbedrijven zetten ons weer een hak met nieuwe
technologieën als ChatGPT, schrijft Patrick Goethals. Auteursrecht
en bronvermelding lappen ze doodleuk aan hun laars.

Lectrr
ChatGPT is overal. Elke dag passeren er
getuigenissen over wat de tekstgenerator kan en
hoe indrukwekkend of afschrikwekkend dat is.
Wat we zien, is het begin van een virtuele tekst-
en beeldenwereld, waarbij ‘virtueel’ niet langer
staat voor de drager van de communicatie (het
internet) maar ook voor de bron, namelijk
computers die zelf schrijven. Generatieve taaltechnologie is niet zomaar een
volgende stap, het is een paradigmashift, met algoritmes die zichzelf
kunnen programmeren en de belangrijkste menselijke kennisdragers,
namelijk teksten, boeken en afbeeldingen, kunnen klonen.
Het gebrek aan kritische reflectie is frappant, en een exponent van wat we
de ingenieursideologie van de laatste halve eeuw kunnen noemen. De -
centrale en positieve waarde in die ideologie is de fascinatie voor de -
menselijke creativiteit om van ruwe materialen bruikbare producten te
maken.
Helaas leidt die fascinatie tot het doorschuiven van de verantwoordelijkheid
voor de gevolgen, en tot een gebrek aan interesse in de intrinsieke waarde
van de bronmaterialen, of in de ecologische, sociale en nu ook intellectuele
duurzaamheid waarmee ze werden verkregen. Niet het doel, maar het -
product heiligt de middelen.
• Microsoft pompt 10 miljard dollar in ChatGPT
Het is die houding die ons over de rand van een klimaatcrisis bracht, en in
ChatGPT de vorm krijgt van wat de grootste intellectuele hold-up uit de
geschiedenis moet zijn. Die hold-up heeft trouwens ook een geopolitieke
dimensie, met een monopolie van Amerikaanse bedrijven die een claim
leggen op mondiale en Europese intellectuele eigendom.
Dat de makers zo vaag blijven over de bronnen, staat
volledig haaks op de fundamenten van een
kennismaatschappij
De techgiganten hebben wellicht niet liever dan dat het debat gaat over de
gevolgen van de technologie of, beter nog, over de voorlopige tekort-
komingen. Is de kennis nog niet helemaal up-to-date? Produceert het -
genderonvriendelijke of racistische praat? Zijn er geen bronverwijzingen? Is
het repetitief? De oplossingen zijn technologisch relatief eenvoudig, en
zullen verwerkt zitten in de betalende versies die weldra de markt zullen
overspoelen. Men ziet het graag gebeuren dat we daarover spreken omdat
we zo intussen niet de vraag stellen of het ding wel eerlijk ontwikkeld wordt.
De techgiganten hebben intussen ruimschoots bewezen dat ze niet het
minste respect hebben voor een eerlijk gebruik van data, sociale
werkomstandigheden of ecologische duurzaamheid.

Almaar hermetischer
ChatGPT en het immense taalmodel dat de motor ervan vormt, werden
volgens de makers getraind op hallucinant grote tekstbestanden van in -
totaal meer dan 300 miljard woorden. Het is door de combinaties van die
woorden te modelleren dat een talige intelligentie ontwikkeld wordt. Maar
de makers blijven bijzonder vaag over waar die woorden vandaan komen.
Ze verwijzen naar Wikipedia, sociale media, collecties boeken en
internetteksten. De indruk die ze willen geven is dat het veel te veel is om op
te sommen, dat onderaannemers instaan voor het respecteren van de
intellectuele eigendom, en dat het vooral fantastisch is dat men uit het
zootje van de sociale media zo’n geweldig product heeft kunnen maken.
Wie dat gelooft, is naïef. Het systeem boekt resultaten omdat het getraind is
op data met een hoge toegevoegde waarde: geëditeerde en gepubliceerde
boeken, wetenschappelijke papers en datasets, reële interpersoonlijke
communicatie enzovoort. Dat men zo vaag mag blijven over de werkelijke
bronnen, is aanstootgevend en staat volledig haaks op de belangrijkste
fundamenten van een kennismaatschappij, namelijk eerlijkheid over
bronnen en data, fundamenteel respect voor het principe van auteurschap
en ‘fair’ gebruik van de data. Niets van dat alles bij de aandeelhouders van
OpenAI. Naarmate hun producten beter werden, werden ze ook
hermetischer en deelde men minder code of bronnen.
Voor de makers is het een koud kunstje om een lijst te genereren van de
bronnen die gevoed werden aan het algoritme. Dat ze dat niet doen, -
betekent dat ze niet willen dat wij de bronnen zien. Het is onbegrijpelijk dat
daar geen reactie op komt. Je zou toch verwachten dat bedrijven en -
instanties garanties willen dat hun bestanden niet gebruikt worden om
zichzelf te klonen? Er is maar één manier om het te weten: volledige
transparantie eisen over zowel primaire bronnen als code, repliceren en
controleren of de modellen inderdaad op die manier getraind worden.

Incestueus labyrint
Het valt te verwachten dat precies het omgekeerde gebeurt: de manipulatie
zal nog erger worden. In volgende versies of afgeleiden zullen ongetwijfeld
bronvermeldingen komen, maar die zullen niet noodzakelijk de link leggen
met de meest hoogwaardige (en potentieel beschermde) bronnen die binnen
het model het meest hebben bijgedragen tot de modellering van een bepaald
concept, maar wel met een publiek beschikbaar afkooksel, dat steeds meer
automatisch zal gepubliceerd worden door tekst- en websitegeneratoren, en
commerciële inkomsten kan genereren. Die cyclus creëert een gigantisch
probleem van intellectuele duurzaamheid. Ook voor de generatoren zelf,
trouwens: die zullen de komende jaren wanhopig op zoek gaan naar teksten
die door mensen werden geschreven, want als ze zich trainen op hun eigen
creaties raken ze verstrikt in een incestueus labyrint. Vergis u dus niet: de
applicaties die ons zullen helpen om een onderscheid te maken tussen
menselijke en gegenereerde tekst zijn ultiem bedoeld voor de generatoren
zelf. Vergis u ook niet als u denkt dat bepaalde informatie niet in het -
systeem zit omdat ze er niet uit komt. In en uit zijn verschillende deuren
met verschillende filters.
In het bijzonder moet ook de Europese academische wereld kordaat en snel
reageren. De voorbije jaren werd aan universiteiten en wetenschappelijke
instellingen fors geïnvesteerd in modern datamanagement, waarbij de focus
ligt op openbaarheid van data, analyses en resultaten. De filosofie is dat
openbaarheid noodzakelijk is om wetenschappers het werk van andere
wetenschappers te laten verifiëren. Bestaan er garanties dat die data niet
worden opgeslokt door het algoritme, of dat er op een intellectueel eerlijke
manier naar verwezen wordt? Het antwoord is negatief. Zullen onze
Europese instellingen en wetgevers wel blijven eisen dat wetenschappers
zich op duizend manieren verantwoorden en ironisch genoeg zelfs moeten
betalen om hun resultaten in open access te publiceren, terwijl de
almachtige Amerikaanse techbedrijven er een gigantische parafraseer-,
plagieer- en manipuleermachine mee bouwen?
Die paradigmashift vereist een diepgaande reflectie met kennis van zaken,
maar ook een snel en krachtig antwoord vanwege beleidsmakers. -
Intellectuele duurzaamheid, gebaseerd op menselijk auteurschap en eerlijk
gebruik van data, is geen trivialiteit die we in handen moeten leggen van
onbetrouwbare techbedrijven.
https://www.standaard.be/cnt/dmf20230123_97406419?adh_i=&imai=&articlehash=BW7fddkT0fXu0D3%2FZDLrm8cxhUh8jVR2Tc1S8Vr9K8
RYYHTbrGgm5YMnAEwEA%2FIxk4MJFSRoMAgyyPjrO1uZnTf%2FGL5DZFAREjNMnSeTh7UQQymBsnEUg8im%2FwzGNaUCt2MIU6%2BgLf
0nWpNE1bFd0WfANcMxnFz0smtuSzx5uyOlrnGKdBKA3Npm2CQBpcuUzIzzGgPSLjtzzap%2Ff%2Btv4YkrpCZ1l4zSNEa4PObiB27blJL%2B8A%2
B1oovuXG9LPM3Eb0qfUhaJh5xWfgtbR8Vc%2Fza5GMquiyP1HHTyAqglTRXc8Mr9JTnA1BtFXPr1Q1RR0%2BzNzPN9aCj9vyZHQkITtw%3D%3
D
Taaltechnologie is meer dan spraakherkenning
03 OKTOBER 2000 OM 00:00 UUR | Hans Baeyens

Bij veel mensen is taaltechnologie synoniem voor sprekende computers of voor


spraakherkenning op de pc. Dat zijn twee bijzonder spectaculaire toepassingen, maar
taaltechnologie omvat veel meer. Bovendien komt er heel wat onderzoek en ontwikkeling aan
© rr te pas voor je aan kant-en-klare producten kunt denken.

Een kleine rondgang door het linguistic engineering department van Lernout & Hauspie leert ons
dat je niet zonder een heleboel hulpmiddelen kunt voor je nog maar kunt denken aan toepassingen
of kant-en-klare producten. André Schenk, vice-president van het linguistic engineering
department: ,,Wij zijn actief rond drie soorten databases: lexicale databases, in feite elektronische
woordenboeken of woordenlijsten, akoestische databases, waarin we alle klanken of
klankcombinaties opslaan voor een bepaalde taal, en elektronische tekstcorpora''.

Van Dale verbeterd


Wie niet houdt van geduldwerk, moet zich zeker niet bezighouden met het aanmaken van lexicale
databases. In eerste instantie zijn dat niet meer dan woordenlijsten, maar dan wel op de computer.
Naast voor de hand liggende extra informatie zoals geslacht of woordsoort is ook de uitspraak van
het woord erg belangrijk.

Lernout & Hauspie gebruikt hiervoor niet het gewone fonetische alfabet, maar een eigen variant die
gemakkelijker in te voeren is via een gewoon toetsenbord. Wanneer er al een tekst-naar-spraak
engine bestaat voor de taal in kwestie, kan de taalkundige meteen een auditieve controle krijgen of
de fonetische weergave wel degelijk klopt.

Ook op andere vlakken zijn een heleboel controles en hulpmiddelen ingebouwd. Die moeten het
mogelijk maken om sneller en vooral eenduidiger te werken, niet alleen om vergissingen te
vermijden, maar ook om een zo consistent mogelijke database te verkrijgen.

Voor deze lexicale databases werkt men het liefst met taalkundigen die deze taal ook als
moedertaal hebben, of er toch minstens heel goed mee vertrouwd zijn. Voor sommige talen zoals
het Noors of Pools werkt men samen met buitenlandse partners die een deel van het basiswerk
voor hun rekening nemen, maar de controle gebeurt nog altijd door L&H zelf.

Momenteel heeft men lexicale databases voor een vijftiental talen, maar er zijn plannen voor nog
eens twintig extra talen, waaronder het Farsi, Perzisch, Turks en Hindi.

Bovendien is zo'n lexicale database nooit af. Daarom probeert men zoveel mogelijk teksten te
verzamelen en te integreren in elektronische tekstcorpora. Hierbij moet je niet alleen denken aan
teksten uit kranten of tijdschriften, maar ook aan documenten gebruikt in het bedrijfsleven of zelfs
afkomstig uit de juridische of medische sector. Dit is belangrijk voor toepassingen zoals
spraakherkenning of automatische vertaling: die moeten niet alleen courante woorden kunnen
vertalen of herkennen, maar ook nieuw (gebruikte) woorden, eigennamen of sommige vaktermen.

Dat klinkt eenvoudiger dan het is: veel uitgeverijen zijn bang dat hun teksten op een of andere
manier toch openbaar worden gemaakt en natuurlijk moet ook de privacy van de betrokkenen
worden gerespecteerd.

Boeren en buitenlui
Naast de lexicale databases zijn de akoestische databases even belangrijk. Die bevatten per taal
alle klanken en klankcombinaties. Daarvoor volstaat het niet om gewoon met een microfoon
woordjes op te nemen. De uiteindelijke bedoeling is immers dat woorden herkend worden onder de
meest uiteenlopende omstandigheden. Daarom vinden er ook opnames plaats in lawaaierige
kantooromgevingen, in de auto of via de telefoon.

Om de regionale verschillen of dialectinvloeden op te vangen, rekruteert men mensen uit


verschillende regio's of streken die bepaalde teksten moeten voorlezen. Ook de verhouding
mannen/vrouwen en de leeftijd van de (in)sprekers worden in aanmerking genomen om een zo
accuraat mogelijk akoestisch model te bekomen.

Overigens maakt Lernout & Hauspie niet alles zelf. Er is zoals gezegd een samenwerking met
buitenlandse partners en af en toe worden er ook gewoon databases aangekocht, waarbij het
linguistic engineering department een kwaliteitscontrole uitvoert en later zorgt voor de integratie in
de eigen systemen.

De lange rij overnames, waarbij DictaPhone of Dragon maar de meest recente zijn, maakt dat LHS
nu met een amalgaam van bedrijven en systemen zit. Daarom houdt men in Ieper ook een
catalogus bij van beschikbare databases, engines enzovoort, die bij alle filialen en partners worden
gebruikt. Het is de bedoeling op langere termijn zowel de databases als de gebruikte methodes
zoveel mogelijk te consolideren naar één standaard, maar dat is een werk van lange adem. Je kunt
een database niet zomaar converteren naar een ander formaat, als ook de applicatie die hiervan
gebruikt maakt, niet mee wordt aangepast om het nieuwe formaat te herkennen.

© rr
Pardon?
Met de tekst-naar-spraak engines (TTS) gaan we al meer in de richting van de toepassingen. LHS
heeft verschillende spraakengines, gaande van RealSpeak tot TTS 3000 en TTS2500. Die
verschillende engines zijn noodzakelijk in functie van de beschikbare processor en geheugenruimte
op het systeem waarop de engine zal draaien. Draagbare systemen of systemen in de auto hebben
nu eenmaal minder mogelijkheden dan volwaardige pc's of systemen die speciaal voor deze
toepassingen werden ontworpen.

Dat betekent helaas ook dat het eindresultaat verschillend is. Bij RealSpeak kun je nog amper
horen dat het om een computerstem gaat, maar bij de andere engines is dat (nog) niet het geval.
Het hangt natuurlijk ook af van de uiteindelijke toepassing. Bij een sprekend woordenboek is een
correcte en goed verstaanbare uitspraak bijvoorbeeld belangrijker dan bij een toepassing die e-
mails kan voorlezen. In dat laatste geval moet de TTS-engine niet alleen de tekst kunnen
omzetten, maar ook in staat zijn om bepaalde elementen zoals e-mailadressen, handtekeningen en
technische informatie in de e-mail header te herkennen en te scheiden van de eigenlijke e-
mailboodschap.

De eigenlijke omzetting gebeurt in verschillende fases, zoals linguistic processing , prosody


modelling en ten slotte de synthese. Afhankelijk van de engine gebruikt men zowel een
woordenboek als bepaalde rules. Het proces gebeurt voor een groot stuk automatisch, maar in
sommige fases moet een taalkundige toch nog ingrijpen en bepaalde uitspraakregels mee in het
systeem inbrengen. In de laatste fase, de synthese, wordt in RealSpeak gebruikt gemaakt van
vooraf opgenomen klanken -- diphonen met name -- wat natuurlijk voor het beste resultaat zorgt,
maar ook veel opslagruimte vraagt.

De engines zijn uiteraard beschikbaar in verschillende talen. Maar omdat mensen en middelen niet
onbeperkt zijn, wordt hier wel gekeken naar de vraag, zowel vanuit de eigen afnemers als vanuit
klanten of prospecten om een bepaalde engine in deze of gene taal te ontwikkelen.

Taal en geld
Met databases en engines alleen kom je natuurlijk niet ver. Er moeten ook producten komen. En
daarbij zijn algemene pakketten voor de pc zoals Voice Xpress of Power Translator slechts het topje
van de ijsberg. Het echte geld zit hem in meer gespecialiseerde toepassingen, of althans
toegespitst op bepaalde sectoren.

Spraakherkenning in de medische of juridische sector bijvoorbeeld, waar er gewoonweg geen


valabel alternatief is voor het verwerken van massale hoeveelheden ingesproken rapporten,
protocollen en conclusies. Hier leidt spraakherkenning tot een enorme besparing, al was het maar
omdat er veel mankracht -- in de praktijk meestal vrouwkracht -- uitgespaard wordt. Het
prijskaartje is meestal navenant, maar dat is geen bezwaar.
Een andere grote afzetmarkt zijn spraakherkenning en tekst-naar-spraak systemen via de telefoon.
Het simpelste voorbeeld is de gsm die je met je stem kunt bedienen, maar het gaat veel verder.
Banken en verzekeringsmaatschappijen, call centers, openbaar vervoersmaatschappijen: allemaal
zijn ze geïnteresseerd om hun producten of diensten -- stemgestuurd -- aan te bieden via de
telefoon.

Maar hier zijn de belangen hevig en de concurrentie groot. Die komt van de traditionele
telecomoperatoren, de AT&T's en Motorola's van deze wereld, van andere bedrijven actief in
telefonie en spraakherkenning zoals Philips, of van computergiganten als IBM.

Bovendien zijn er nog een heleboel kleinere bedrijven die gespecialiseerd zijn in een deelgebied
zoals telefonisch bankieren of internetbankieren. Die hebben wel meestal niet de middelen om een
compleet eigen oplossing te ontwikkelen en kopen daarom onderdelen aan -- de zogenaamde
engines waarvan sprake -- al dan niet via een licentiesysteem.

Voor tekst-naar-spraak systemen zijn er nog wel meer toepassingen. Denk maar aan systemen
voor het telefonisch opvragen en laten voorlezen van je e-mails, of aan navigatiesystemen die je
stemgestuurd de weg wijzen. Maar ook hier is de concurrentie hevig en is samenwerking met
andere partners (internetproviders, elektronica- of autofabrikanten) een must.

Bovendien is het niet al goud wat blinkt. Je e-mails laten voorlezen via je gsm is eigenlijk maar een
tijdelijke oplossing. Snellere netwerken en technologieën zoals GPRS of de nieuwe UMTS-
netwerken, gekoppeld aan krachtiger gsm's of PDA's, kunnen deze technologie overbodig maken.

En ten slotte zijn er nog de automatische vertaalsystemen en programma's. Een onderzoeksgebied


waar al miljoenen uren en miljoenen euro's in zijn gepompt. De resultaten zijn -- om een kat een
kat te noemen -- niet erg hoopvol. De huidige systemen en programma's zijn net in staat om je
een idee te geven van waar een bepaalde tekst in een andere taal over gaat, meer niet.

Dat je binnenkort via de telefoon vlot zult kunnen praten met een Chinees, waarbij iedereen zijn
eigen moedertaal spreekt en de combinatie van spraakherkenning, machinevertaling en tekst-naar-
spraak zorgt voor de rest, is misschien geen sciencefiction, maar toch nog jaren weg. Dat belet
natuurlijk niet dat er geen markt voor zou zijn. Ook een ruwe vertaling kan nuttig zijn, zeker als er
daarna een mens aan te pas komt om die ruwe vertaling te corrigeren en bij te stellen. Dat er
dankzij de economische mondialisering en de uitbreiding van het Internet een steeds grotere
behoefte bestaat aan vertaaldiensten, brengt dit enigszins negatieve plaatje terug in balans.

https://www.standaard.be/cnt/dsm03102000_003?&articlehash=Ondo%2
Ffo%2FN7xiXV3Tof7xIIvgjutQ7rIK8OSOGkhUMw4pehCGyb6eurkWhmPL
Z0TN67JLX7TGaWArSrqbz56jZZU4uwzKCGLXme0RcDcsItY8IG%2Fmna
wQ8qSkbSNNh7yKoWXbXZGhVHGXvzGrtgDK0XwPsYTY1m0SUMID6D
%2FiTjsBIgEPR6YWtzr9zTuJ1D5IH8wTei9dTGABGLk%2BPSeZFexMwH
UDxQizu81NW9axYw9uvarEHyRzj%2BxEhB4xwvTxgCgnd4BP8OAQUW6
EILPsLMooo%2FgJuh6qIjUeyLGy%2BvotDzd2GD512SBD0Sp%2BxC%2Fi
%2BYWgKpBfIyoXo%2B75WCcLDA%3D%3D

You might also like