Professional Documents
Culture Documents
Taaltechnologie - Artikels
Taaltechnologie - Artikels
Het is voor docenten steeds moeilijker om hun leerlingen de begeleiding te geven die ze nodig
hebben. Meer en meer scholen werken met individuele studietrajecten met veel opdrachten en
maken gebruik van forums en mail. Het kost dan veel tijd om elke leerling goed te kunnen
volgen en helpen als hij dat nodig heeft. Uit onderzoek is onlangs dan ook gebleken dat
docenten uit het hoger onderwijs graag toepassingen zouden zien die hun werk minder
tijdsintensief maken. Te denken valt bijvoorbeeld aan software die automatisch vragen van
studenten beantwoordt, werkstukken nakijkt of achtergrondinformatie toegankelijk maakt.
Al deze toepassingen zijn voorbeelden van e-learning waarbij taaltechnologie een belangrijke
rol zou kunnen spelen. Taaltechnologie is een vorm van automatische verwerking van taal.
Hoewel deze techniek nog volop in ontwikkeling is, maakt bijna iedereen er wel al regelmatig
gebruik van. Denk maar eens aan zoekmachines zoals Google of plagiaatsoftware die nakijkt
of een werkstuk niet van internet is geplukt. Ook de spelling- en grammaticacontrole in je
tekstverwerker is een vorm van taaltechnologie.
De tijden waarin de hele klas een uur lang naar de docent luistert zijn allang voorbij.
Tegenwoordig werken studenten veelal zelfstandig, waarbij veel gebruik wordt gemaakt van
internet.
Taaltechnologie
Er zijn verschillende manieren om tekst met behulp van een computer te analyseren. Een
manier is door middel van grammaticale analyse. De computer krijgt dan de formele regels
van een grammatica aangeleerd en kan daarmee de taal ‘begrijpen’. Een andere manier is een
statistische methode. Hierbij ziet de computer een tekst alleen als een verzameling woorden,
dus zonder onderlinge regels. Door te kijken naar grote hoeveelheden teksten, weet de
computer welke woorden regelmatig in dezelfde context voorkomen en dus waarschijnlijk
met elkaar in verband staan. Vergelijk de volgende zinnen maar eens:
-De buurman rijdt in een luxe Volvo. -Tineke neemt altijd de trein naar haar oma. -Henk gaat
met de auto naar zijn werk. -Anja gaat met de fiets naar school.
Wij mensen weten dat een Volvo, een trein, een auto en een fiets vervoersmiddelen zijn. De
computer leert dit door heel veel van dit soort zinnen en hun context te bekijken. Met deze
methode kan de computer dus aangeven dat twee woorden erg op elkaar lijken of dat een
vraag over een bepaald onderwerp gaat.
Nederlandse kennis
In maart 2008 is een Europees project gestart dat zich bezighoudt met de ontwikkeling van
nieuwe taaltechnologische toepassingen in het onderwijs. De komende 3 jaar zullen 10
partijen, vooral universiteiten en enkele bedrijven, zich inzetten voor dit LTfLL-project, wat
staat voor Language Technologies for Lifelong Learning. Vanuit Nederland dragen de Open
Universiteit, de Universiteit Utrecht en Aurus KTS b.v. hun steentje bij. Dit zijn alle drie geen
onbekenden in het vakgebied.
Zo hebben onderzoekers van de Open Universiteit onlangs onderzocht hoe docenten kunnen
worden ondersteund met behulp van software die helpt vragen van leerlingen te
beantwoorden. Dankzij de software hoeven de docenten niet meer de hele avond achter hun
computers mailtjes te beantwoorden. Het programma beoordeelt automatisch over welk
onderwerp de vraag van de leerling gaat en stuurt deze vervolgens door naar een andere
student die al meer van dit onderwerp afweet. Tegelijk stuurt de software ook enkele
automatisch geselecteerde tekstfragmenten mee over het onderwerp. De studenten kunnen
elkaar zo helpen. Uit het onderzoek blijkt dat meer dan 70% van de vragen zo opgelost
worden en dat de leerlingen het een fijne manier van werken vinden. De leerling met de vraag
krijgt de uitleg die hij zoekt en de leerling die helpt kan door de vraag dieper over de stof
nadenken.
De Universiteit Utrecht was al betrokken bij het LT4eL-project, Language Technology for
eLearning. In dit project hebben de onderzoekers taaltechnologie en semantische netwerken
ingezet om automatisch informatie uit bronnen te halen. De toepassingen die zijn ontwikkeld
in dit project kunnen bijvoorbeeld automatisch de trefwoorden van een tekst bepalen of een
woordenlijst met definities maken. Zo kan een student snel en makkelijk aan de informatie
komen die hij nodig heeft. Tot slot heeft ook Aurus KTS veel ervaring met e-learning en
kennismanagement.
Beginner of expert?
In het LTfLL-project gaan de Europese onderzoekers nog een stapje verder. Ze gaan
onderzoeken hoe taaltechnologie op drie verschillende onderdelen van het onderwijs ingezet
kan worden. In het eerste onderdeel richten de onderzoekers zich vooral op de
zogenaamde positionering. Hiermee wordt het vaststellen van het niveau van de leerling op
een bepaald kennisgebied bedoeld. Het uitgangspunt hiervan is dat naarmate je meer van een
bepaald onderwerp afweet, je er ook anders over gaat praten en schrijven. Je gebruikt andere
termen en ziet relaties die je eerder nog niet zag.
De wetenschappers van LTfLL willen automatisch vast kunnen stellen of een student op het
voor haar gewenste niveau werkt voor een bepaald vakgebied, bijvoorbeeld als een beginner,
een expert of meer ertussenin. Voor een beginner doen ze dit door de teksten van een student
te vergelijken met teksten van ‘voorbeeld-beginners’. De software zal hierbij vooral kijken of
de gebruikte begrippen en de relaties die daartussen gelegd worden overeenkomen met die
van de voorbeeld-beginners. Afhankelijk van de verschillen en overeenkomsten in de teksten,
zal de software adviseren of er onderwerpen zijn waar het verstandig is om nog extra aan te
werken.
Feedback
In het tweede onderdeel kijken de onderzoekers hoe taaltechnologie studenten automatisch
kan ondersteunen bij specifieke opdrachten. Stel je voor dat je leraar als opdracht geeft om de
symptomen van suikerziekte in kaart te brengen. Je mag dit in je eentje doen door een
samenvatting in te leveren, maar je mag ook met een groepje werken en met behulp van een
forum- of chatomgeving de opdracht maken. Als je alleen hebt gewerkt, geeft de software je
automatisch feedback of je alle symptomen hebt behandeld. Bij de groepsopdracht wordt
daarnaast ook nog de samenwerking bekeken: heeft iedereen wel een bijdrage geleverd aan de
opdracht en wie heeft de discussie geleid?
Het werk van een leraar houdt niet op zodra de schoolbel is gegaan. Vaak is hij nog uren
bezig met nakijken, vragen beantwoorden en vergaderen. Als hij straks de toepassingen uit het
LTfLL-project kan gebruiken, zal hem dat veel tijd schelen.
Kennis delen
In het derde onderdeel van LTfLL gaan de onderzoekers bekijken hoe kennis het beste
gedeeld en toegankelijk gemaakt kan worden. Vroeger hielden alleen bibliotheken en scholen
zich bezig met het verstrekken van studiemateriaal. Met de komst van het internet is er echter
een gigantische hoeveelheid extra materiaal beschikbaar gekomen, bijvoorbeeld via
Wikipedia of YouTube. Het is nu niet langer de kunst om materiaal te vinden, maar wel om
de juiste informatie te vinden. Dat betekent dat je de juiste zoektermen moet gebruiken en dat
je goed moet kunnen inschatten van welke kwaliteit het gevonden materiaal is.
Het is de bedoeling dat studenten met behulp van taaltechnologie een betere keuze kunnen
maken en zo dus met beter studiemateriaal zullen werken. De wetenschappers willen in dit
deel van het project een speciale leeromgeving creëren die studenten helpt bij het selecteren
van het beste lesmateriaal. Dit kan door bijvoorbeeld automatisch geschiktere zoektermen aan
te dragen. Hiervoor kunnen ‘tags’ van de studenten gecombineerd worden met trefwoorden
uit het vakgebied en uit de tekst zelf. Ook zal gebruik gemaakt worden van kwaliteitsscores
die andere studenten aan het materiaal gegeven hebben
Beschikbaarheid
De toepassingen uit het LTfLL-project zijn nog niet klaar. Tot begin 2011, wanneer het
project afloopt, zullen de onderzoekers wel al zoveel mogelijk de toekomstige gebruikers
betrekken bij hun onderzoek. Dit doen ze door evaluaties, workshops en door alle ontwerpen
te beschrijven in scenario’s in gewone taal met een uitleg van de onderwijssituatie en de rol
en de verwachtte bijdrage van alle deelnemers. Scholieren en studenten zullen het voorlopig
dus nog even moeten doen met Google en de spellingchecker, maar een hele nieuwe generatie
aan taaltechnologische toepassingen is al onderweg naar het onderwijs.
https://www.nemokennislink.nl/publicaties/taaltechnologie-in-het-onderwijs/
De computer kan woorden voorspellen
Auteur: Erica Renckens | 10 oktober 2008
LEXICON (8)
Vandaag spreekt Antal van den Bosch aan de Universiteit van Tilburg zijn
oratie uit. De nieuwe hoogleraar Geheugen, taal en betekenis legt hierin uit
hoe een computer op basis van een groot aantal teksten woorden kan
voorspellen. Het model werkt op basis van waarschijnlijkheid en begrijpt
dus niet echt de grammatica en de betekenis van de taal.
Met het uitspreken van zijn oratie begint professor Antal van den Bosch vandaag
officieel als hoogleraar Geheugen, taal en betekenis aan de Universiteit van Tilburg.
Antal van den Bosch pleit er vandaag in zijn inaugurele rede voor dat taal- en
spraaktechnologen niet langer gebruik maken van expliciete taalmodellen, maar van
impliciete taalmodellen die analoog redeneren. Bij analoog redeneren wordt gebruik
gemaakt van informatie uit een grote collectie eerder verzamelde teksten. Als in die
opgeslagen teksten bijvoorbeeld “terugwerkende” meestal gevolgd wordt door
“kracht”, dan is de kans groot dat dit een volgende keer weer zo zal zijn.
Constructicon
Om zeker te kunnen zijn van zulke voorspellingen moet je beschikken over heel veel
teksten. Deze teksten moet de computer eerst uitgebreid analyseren, waarbij hij een
gigantische lijst maakt van alle rijtjes woorden die altijd opgevolgd worden door één
specifiek woord of misschien zelfs wel meerdere woorden. Ieder woord kan
verschillende keren in de lijst voorkomen, want woorden kunnen immers in veel
verschillende contexten voorkomen. “Zeg” komt niet alleen voor in “kom nou zeg”,
maar ook in “ik zeg maar zo” of “zeg eens” en in nog veel meer rijtjes woorden.
Computers kunnen tegenwoordig heel makkelijk zo’n lijst samenstellen, opslaan en
toegankelijk maken. De lijst lijkt een beetje op een woordenboek ( lexicon), maar dan
van vaste zinsconstructies. Men noemt het daarom ook wel een constructicon.
Impliciete grammatica
Maar hoe goed kan zo’n systeem nou voorspellen hoe een zin afgemaakt moet
worden? Dat hangt vooral af van de grootte van de collectie teksten waarop hij zijn
voorspelling baseert. Voorlopig liggen de resultaten tussen de 6% en de 50% correct
voorspelde woorden. Elke keer dat de hoeveelheid tekst in de database verdubbelt,
stijgt dit percentage. Enerzijds komt deze stijging doordat de computer bekende
zinsconstructies weer vaker tegen komt, zodat de kansverdeling uitgebreider wordt.
Anderzijds zal hij in nieuwe teksten ook weer nieuwe woorden en nieuwe
zinsconstructies tegenkomen, waardoor zijn lijst completer wordt.
De woorden die de computer het best voorspelt zijn over het algemeen woorden die
vaak voorkomen. Daarvoor heeft hij immers de meeste statistieken en kan hij met de
grootste zekerheid een keus maken. Bij woorden die fout gaan, valt echter op dat de
computer wel al in de juiste richting zoekt. Als het systeem “tweede” voorspelt in
plaats van “eerste”, is dat officieel fout, maar hij zit wel dicht in de buurt. Het systeem
beschikt dan niet over expliciete grammaticale kennis zoals de ‘oude’ systemen,
maar impliciet lijkt hij er toch heel wat van af te weten.
Voorspellen…en dan?
In de praktijk zal je niet vaak een systeem nodig hebben dat je zinnen af kan maken.
Het door Antal van den Bosch voorgestelde systeem kan echter voor veel meer
toepassingen gebruikt worden. Zo kan het dienen als spellingchecker door jouw
tekst te vergelijken met zijn collectie. Grote kans dat jouw “ik wordt” fout is, als hij in
zijn constructicon alleen maar “ik word” heeft staan. Als het systeem wordt
uitgebreid met een groot aantal vertalingen tussen verschillende talen, kan de
computer ook automatisch teksten gaan vertalen. Google heeft al een vertaaldienst
opgezet dat volgens dit principe werkt. De nieuwe hoogleraar Van den Bosch is van
plan om tijdens zijn ambt dit taalkundig model van analoog redeneren verder te
ontwikkelen.
https://www.nemokennislink.nl/publicaties/de-computer-kan-woorden-
voorspellen/
Computer leert grammatica
Auteur: Inge Janse | 14 september 2005
COMPUTER (117)
Een andere interessante toepassing van ADIOS zou zijn om een computer de
befaamde Turing-test met succes te laten uitvoeren. Aan deze in 1950
ontwikkelde test doen twee mensen en een taalsprekende computer mee. De
eerste proefpersoon dient door vragen te stellen te bepalen wie de computer
is en wie de tweede proefpersoon is. De Britse wiskundige en logicus Turing
stelde toentertijd dat door middel van deze test er een onderscheid gemaakt
kan worden tussen computergegenereerde tekst en menselijke taal. In een
beroemde uitspraak van Turing stelde hij dat aan het einde van de 20e eeuw
een computer met tien gigabyte werkgeheugen in staat zou zijn om dertig
procent van de ondervragers na vijf minuten te laten geloven dat de computer
een mens is. Tot nu toe is dit nog niet gelukt: de enige computer die de test
heeft gewonnen was de sprekende HAL9000 in Arthur C. Clarke’s beroemde
boek ‘2001: A Space Odyssey’ .
https://www.nemokennislink.nl/publicaties/computer-leert-grammatica/
OCR: van papier naar scherm
Auteur: Erica Renckens | 16 januari 2009
TAALTECHNOLOGIE (43)
Met behulp van Optical Character Recognition (OCR) is het mogelijk
om een tekst op papier om te zetten naar een tekst op je
computerscherm. De techniek werkt echter nog verre van perfect: de
digitale tekst staat vaak vol met herkenningsfouten. Wetenschappers
hebben verschillende taaltechnologische oplossingen bedacht om
deze fouten automatisch te corrigeren.
Stel, je schrijft een brief en wilt die vandaag nog met je vrienden aan de andere
kant van het land delen. Opsturen via de post is dan geen optie. Of je hebt een
tekst op papier waarvan je de opmaak zou willen veranderen. Als je gaat
knippen en plakken zal het een zooitje worden. En overtypen duurt te lang.
Gelukkig is het mogelijk om deze teksten automatisch zo te digitaliseren dat je
ze vervolgens ook nog kunt bewerken. Deze techniek heet OCR, wat staat
voor Optical Character Recognition. In het Nederlands wordt ook wel
gesproken van Optische Tekenherkenning.
Tekenherkenning
OCR-software kan pas gebruikt worden, nadat eerst een goede digitale
afbeelding van de tekst is gemaakt. Deze kan je maken met een scanner. Hoe
hoger de kwaliteit van de scan, des te beter de tekst vervolgens door de
computer herkend kan worden. Een scan van 72 dpi (dots per inch, het aantal
puntjes gemeten per 2,54 cm) geeft een klein document met een lage resolutie.
De computer zal moeite hebben om in deze afbeelding te onderscheiden wat
tekst is en wat toevallige vlekjes op het papier zijn. De meeste gebruikers van
OCR maken scans van minimaal 300 dpi.
Twee scans van dezelfde tekst. De linker scan is gemaakt met 75 dpi en de rechter met
600 dpi. De computer zal de linker tekst niet kunnen herkennen, omdat de resolutie te
laag is. De resolutie van de rechter afbeelding is wel hoog genoeg, maar de computer zal
veel moeite hebben met het onregelmatige handschrift.
Als je eenmaal een goede scan hebt gemaakt, kan je deze laden in de speciale
software voor optical character recognition. Deze software zit soms al
bijgeleverd bij de scanner, of is anders makkelijk te verkrijgen via internet of
een winkel. De bekendste programma’s zijn OmniPage en Abbyy Finereader.
De software begint niet gelijk met het ontcijferen van de tekst. Eerst kijkt hij
hoe de ingescande pagina is ingedeeld. Waar staat tekst en wat zijn
afbeeldingen of vlekjes op het papier? Staat er één lap tekst op de afbeelding of
is de tekst ingedeeld in kolommen? Is de tekst recht ingescand of staat hij een
beetje scheef? Pas als hij heeft vastgesteld wat tekst is en hoe deze op de
afbeelding loopt, begint de computer met de tekenherkenning.
Training
Het tekstdocument dat de OCR-software zonder enige training uitspuugt zit
dus waarschijnlijk vol fouten. Als de software het lettertype van jouw tekst
niet kent, is het een goed idee om de software eerst te trainen voor hij aan de
tekenherkenning begint. Dit kan bijvoorbeeld nodig zijn bij een heel oud
krantenartikel waarvan het lettertype niet meer gebruikt wordt. In de
trainingsfase leer je de computer handmatig welke vorm op de scan
correspondeert met welke letter. Je leert hem dus in feite een nieuw lettertype.
Als de software nu aan de slag gaat met de tekenherkenning zal de herkende
tekst al een stuk leesbaarder zijn.
Voor het herkennen van handschriften is het allemaal nog net wat lastiger. In
tegenstelling tot bij een getypte tekst, verschillen dezelfde letters in een
handgeschreven tekst altijd wat van elkaar. De ene ‘e’ is net wat anders dan de
andere ‘e’, afhankelijk van de letters die er omheen staan, de vermoeidheid
van de schrijfhand en zo nog een paar factoren. Training zal hierbij dus niet
voor veel verbetering in de tekenherkenning zorgen. De meeste commercieel
verkrijgbare OCR-software is dan ook niet zo geschikt voor
handschriftherkenning. De techniek loopt flink achter op de ‘reguliere’ OCR en
wordt voornamelijk gebruikt door bedrijven voor schrift in een vaste opmaak,
zoals de postcode op een envelop of de blokletters op een ingevuld formulier.
Formulieren die automatisch verwerkt zullen worden moet je meestal invullen met
blokletters. Op die manier is er het minste variatie tussen verschillende handschriften en
zal de computer de tekst het best herkennen. Zulke formulieren zijn meestal heel strak
vormgegeven: je ziet precies wat je in welk vakje in moet vullen en nergens is ruimte
voor extra commentaar. Dat zou weer te onvoorspelbaar zijn voor de computer.
Taaltechnologie
Training vindt plaats vóór de software begint met de tekenherkenning, maar je
kan ook nog heel wat verbeteren ná de tekenherkenning. Dit
wordt postprocessing genoemd. Zo goed als alle OCR-software is tegenwoordig
voorzien van verschillende lexicons. Dit zijn een soort woordenboeken van
verschillende talen. Na de automatische tekenherkenning stelt de software (of
de gebruiker daarvan) vast in welke taal de tekst is geschreven. Lang niet alle
herkende woorden zullen in het lexicon voorkomen: sommige zijn nieuwe
samenstellingen, andere heeft de software verkeerd herkend. Hiervoor gaat de
software vervolgens op zoek naar vervangers: woorden die sterk lijken op het
herkende woord, maar die wel in het lexicon staan.
Maar hoe bepaalt de computer nu precies welk woord het wél had moeten
zijn? Hij kan bijvoorbeeld berekenen welk woord het dichtst bij het herkende
woord ligt. Het is waarschijnlijker dat ‘ontiokken’ ‘ontlokken’ had moeten zijn
(1 verandering) dan dat het ‘intrekken’ had moeten zijn (3 veranderingen).
Toch werkt dit niet altijd: misschien was het wel een vreemde tekst over
vrouwen wiens rokken worden afgenomen: het ‘ontrokken’ van vrouwen.
Het is ook mogelijk om de computer te laten leren van zijn eigen fouten. Als je
weet dat hij de ‘i’ en de ‘l’ vaak verwisselt, is het logisch om dat eerst te
proberen om te zien of er een bestaand woord uit komt. Dit werkt echter
vooral als je al weet welke verwarringen (zogenaamde confusies) veel
voorkomen in je ge-OCR-de tekst. Hierdoor is deze techniek vooral bruikbaar
bij hele grote tekstbestanden.
Toepassingen
Hoewel optische tekenherkenning dus nog altijd niet helemaal perfect werkt,
wordt er wel al flink gebruik van gemaakt. Veel bedrijven werken met
formulieren die je met blokletters in moet vullen, zodat de computer ze
vervolgens automatisch kan verwerken. Dit gaat al erg goed, omdat van te
voren al duidelijk is waar een letter begint en eindigt (één letter per vakje), en
omdat iedereen blokletters ongeveer hetzelfde maakt. Er is dus niet veel
variatie die het de computer moeilijk maakt.
Dat gebrek aan variatie in de tekst werkt ook in het voordeel van automatische
nummerbordherkenning. De politie kan dankzij deze techniek snel een
nummerbord herkennen, met behulp van een speciale scanner. Zo kunnen de
agenten zelfs nog bij 160km per uur snel uitvinden of de auto bijvoorbeeld
gestolen is. Ook kan de techniek gebruikt worden bij tolwegen, om te
berekenen hoe lang de auto over de route heeft gedaan.
Er zijn al een tijdje speciale OCR-pennen te koop. Er bestaan twee soorten. Met de linker,
een scanpen, kan je eigenlijk niet schrijven; deze pen scant alleen regel voor regel de
tekst. Met de andere pen (rechts op de afbeelding) kan je wel schrijven, zodat je je tekst
tegelijk op papier en op je scherm krijgt.
Ten slotte zijn er sinds enige jaren ook speciale OCR-pennen op de markt. Er
zijn leespennen, die je als een mini-scanner regel voor regel over de tekst
haalt. De scan kan vervolgens naar de computer verstuurd worden die de tekst
herkent. Maar er zijn ook schrijfpennen. Met zo’n pen kan je gewoon op papier
schrijven, maar er zit bovendien een speciale sensor in die de bewegingen die
je maakt registreert. Deze bewegingen geeft de pen door aan de computer die
ze omzet in een digitale versie van je tekst. Omdat deze herkende tekst zeker
niet foutloos zal zijn, zal je hem altijd nog handmatig moeten nakijken en
verbeteren.
https://www.nemokennislink.nl/publicaties/ocr-van-papier-naar-scherm/
Text mining: Als je niet weet wat je zoekt
Auteur: Erica Renckens | 23 januari 2009
TAALWETENSCHAPPEN (444)
Als je weet wat je zoekt, kan je met een zoekmachine simpel in documenten zoeken. Als je
niet precies weet wat je zoekt, maar alle relevante informatie uit een grote hoeveelheid
documenten wil filteren, kan je gebruik maken van text mining. De nieuwe Maastrichtse
bijzonder hoogleraar Text mining, Jan Scholtes, legt in zijn oratie uit wat text mining is en
wie het gebruikt.
In dit artikel legt Prof. dr. ir. Jan Scholtes, de nieuwe bijzonder hoogleraar Text
mining, uit wat text mining is, welke technieken erachter schuilgaan en wie er
allemaal gebruik van kunnen maken. Zonder dat we het merken komen we in
ons dagelijks leven al regelmatig met text mining in aanraking.
Professor Scholtes legt in zijn oratie uit dat text mining een variant is van data
mining. Bij data mining zoekt de computer naar patronen in grote
hoeveelheden gegevens. Het verschil met text mining is dat de gegevens voor
data mining gestructureerd zijn: het is van te voren bekend of het gaat om
bijvoorbeeld data, prijzen of plaatsnamen. Bij text mining weet je van te voren
niet welke informatie in de teksten staat – de gegevens zijn dus
ongestructureerd. Een computer begrijpt echter geen taal, hij kent alleen enen
en nullen. Er komt dus de nodige techniek bij kijken voor de computer je kan
vertellen welke patronen hij in de teksten ziet. Hoe gaat dat in zijn werk?
Entiteiten en attributen
Het proces van text mining is in te delen in drie fases: preprocessing, text
mining en presentatie. In de eerste fase bewerkt de computer de documenten
zo dat hij ze kan doorzoeken op patronen en relaties. Hij voert onder andere
een taalkundige analyse uit. Door deze analyse weet hij precies de
grammaticale structuur van de zinnen, weet naar wie er binnen de teksten
verwezen wordt (met bv ‘hij’ of ‘die’) en weet welke namen en synoniemen er
in de teksten voorkomen. In deze fase zet hij de documenten om in een taal
waarin hij kan werken.
Een plaatje zegt meer dan duizend woorden. De computer kan de verbanden
en patronen die hij vindt in grote hoeveelheden tekst op verschillende
manieren weergeven. Een voorbeeld is de boomdiagram zoals je die bovenin
ziet. Zo zie je duidelijk hoe verschillende entiteiten aan elkaar gerelateerd zijn.
Grote vlucht
Text mining wordt al best veel gebruikt. Zo kiest Google met behulp van text
mining welke advertentie het best geplaatst kan worden naast een ontvangen
mailtje. En attenderen sociale netwerksites je op personen met dezelfde
interesses als jij. De oorsprong van text mining ligt eigenlijk bij officiële
instanties als de inlichtingendiensten. Zij gebruiken de techniek om in grote
stapels gegevens te speuren naar aanwijzingen van fraude en criminaliteit. Ze
weten dan nog niet precies wat ze zoeken, maar willen wel snel weten wat er
in die documenten staat. Ook bedrijven gebruiken text mining om te peilen
hoe hun product (of die van de concurrent) door de consumenten wordt
ontvangen. Deze vorm van text mining heet opinion mining.
https://www.nemokennislink.nl/publicaties/text-mining-als-je-niet-weet-
wat-je-zoekt/
I sit with the hands in the hair
Auteur: Erica Renckens | 23 februari 2009
TAALWETENSCHAPPEN (444)
In China staat een restaurant genaamd “Translate Server Error”. De
eigenaar probeerde de naam van zijn restaurant te vertalen via Google
Translate of Babel Fish. Helaas zei de vertaling toch net iets anders dan hij
eigenlijk bedoelde. Waarom vertaalcomputers nog niet helemaal te
vertrouwen zijn..
Maxime Verhagen keek in 2007 vreemd op toen hij een mailtje kreeg van
Israelische journalisten die hem naar zijn moeder vroegen. Wat bleek: de
Israeliërs hadden het online vertaalprogramma Babel Fish gebruikt om hun
vragen om te zetten van Hebreeuws naar Nederlands. Helaas voor de
journalisten had Babel Fish het Hebreeuwse woord ’ha’im’ (indien) verward
met ’ha’ima’, Hebreeuws voor moeder. Een laatste check door iemand met wat
kennis van de vreemde taal was geen overbodige luxe geweest.
De eigenaar van dit Chinese restaurant had beter niet blindelings op zijn
vertaalsoftware kunnen vertrouwen toen hij een hippe naam voor zijn
etablissement uitzocht.
Bovenlinkerhoek
Beide methoden werken blijkbaar niet perfect. Dit komt doordat de computer
taal niet werkelijk begrijpt. Als in een tekst bijvoorbeeld het woord ‘vorst’
voorkomt, weet de computer niet of het om een lid van het koninklijk huis gaat
of om een weersomstandigheid. Hij zal uit de context moeten proberen op te
maken om welke betekenis het gaat. Ook vaste uitdrukkingen geven
problemen; die zijn meestal niet letterlijk te vertalen. Een Engelsman weet niet
wat je bedoelt als je zegt ‘I sit with the hands in the hair’. Ook de volgorde van
woorden is lang niet altijd één-op-één te vertalen. Zo is ‘top left corner’ in het
Nederlands geen ‘bovenlinkerhoek’, maar ‘linkerbovenhoek’.
Emotie
Hoe bruikbaar is deze techniek dan, als hij niet perfect werkt? “Automatisch
vertalen wordt toch veel gebruikt.”, legt de Tilburgse hoogleraar Antal van den
Bosch uit. “Met name in zogenaamde beperkte domeinen, zoals weerberichten
of technische handleidingen, waarin maar een beperkt aantal begrippen
gebruikt wordt.” Van den Bosch verwacht dat in de toekomst de domeinen
waarbinnen vertaald zal worden steeds breder zullen zijn. “De
regelgebaseerde methode zal zijn steentje kunnen bijdragen, maar de statische
methode is nodig om gezegden en uitdrukkingen te kunnen vertalen. Dat
maakt de vertaling echt af.” Helemaal overbodig zullen menselijke vertalers
nooit worden. “Als de tekst een emotie overbrengt, zoals een gedicht of een
roman, zal een mens het altijd beter kunnen vertalen dan een computer.”
Zie ook:
• Automatisch vertalen (Kennislink)
• “ Waar is het toilet voor misvormde
mensen?” (Kennislinkartikel)
• Google Translate
• Yahoo! Babel Fish
https://www.nemokennislink.nl/publicaties/i-sit-with-the-hands-in-the-hair/
“Waar is het toilet voor misvormde mensen?”
Auteur: Erica Renckens | 29 juli 2008
STEVIN (93)
China is de strijd aangegaan met het Chinglish, het Engels vol met fouten dat veel
Aziaten gebruiken. Het Chinglish lijkt zich echter alleen maar verder te
ontwikkelen. Leidt dit tot een nieuwe wereldtaal, het Panglish, of zullen er
verschillende varianten van het Engels uit voortkomen?
Vanaf het moment dat bekend werd dat de Olympische Spelen van 2008 in
China gehouden zouden worden, vecht de Chinese regering een verloren strijd
tegen het Chinglish, het Chinese Engels dat vaak vol fouten zit. Nog steeds vind
je overal in Peking, van menukaarten tot officiële bordjes, vaak grappige en
soms ronduit beledigende vertalingen. Kan jij in een restaurant kiezen tussen
een good to eat mountain, een burnt lion’s head en husband and wife’s lungs? En
zou jij je niet beledigd voelen als je als homo kweerboy genoemd werd of als
gehandicapte naar het deformed man lavatory moest?
Lingua franca
Waar komt dit Chinglish eigenlijk vandaan? En misschien belangrijker nog,
waar gaat het naartoe? Engels wordt overal ter wereld als lingua
franca gebruikt: als je op vakantie in Turkije met een winkelier wil
onderhandelen, doe je dat niet in het Turks of het Nederlands, maar in het
Engels. Bij het hoofdkantoor van LG Electronics in Seoel (Zuid-Korea) wordt
alleen nog maar Engels gesproken. Wereldwijd vindt zelfs het grootste deel
van de Engelstalige gesprekken plaats tussen mensen die een andere taal dan
het Engels als moedertaal hebben.
Panglish
De vraag is nu hoe deze varianten van het Engels zich verder zullen
ontwikkelen. Verbannen is zinloos, zoals blijkt uit de vruchteloze pogingen van
de Chinese regering. De sprekers ervan zijn er juist trots op, reclamemakers
pikken het op en het Hong Kong Museum of Art had vorig jaar zelfs een
Chinglish-expositie. De ontwikkeling van het Chinglish zal dus doorzetten,
maar taalkundigen zijn er nog niet over uit op welke manier.
Andere onderzoekers zijn nog niet zo zeker van deze taalkundige voorspelling.
Zij denken dat de ontwikkeling van het Engels meer zal lijken op die van het
Latijn. Toen de Romeinen steeds meer van Europa veroverden, viel het Latijn
geleidelijk uit elkaar in verschillende talen. Uit het Latijn zijn zo onder andere
het Frans, Italiaans, Spaans en het Roemeens ontstaan. Zo kunnen uit het
Engels ook verschillende talen ontstaan die onderling niet meer te verstaan
zijn.
Wat het zal worden, Panglish of een rijtje van het Engels afgeleide talen, valt
alleen maar af te wachten. Dr. Suzette Haden Elgin van de San Diego University
in Californië (V.S.) verwacht dat we het binnen 100 jaar zullen weten.
https://www.nemokennislink.nl/publicaties/waar-is-het-toilet-voor-
misvormde-mensen/
Nooit meer rat op je bord
Vertaal de menukaart met je mobieltje
Auteur: Erica Renckens | 22 februari 2010
AUTOMATISCH VERTALEN (10)
Thema: Zomervakantie
Ben je ook wel eens onaangenaam verrast in een restaurant in het buitenland? Toeristen
ver over de grens krijgen nog wel eens iets anders voorgeschoteld dan wat ze besteld
dachten te hebben. Mobiele applicaties kunnen zulke vervelende situaties helpen
voorkomen.
Net als Apple heeft ook Google een online warenhuis voor toepassingen op de
mobiele telefoon. Eén van deze toepassingen is Google Goggles. Als je deze op
je mobieltje hebt, kun je een foto maken die je vervolgens gebruikt als
zoekopdracht in Google. Zo weet je binnen enkele seconden wie de schilder
van een schilderij is of wanneer de brug is gebouwd waar je voor staat.
Tekstherkenning
Vorige week presenteerden de ontwikkelaars van Google Goggles in Barcelona
een uitgebreidere versie van deze toepassing. De vernieuwde versie herkent
gefotografeerde teksten, ziet welke taal het is en vertaalt deze vervolgens naar
een andere taal. Zo kun je bijvoorbeeld op vakantie de menukaart fotograferen
en vertalen naar je eigen moedertaal. En kun je op tijd beslissen of rat wel écht
is waar je die avond zin in hebt.
Als je in Taiwan de menukaart niet zo goed begrijpt, kan je zomaar ineens rat geserveerd
krijgen. Google ontwierp een toepassing voor op je mobieltje die OCR combineert met
automatisch vertalen. Zo kun je een foto maken van de menukaart en vertalen wat de
keuzes zijn. Dat bespaart je onaangename verrassingen.
Nicolai Bangsgaard, CC by 2.0 via Flickr
Vertaling berekenen
Deze nieuwe toepassing is gebaseerd op drie verschillende, al langer
bestaande technieken: OCR, taalherkenning en automatisch vertalen. OCR
staat voor Optical Character Recognition, het automatisch herkennen van de
letters en woorden op een digitale afbeelding. Daarna kan de software
vaststellen in welke taal de tekst op de afbeelding is geschreven. Vervolgens
kan het programmaatje deze tekst vertalen naar een andere taal.
Praktijk
Google kan ondertussen al vertalen tussen meer dan vijftig talen en ontwikkelt
steeds meer toepassingen voor zijn vertaalprogramma. Momenteel werken de
ontwikkelaars bijvoorbeeld aan een koppeling van de vertaalsoftware aan een
spraakherkenner. Hiermee zou het in de toekomst mogelijk moeten zijn
om gesprekken ‘live’ te vertalen.
https://www.nemokennislink.nl/publicaties/nooit-meer-rat-op-je-
bord/?search_page=true
De voorspelbaarheid van taal
Auteur: Erica Renckens | 12 april 2010
ENTROPIE (5)
Ook al is een woord (of zin) niet compleet, vaak heb je wel een vermoeden wat er staat
of wat er gezegd zal worden.
Reid, Geleijnse & Van Tol
Wij mensen maken zonder dat we het doorhebben handig gebruik van deze
voorspelbaarheid. Doordat we verwachtingen hebben over wat onze
gesprekspartner zal zeggen, kunnen we hem ook beter verstaan. Als hij
vervolgens iets zegt wat we op basis van de context totaal niet hadden zien
aankomen, is de kans groter dat we hem niet verstaan. Sprekende en
luisterende computers die ook over zulke verwachtingen beschikken, werken
– net als mensen – beter dan wanneer elke volgende letter of woord volstrekt
willekeurig is.
Onder leiding van Frederic Jelinek ontwikkelden techneuten van het Thomas J.
Watson Research Center van IBM de eerste statistische taalmodellen voor het
Engels. Deze modellen konden bijvoorbeeld aantonen dat ‘God save the queen’
in het Engels een stuk waarschijnlijker is dan ‘God shave the queen’ of ‘God save
the queer’. Een spraakherkenner hoefde vanaf toen niet meer alleen uit te gaan
van de klank die hij waarnam, hij kon ook gebruik maken van de kansen op
verschillende zinsverlopen.
N-gram
Hoe maken taal- en spraaktechnologen zo’n statistisch taalmodel? Ten eerste
hebben ze een hele hoop trainingsmateriaal nodig, zodat de kansberekeningen
op voldoende data gestoeld zijn. Deze data moeten de technologen zorgvuldig
selecteren; het moet wel geschikt zijn voor de uiteindelijke toepassing. Zo
moet een taalmodel dat gebruikt zal worden in een spraakherkenner getraind
worden met gesproken taal, soms zelfs met alle onvloeiendheden die spontane
spraak ook heeft. En een taalmodel voor vertaalsoftware zal juist moeten
trainen met geschreven taal, misschien zelfs specifiek over één onderwerp
waar de vertaalsoftware ook voor zal zijn.
h3. Word Salad Wetenschappers van de Universiteit van Tilburg ontwikkelden het
statistische taalmodel WOPR. Op basis van dit model kan een computer o.a. zelf zinnen
genereren in het Nederlands, Engels of Zweeds. Hij kiest het volgende woord steeds op
basis van de voorafgaande woorden. Dit kan natuurlijk ook een punt zijn; dan begint hij
gewoon aan een nieuwe zin. Na tien zinnen stopt de demo en kan je met F5 een nieuwe
reeks zinnen laten genereren. De Nederlandse versie is getraind op 1 miljoen regels
krantentekst. Er is inhoudelijk geen kaas van te maken, maar de demo’s kunnen prima
een eind in de ruimte kletsen.
Als het trainingsmateriaal is geselecteerd zullen de woorden zo geteld moeten
worden dat woordvoorspelling op basis van de voorafgaande woorden
mogelijk is. Hier gebruiken de taalkundigen het n-gram-model voor. De n staat
hierin voor het aantal woorden dat in de analyse telkens als eenheid genomen
zal worden. Bij een 2-gram (of bigram) zijn dit steeds twee woorden, dus ‘Ik
loop’, ‘loop naar’ en ‘naar school’. Bij een 3-gram (of trigram) zijn dit er juist
drie, dus ‘ik loop naar’ en ‘loop naar school’. In een n-grammodel wordt de kans
op het volgende woord steeds berekend op basis van de n-1 voorafgaande
woorden.
Hoe groter n dus is, hoe beter je kunt voorspellen wat het volgende woord zal
zijn. Op basis van één woord (in een bigram) is de keus vaak groot, behalve bij
woorden als ‘Verenigde’. Op basis van 8 woorden (in een 9-gram) is het vaak al
een stuk makkelijker, tenzij het 8e woord net een punt is en er dus een nieuwe
zin begint. Toch werkt het niet helemaal zo. In het trainingsmateriaal moeten
de verschillende woordvolgordes namelijk wel vaak genoeg voorkomen om
een statistisch verantwoord taalmodel te kunnen maken. Hoe groter je dus
de n kiest, hoe minder vaak dezelfde eenheid aan woorden voorkomt in je
trainingsdata en hoe moeilijker het is om nauwkeurig kansen te berekenen.
Taal- en spraaktechnologen kiezen daarom meestal voor de middenweg: het
trigram-model. Dit model voorspelt het volgende woord op basis van de 2
voorafgaande woorden.
Entropie
Een goed taalmodel weerspiegelt dus de voorspelbaarheid van een taal. En
deze voorspelbaarheid is meetbaar. Informatietheoretici als Claude
Shannon hebben hiervoor entropie ontwikkeld: een maat voor onzekerheid.
Hoe hoger de entropie van een taal, hoe groter de onzekerheid (en hoe kleiner
de voorspelbaarheid). Deze entropie wordt, zoals het informatici betaamt,
weergegeven in bits. Eén bit betekent twee mogelijkheden: 1 of 0. Een taal met
maar twee letters (A en B) die in elke willekeurige volgorde kunnen
voorkomen, heeft dus een entropie van 1: de volgende letter zal óf A zijn óf B.
Er is dus één bit nodig om de onbekende letter te coderen.
Zelf berekenen
De entropie en perplexiteit van een taalmodel kunnen op twee manieren
worden berekend: voor woorden (gebaseerd op n-grams) of voor letters. Dit
laatste kun je bijvoorbeeld doen via onderstaand spelletje. Typ telkens de
volgende letter (of spatie) die je verwacht. Onderaan staan de letters waar je
nog uit kunt kiezen en onder de streepjes zie je hoe vaak je gegokt hebt. Met de
knop linksonder kun je de entropie berekenen. Hoe langer je het spel speelt,
hoe nauwkeuriger deze berekend kan worden.
Dit spel is ontworpen op basis van de Engelse variant, ontwikkeld door David
Little en Adriano Garsia. Met dank aan Patrick Wambacq en Antal van den
Bosch.
https://www.nemokennislink.nl/publicaties/de-voorspelbaarheid-van-taal/
Automatische opiniepeilingen via Twitter
Auteur: Erica Renckens | 13 mei 2010
TEXT MINING (7)
Het afnemen van opiniepeilingen kost veel tijd – en dus geld.
Amerikaanse onderzoekers tonen aan dat automatische analyse van
tweets de resultaten van de peilingen al aardig benaderen. Zijn
automatische peilingen via Twitter de toekomst?
Elke dag worden er meer dan zeven miljoen berichten gepost op Twitter.
Deze tweets van maximaal 140 tekens (gemiddeld 11 woorden) bevatten vaak
een mening over een recente gebeurtenis. Gemopper over prijsstijgingen of
bewondering voor de snedige taal van een politicus. Met opinion
mining kunnen deze online sentimenten in kaart gebracht worden. Speciale
software analyseert de tweets en kan zo nauwkeurig in beeld brengen hoe
positief ‘het volk’ over een bepaald onderwerp denkt.
Sentimenten
Brendan O’Connor, onderzoeker aan CMU, heeft op deze manier een miljard
tweets geanalyseerd die werden gepost in 2008 en 2009. Eerst selecteerde hij
uit deze berichten de tweets over drie onderwerpen: het
consumentenvertrouwen, de steun voor Obama en de verkiezingen van 2008.
De computer behield alleen de tweets waarin de woorden ‘economy’, ‘job’,
‘jobs’, ‘Obama’ en ‘McCain’ voorkwamen. Dagelijks ging 0,1 tot 0,5% van alle
tweets over één van deze drie onderwerpen. Dit lijkt misschien weinig, maar
elke dag kwamen er wel honderden tot duizenden berichten over elk
onderwerp bij.
Vervolgens kon het echte opinion minen echt beginnen. Aan de hand van een
speciale woordenlijst met 1600 positieve en 1200 negatieve woorden stelde
de computer van elke tweet vast hoe positief er over het onderwerp gesproken
werd. Zo konden de onderzoekers van dag tot dag vaststellen hoeveel
vertrouwen men in de economie had, hoeveel steun Obama kreeg en hoe
positief men over de verkiezingen dacht. Deze sentimenten heeft O’Connor
vervolgens vergeleken met opiniepeilingen over dezelfde onderwerpen.
Gemiddeld kwamen deze rond de 75% met elkaar overeen.
De correlatie tussen de analyse van één miljard tweets (groen) en een telefonische
opiniepeiling (blauw) over het vertrouwen in de economie is 73%.
CMU
Sms-taal
75 procent is misschien nog niet zo heel hoog, maar de onderzoekers zien veel
mogelijkheden om deze correlatie in de toekomst flink te verhogen. Ten eerste
komen er natuurlijk nog iedere dag meer twitteraars bij. Meer twitteraars
betekent meer tweets, en meer tweets betekent een betere benadering van de
online sentimenten. Daarnaast kan met de toename aan twitteraars ook beter
rekening gehouden worden met de achtergrond van de twitteraars.
Opiniepeilers kunnen dan bijvoorbeeld alleen de tweets analyseren van
mensen uit een geselecteerde steekproef, die een representatieve afspiegeling
van de gemeenschap vormen.
Daarnaast kan ook aan de taalkundige analyse van de tweets nog het een en
ander verbeteren. Zo is de woordenlijst met positieve en negatieve woorden
momenteel gebaseerd op formeel taalgebruik. In tweets gebruiken mensen
echter eerder sms-taal, inclusief alle afkortingen en smileys die daarbij horen.
Een woordenlijst op basis van dit informele taalgebruik zal tot een betere
analyse van de tweets leiden. Maurice de Hond kan zijn opiniepeilingen de
komende weken dus nog maar beter zelf doen, maar in de toekomst kan hij
heel wat geld en tijd besparen door de berichten op Twitter automatisch te
analyseren.
Bron
Brendan O’Connor e.a. in From Tweets to Polls: Linking Text Sentiment to Public Opinion
Times Series, Proceedings of the International AAI Conferende on Weblogs and Social
Media.
https://www.nemokennislink.nl/publicaties/automatische-opiniepeilingen-
via-twitter/
Software onderscheidt terminologie in teksten
Auteur: Erica Renckens | 15 juni 2010
STEVIN (93)
In veel bedrijven gaan zoveel vaktermen om dat werknemers op den duur
zelf door de bomen het bos niet meer zien. Het Amsterdamse bedrijf
Gridline gaat daarom in opdracht van de Nederlandse Taalunie software
ontwikkelen die automatisch het jargon uit een tekst haalt. Vervolgens kan
het bedrijf zelf beslissen of het aangepast moet worden.
Het is de grote valkuil voor veel bedrijven: zoveel terminologie gebruiken dat
het voor een buitenstaander onmogelijk is om te begrijpen waar een brief of
site over gaat. Soms schiet het gebruik van terminologie zelfs zo ver door dat
zelfs het eigen personeel ervan in de war raakt. Het Amsterdamse bedrijf
GridLine gaat daarom software ontwikkelen dat automatisch de vaktermen
kan onderscheiden van gewone woorden. De software zal over ongeveer een
jaar op de markt komen en gaat TermTreffer heten.
Woordenboekmakers en vertalers
Met TermTreffer kunnen bedrijven hun gebruik van terminologie automatisch
in kaart brengen. Vervolgens kunnen ze makkelijk bekijken welke moeilijke
woorden overbodig zijn en welke nu eenmaal noodzakelijk zijn. Aan deze
laatste kunnen vervolgens definities worden gekoppeld zodat iedereen
begrijpt wat ze betekenen. Dat is niet alleen handig voor het eigen personeel,
ook woordenboekmakers en vertalers kunnen veel tijd besparen met zo’n
automatisch aangemaakte jargonlijst.
Techniek
De terminologie-extractie van TermTreffer werkt via statistische methodes,
regelgebaseerde taaltechnologie en machine learning. De software analyseert
grote hoeveelheden tekst en voorziet deze van grammaticale aanduidingen,
zoals bijvoorbeeld geslacht en vervoegingen. Vervolgens bekijkt
de TermTreffer welke woorden met elkaar in verband staan, bijvoorbeeld qua
vorm (afleidingen) of qua betekenis (synoniemen). Daarna worden op deze
geanalyseerde teksten statistische en machine learning-methodes toegepast.
Het resultaat is een lijst met woorden en uitdrukkingen die de terminologie
vormen voor het onderwerp waar de verzameling teksten over ging. Tenslotte
kan een redacteur deze lijst eventueel verder aanpassen via de bijgeleverde
editors. Het is de eerste keer dat deze technieken specifiek voor het
Nederlands ontwikkeld worden.
https://www.nemokennislink.nl/publicaties/software-onderscheidt-
terminologie-in-teksten/
“Dat zei mijn vrouw gisteravond ook!”
Humor uit je computer
Auteur: Erica Renckens | 3 mei 2011
HUMOR (10)
Voor een mens is het over het algemeen niet zo moeilijk om een
dubbelzinnigheid te herkennen. Voor een computer is dat een heel ander
verhaal. Hij vindt het vaak al moeilijk genoeg om te begrijpen wat je letterlijk
bedoelt, laat staan om te begrijpen dat er ook nog iets anders bedoeld zou
kunnen worden. Onderzoekers Chloé Kiddon en Yoriy Brun gingen daarom op
zoek naar overeenkomsten in de zinnen waarop de ’That’s what she said’-grap
van toepassing is.
Moppengenerator
Kiddon en Brun zijn niet de eersten die de computer een grapje proberen te ontlokken.
De bekendste onderzoekers op dit gebied zijn Kim Binsted en Graeme Ritchie. Zij
ontwikkelden in de jaren 90 JAPE en STANDUP, twee automatische moppengenerators.
Deze maken raadsels in de trant van: “What do you call a spicy missile? A hot shot!”
Als eerste viel hen op dat bepaalde woorden beduidend vaker aanleiding
geven tot de klassieker dan andere woorden, Zelfstandige naamwoorden als
‘banana’ en ‘meat’, bijvoeglijke naamwoorden als ‘hot’ en ‘wet’ en
werkwoorden als ‘to hit’ en ‘to eat’.
Na deze training voelde het systeem in 70 procent van de situaties goed aan
wanneer de grap gepast was. De onderzoekers denken dat meer trainingsdata
zelfs zou kunnen leiden tot een score van 99,5 procent. Kiddon en Brun hopen
in de toekomst de computer ook aan te zetten tot andere vormen van humor.
Eén voordeel voor alle docenten en hardwerkende kantoormedewerkers: de
software zal voorlopig niet op de markt komen.
Zie ook:
• Website met ’That’s what she said’-grapjes
• Zegt de ene Inuk tegen de ander: ‘Ik haat je….grapje!’
• Humor in advertenties werkt, ook onbewust
• De strenge regels van de etnische grap
https://www.nemokennislink.nl/publicaties/dat-zei-mijn-vrouw-gisteravond-
ook/
Computer speurt naar fictie
Taal- en literatuuronderzoek in het digitale tijdperk
Auteur: Mathilde Jansen | 12 augustus 2011
CORPUS (8)
De taal in hedendaagse romans staat dicht bij de spreektaal. Toch vind je in fictie een
ander woordgebruik dan in non-fictie. Uitvoerige analyses van digitale corpora onthullen
dat veel fictieschrijvers dezelfde soort woorden gebruiken. Toch zijn we ons hier als lezer
maar zelden bewust van. Maar ook originaliteit kan ontdekt worden door de computer.
Dit is de verdienste van de Digital Humanities: een tak van wetenschap die momenteel
sterk in opmars is.
Dat de taal in romans vóór die tijd veel plechtiger was, is een ding dat zeker is. Maar
komt de taal in fictie (zoals romans) echt zo sterk overeen met ons alledaagse
taalgebruik? Of zijn er ook verschillen? En hoe kun je fictie onderscheiden van non-
fictie, zoals kranten en academische teksten? Met dit soort vragen kunnen we ons
wenden tot een nieuwe tak van wetenschap: de Digital Humanities.
COCA kan ook tekstbestanden met elkaar vergelijken. Je kunt vragen welke verleden
tijdsvormen veel voorkomen in fictie in vergelijking met academisch proza. Je krijgt
dan werkwoorden op je beeldscherm als ‘grimaced’ (grijnsde), ‘scowled’ (fronste)
en ‘grunted’ (knorde). Het zijn opvallend veel woorden die verwijzen naar
gelaatsuitdrukkingen en geluiden. Het gebruik van dit soort werkwoorden is een
eenvoudig foefje van romanschrijvers: op deze manier kunnen ze romanpersonages
emotioneel laten reageren en tot leven brengen.
Originaliteit
Het voorafgaande laat zien dat romanschrijvers regelmatig in clichés vervallen. Kijk
maar eens naar deze zinnen: ‘Hij haalde nog eens diep adem’ en ‘Hij trok zijn
wenkbrauwen op’. In non-fictie zul je ze niet snel aantreffen. Toch zullen dergelijke
clichés de lezer maar zelden echt opvallen. Met de moderne computertechnieken
kunnen ze aan de oppervlakte komen. Zo komt de voorbeeldzin met de opgetrokken
wenkbrauwen in de debuutroman ‘Het Juvenalis Dilemma’ van Dan Brown maar
liefst 14 keer voor.
Hetzelfde geldt overigens voor het tegenovergestelde: het doorzoeken van digitale
corpora kan ook de originaliteit van een schrijver aantonen. Iets dergelijks deed
Masahiro Hori, hoogleraar Engelse taalkunde aan de Kumamoto Gakuen Universiteit
in Japan. Hij gebruikte het Dickens Corpus om aan te tonen hoe Charles Dickens een
eigen draai gaf aan bestaande woordcombinaties. Zo kun je ‘een dodelijke blik
werpen op’ in het Engels vertalen met ’to look daggers (dolken) at someone’. Dickens
maakte ervan: ’An old lady looked carving-knives (vleesmessen) at the hardheaded
delinquent (misdadiger)’. (In: The Pickwick Papers)
Intertekstualiteit
De techniek maakt het de nieuwste generatie onderzoekers ook een stuk makkelijker
wanneer zij op zoek zijn naar intertekstualiteit. Iets dergelijks doet David Bamman,
projectleider van een corpus met Klassieke Latijnse en Griekse teksten. Daarin vind
je bijvoorbeeld de Ilias en de Odyssee van Homerus en de Aeneis van Vergilius. Elk
woord in het corpus is voorzien van taalkundige informatie op woord- en zinsniveau.
Bamman toont aan dat bepaalde constructies uniek zijn voor de klassieke teksten.
Vervolgens laat hij zien dat latere schrijvers zich hierdoor lieten beïnvloeden, zoals
de 17e-eeuwse John Milton. De volgende zin uit Paradise Lost laat een vrij
ongebruikelijke volgorde zien: ‘Of man’s disobedience, and the fruit of that forbidden
tree… sing, heavenly muse’. Iets vergelijkbaars komen we tegen bij Vergilius: ‘arma
virumque cano’ (over wapenfeiten en een man zing ik, in plaats van: ik zing over
wapenfeiten en een man). Een zin die overigens op zijn beurt weer te herleiden is tot
één van Homerus.
Al met al laten de voorbeelden zien dat de computationele analyses ons veel nieuwe
inzichten opleveren. De computer neemt wetenschappers zo een hoop werk uit
handen. Letterkundigen hebben hiermee een machtig middel om fictie en non-fictie
te scheiden. En om clichématige versus originele romanteksten op te sporen. Zouden
met deze nieuwe technieken in het vervolg alle clichéschrijvers door de mand gaan
vallen?
Bronnen:
• Ben Zimmer (2011): The Mechanic Muse – The Jargon of the Novel, Computed. The New York
Times.
• David Bamman & Gregory Crane (2011): The Ancient Greek and Latin Dependency
Treebanks.
• Masahiro Hori (2004): Investigating Dickens’ Style. A Collocational
Analysis. PalgraveMacmillan.
https://www.nemokennislink.nl/publicaties/computer-speurt-naar-fictie/
Taaltechnologie helpt wetenschap
met beter zoeken en meer vinden
SOCIALE MEDIA (70)
Antal van den Bosch, hoogleraar Example-based language modelling aan de
Radboud Universiteit Nijmegen, ontwikkelt taaltechnologie zoals
vertaalprogramma’s, spellingscorrectoren en zoekmachines. Systemen die zo slim
zijn, dat ze nieuwe inzichten opleveren voor de taalwetenschap en andere
wetenschapsgebieden. Vrijdag 9 november spreekt Van den Bosch zijn oratie uit,
getiteld Taal in uitvoering.
Vruchtbare tegenstelling
Taaltechnologie krijgt wel eens het verwijt een extreem datagedreven
wetenschapsgebied te zijn: je hebt een databerg, daar laat je wat zoekvragen
op los en allicht komt er dan een antwoord uit. Bovenstaand voorbeeld is er
één dat duidelijk maakt hoe Van den Bosch naar de tegenstelling tussen
theoretici en datagedreven onderzoekers kijkt. Hij vindt die “wezenlijker voor
de wetenschap dan die tussen alfa’s en bèta’s. En vruchtbaarder: want de ene
onderzoeker die wil bewijzen dat zijn theorie klopt en de andere die
onbevooroordeeld naar de data wil kijken, dagen elkaar uit en stimuleren
elkaar.”
Radboud Universiteit
Daarnaast werken Van den Bosch en collega’s op dit moment met het ANP aan
een zoeksysteem dat twitterberichten kan doorzoeken op signalen die
voorspellen wat nieuws kan worden. En met het Korps Landelijke
Politiediensten (KLPD) wordt een zoeksysteem naar dreigtweets ontwikkeld.
Antal van den Bosch spreekt zijn oratie ‘Taal in uitvoering’ uit op vrijdag 9 november
2012, om 15.45 uur precies, in de Aula Radboud Universiteit, Comeniuslaan 2, Nijmegen
https://www.nemokennislink.nl/publicaties/taaltechnologie-helpt-wetenschap-met-
beter-zoeken-en-meer-vinden/
Google Translate in het onderwijs?
Auteur: Anna Tuenter | 16 oktober 2014
TAALTECHNOLOGIE (43)BEKIJK VERBINDINGEN
Thema: Over taal gesproken
Google Translate is geen knullige vertaalmachine meer. Zijn naar het
Engels vertaalde teksten naderen het niveau dat studenten moeten
hebben om te slagen voor hun toelatingsexamen Engels op de
universiteit. Studenten zullen er clandestien hele teksten mee gaan
vertalen, denken onderzoekers van de Universiteit van Nottingham.
Daarom moeten we nu vooruitblikken: willen we vertaalmachines in
het onderwijs verbieden of omarmen?
Je bent er niet trots op maar oké, je gooit wel eens een woord of tekst
in Google Translate. Soms voor de grap, om wat steenkolenitaliaans of -spaans
te leren. Maar vaak om te kijken hoe je iets zegt in het Engels. Hoe vaker we dit
doen, zeggen Michael Groves en Klaus Mundt van de Universiteit van
Nottingham, hoe beter deze techniek wordt. Ze ontdekten dat de vertalingen
van Google Translate al bijna het niveau halen dat studenten moeten hebben
om te slagen voor hun toelatingsexamen Engels op een Britse universiteit.
Pure kansberekening
Nu maakt Google Translate nog allerlei kleine foutjes. Vaak klopt de
grammatica niet, ook kiest hij soms het verkeerde woord en leest de tekst niet
lekker. “Dat is niet gek,” zegt Van den Bosch. “Veel technologie die iets met
natuurlijke taal doet zit nog ruim onder het niveau van ervaren menselijke
taalgebruikers. Dat zie je aan vertaalmachines, maar ook aan
spraakherkenning en ook aan spellingscorrecties.” Dat komt omdat ons
taalgebruik zo gevarieerd is. “Geen enkele zin is hetzelfde – tenzij je plagiaat
pleegt – dus een vertaalmachine moet op basis van wat hij wél weet een
statistische inschatting maken van hoe hij dénkt dat de zin er in een andere
taal uitziet. Veel vertaaltechnieken werken dus puur op kansberekening.”
Al die naamvallen
De fouten die de taalmachine maakt zijn vaak contextgerelateerd. Van den
Bosch geeft drie voorbeelden. “Hij vertaalt vaak verkeerd als de grammatica of
de woordvorming van de twee talen verschillend is. Als hij van het Engels naar
het Duits vertaalt, moet hij opeens rekening houden met vier mogelijke
naamvallen. Als er in het Engels the staat, wordt dat in het
Duits der, die, das, des, dem, of den. Om de goede keuze te maken moet hij de
zinscontext meenemen. Welke functie heeft het woord in de zin? Is het het
onderwerp of lijdend voorwerp?” Je hoopt dat hij dit op en duur statistisch
oppakt, vervolgt Van den Bosch, maar dat is moeilijk. “Van het Duits naar het
Engels vertalen is dus veel makkelijker.”
Nieuwe vertaalmachine
Willen we vertaalmachines überhaupt toelaten in het taalonderwijs? Verarmt
dat het leerproces niet? “Niet per se. Het ligt aan de doelen die je voor ogen
hebt. Docenten willen de diepte in, zodat studenten de doeltaal echt leren
begrijpen. Maar studenten vinden het vaak prima om trucjes leren." Een leuke
vergelijking is de invoer van de rekenmachine, zegt Van den Bosch. “Daar was
veel verzet tegen. Maar aan de kern van het vak – het leren van de wiskundige
principes – doet de rekenmachine niets af.”
Hijzelf is samen met computerprogrammeur Maarten van Gompel aan het
sleutelen aan een nieuwe vertaalmachine die het schrijven in een tweede taal
juist ondersteunt. Deze vertaalt slechts kleine fragmenten en met behulp van
de tekst die je al hebt. “Als je een verhaal in het Engels aan het schrijven bent,
lukt dat vaak aardig. Maar op een gegeven moment loop je vast. Hoe heet
zoiets in het Engels? Welk voorzetsel hoort bij dit werkwoord, en hoe gebruik
ik deze combinatie in een zin?”
Bron:
• Michael Groves en Klaus Mundt: Friend or foe? Google Translate in
language for academic purposes, English for specific purposes, oktober
2014. DOI: 10.1016/j.esp.2014.09.001
https://www.nemokennislink.nl/publicaties/google-translate-in-het-onderwijs/
Twitterfilter heeft moeite met
het herkennen van meningen
Auteur: Mathilde Jansen | 23 april 2021
Pixabay CC0
DIGITAL HUMANITIES (21)BEKIJK VERBINDINGEN
Thema: Over taal gesproken
Twitter, @Focusscience1
Zelfs de bestuursvoorzitter van het OLVG in Amsterdam werd van LinkedIn
verwijderd toen hij aandacht vroeg voor de neveneffecten van de
coronamaatregelen. Ook kan het algoritme de fout ingaan door een
taaldwaling. Zo kreeg de Vlaamse taalkundige Miet Ooms een twitterban
opgelegd na het versturen van de tweet ‘Topinfluencer, die Bernie’. Het
twitterfilter zag de tweet ten onrechte aan voor een Engelstalig bericht waarin
iemand de politicus Bernie Sanders dood wenste.
Waarom gaat het algoritme nog zo vaak de fout in en kan dat in de toekomst
anders? NEMO Kennislink sprak erover met taaltechnoloog Antal van den
Bosch. Hij is hoogleraar Taal en Kunstmatige intelligentie aan de UvA en
directeur van het Meertens Instituut.
“Dat hangt er vanaf wat je wilt. Als je bijvoorbeeld heel veel menselijke
moderatoren in dienst hebt, dan hoeft het algoritme niet zo precies te zijn. De
menselijke moderatoren keuren dan de onterecht afgekeurde berichten alsnog
goed. Je kunt je dan meer vals positieven veroorloven. Maar als het algoritme
volledig automatisch werkt, dan wil je wél dat deze heel precies is.”
“Absoluut. Maar uiteindelijk is het nooit genoeg. Dus ook daar zullen ze weer
een soort evenwicht in moeten vinden. Je moet eerst bepalen wat de
moderatieteams aan kunnen. Het controleren van die ‘vlaggetjes’ gaat eigenlijk
altijd steekproefsgewijs: je kunt niet alles controleren. Maar moderatie is
bijvoorbeeld ook taal- en cultuurafhankelijk. Je zult in Nederland echt mensen
moeten hebben die dat voor Nederlandstalige berichten doen. En dan moet er
ook altijd een deel van het team zijn dat nazorg levert aan mensen die bezwaar
indienen omdat ze geblokkeerd zijn. Ik denk dat deze bedrijven veel tijd
steken in die nazorg. Daarmee houd je toch je klantrelaties goed.”
“Het is heel moeilijk voor algoritmes om alle nuances van een bewering te
detecteren. Dit gebeurt bijvoorbeeld als je iets quote waar je het niet mee eens
bent: je gebruikt dan immers wel woorden die in de verboden hoek zitten,
naast je eigen inbreng als ‘ik snap niet waarom mensen nog altijd beweren
dat…’. Het onterecht wegfilteren van zulke nuance gaat uiteindelijk ten koste
van het debat. Elk gezond debat heeft baat bij common ground, gedeelde
kennis, anders kan je elkaar niet begrijpen. In het zwartepietdebat is ‘zwarte
piet’ een beladen term, maar als we ons in geheimtaal moeten gaan hullen dan
is de discussie steeds verder weg. Tegelijkertijd hebben we de filters toch wel
nodig, want zonder een vorm van moderatie kunnen discussies totaal
ontsporen.”
“Algoritmes hebben moeite met het duiden van wat het betekent als een
bewering begint met ‘ik vind’ of ‘ik snap niet waarom’ en woorden die
voorzichtigheid uitdrukken zoals ‘misschien’. En dat zijn juist heel belangrijke
aanwijzingen dat er iets meer aan de hand is dan dat iemand een scheldpartij
aan het opzetten is. De meest geavanceerde algoritmes proberen dat nu wel
mee te nemen. Ze kijken sowieso naar woordgroepen en woordcombinaties in
plaats van naar individuele woorden, en dus ook steeds vaker naar de
relatieve positie van die woorden.”
Twitter, @BuurtaalMiet
“Een andere moeilijkheid is de factor tijd. Door de tijd heen komen nieuwe
onderwerpen op, of verandert de hoeveelheid aandacht die een bepaald
onderwerp krijgt. Je moet die algoritmes dus vaak bijtrainen, want er kan
zomaar een beweging ontstaan, een hashtag, een persoon die van de ene op de
andere dag beroemd wordt zoals George Floyd. Wat ook nogal eens misgaat is
de taalidentificatie, dus in welke taal een bericht is geschreven: hoe korter de
boodschap, hoe vaker het misgaat. Neem de woorden in die tweet van Miet
Ooms, ‘die Bernie’: op basis van een eigennnaam kun je nog niet beslissen met
welke taal je te maken hebt, en het woordje ‘die’ komt in meerdere talen voor
met een andere betekenis. Hier heeft het algoritme het Nederlands aangezien
voor Engels.”
Kunnen de automatische algoritmes bij het overwinnen van deze
problemen naar honderd procent foutloos modereren?
“Dat denk ik niet. Als je dit door verschillende menselijke moderatoren laat
doen dan krijg je scores die ook geen honderd procent zijn, omdat er verschil
van mening is. En het algoritme is getraind op menselijke data. Het is
misschien wel zo dat als je data laat labelen door meerdere mensen en daar
weer een discussie overheen laat gaan, die data weer aanbiedt als
trainingsmateriaal, dan heb je wel materiaal dat misschien een soort
collectieve intelligentie representeert. Misschien kom je op die manier wel ooit
uit bij een heel intelligent algoritme.”
https://www.nemokennislink.nl/publicaties/twitterfilter-heeft-moeite-met-
het-herkennen-van-meningen/
Artificiële intelligentie in taal- en letterkunde
Linguïsten schrijven software om automatisch taal te analyseren.
Literatuurwetenschappers maken digitale tekstedities. Sinds 2010 wordt al het
digitale taal- en literatuuronderzoek op UAntwerpen gegroepeerd op het platform
Digital Humanities. Computerlinguïst Walter Daelemans en literatuurspecialist
Dirk Van Hulle kraken de code.
Softwareskills
Wil dat zeggen dat taal- en letterkundigen naast een goeie talenknobbel nu ook
software moeten kunnen schrijven? “Bij ons in de computerlinguïstiek is dat een
vereiste”, bevestigt Walter Daelemans. “In de letterkunde is er minstens de
bereidheid nodig om bijvoorbeeld transcripties van manuscripten te maken in de
markup-taal XML”, aldus Dirk Van Hulle. “Een erg open consortium, Text Encoding
Initiative (TEI), komt jaarlijks samen om de conventies van die markup-taal te
bepalen en eventueel aan te passen. De bedoeling is immers om een taal te
creëren waarin we elkaar begrijpen en die hopelijk binnen 100 jaar nog door
computers kan gelezen worden.”
Digitale tekstgenese
"We willen handschriften omzetten in bewerkbare tekst", zegt Dirk Van Hulle.
Van Hulle kreeg drie jaar geleden een Starting Grant van 1,1 miljoen euro van de
European Research Council voor baanbrekend onderzoek naar literaire
manuscripten. Met zijn team maakt hij digitale tekstgenetische edities van de
werken van de Ierse schrijver Samuel Beckett, inclusief diens bibliotheek.
Met dit digitale onderzoek naar creatieve processen maakt Van Hulles team deel
uit van een Europees Marie Curie-netwerk over ‘Digital Scholarly Editing’ en
binnen Vlaanderen trekt UAntwerpen aan de kar als woordvoerder van de FWO
Wetenschappelijke Onderzoeksgemeenschap ‘Digital Humanities Flanders’.
Van Hulle onderzocht onder meer ook het schrijfproces van The Origin of
Species van Charles Darwin. “Tijdens Darwins leven zijn er zes edities van het
boek verschenen. Je wil die teksten kunnen vergelijken met elkaar, maar ook met
wat Darwin in zijn notitieboekjes, zakboekjes, dagboeken en brieven schreef.
Samen met het Huygens Instituut voor Nederlandse Geschiedenis hebben we
gewerkt aan het programma CollateX om van om het even welke zin alle
varianten in alle schrijfstadia snel terug te vinden. We zoeken naar manieren om
dat wat een schrijfproces eigenlijk heel dynamisch maakt, namelijk die
tekstvarianten, gemakkelijk te onderzoeken en zo meer inzicht te verwerven in de
werking van de menselijke verbeelding.”
Automatische transcripties
Van algoritmes weet Walter Daelemans als computerlinguïst alles. Binnen zijn
onderzoeksgroep lopen tal van projecten die met behulp van algoritmes op basis
van verzamelde tekstverzamelingen en -fragmenten ongewenst gedrag à la
cyberpesten en IS-propaganda kunnen opsporen, persoonlijkheid aan schrijfstijl
kunnen koppelen, diagnoses kunnen stellen op basis van patiëntdata, kunnen
simuleren hoe een kind taal leert, en zo verder.
Sentiment mining
“We doen onderzoek op een aantal niveaus”, vertelt Daelemans. “Het eerste
niveau is het tekstbegrip: zijn we in staat een tekst automatisch te begrijpen en
de kennis die erin staat in databases te stoppen? Een voorbeeldonderzoek is ons
project over medische taal. We werken aan een systeem dat patiëntdata
analyseert en de bedoeling is om op termijn automatische diagnoses te kunnen
stellen. We gebruiken hiervoor de nieuwste technologieën, namelijk diepe neurale
netwerken.”
Het tweede niveau waarop tekst kan geanalyseerd worden, is emotie en opinie:
“We doen aan sentiment mining en opiniedetectie”, licht Daelemans toe.
“Momenteel hebben we een interessant nieuw project met de politieke en de
communicatiewetenschappers waarin we analyseren hoe mensen op sociale
media het nieuws analyseren, hoe ze een opinie vormen op basis van wat ze op
sociale media en in de pers vinden, en omgekeerd: hoe de pers daarop inspeelt.
De verkiezingen van 2019 zijn ons doel. We willen in kaart brengen wat daar aan
opinies aan voorafgaat op sociale media en in de pers. Het klassieke idee is dat
de politiek de agenda bepaalt, de pers daarover informeert, en dat er daar op de
sociale media commentaar over wordt geleverd. Maar eigenlijk staat die piramide
nu op zijn kop. Het zijn de sociale media die de agenda van politici bepalen. Met
behulp van die subjectieve tekstanalyse kunnen we opvolgen hoe dat in real
time gaat.”
Persoonlijkheidsprofilering
Neurale netwerken
“Wij ontwikkelen die toepassingen op basis van de state of the art in ons
vakgebied en dat evolueert momenteel bijzonder snel”, getuigt Daelemans. “Zo
komen we bij de ‘neurale netwerken’ die het veld van de artificiële intelligentie,
waar computerlinguïstiek een onderdeel van is, overgenomen hebben. In alle
domeinen waar die netwerken worden gebruikt, zie je een aanzienlijke
verbetering van de accuraatheid van die systemen, zowel qua beeldverwerking
als wat spraak- en tekstanalyse betreft. Eigenlijk is het heel eenvoudig wat die
neurale netwerken doen. Je biedt het netwerk eenvoudigweg erg veel data aan en
het leert zelf om daarin patronen te herkennen, of het nu om tekst, geluid of
beelden gaat. Het gaat eigenlijk om algoritmes die in de vorige eeuw zijn
uitgevonden, maar pas nu met de rekenkracht van vandaag zeer efficiënt kunnen
worden ingezet.”
Nu kunnen we zoveel input aan die neurale netwerken geven dat die voor
sommige taken het niveau van het menselijke brein bereiken of het zelfs beter
doen, weet Daelemans. “Ook op gebied van automatisch vertalen hebben de
neurale netwerken enorme vooruitgang geboekt. Google Translate is op die
manier trouwens recent met 60 procent verbeterd. Door de snelle evolutie is het
allemaal heel spannend wat er nu gebeurt. Omdat dit soort van onderzoeken ver
van de klassieke taalkunde afstaat, leiden we onze studenten in de master
computertaalkunde zo op dat ze goed kunnen programmeren en een stevige basis
hebben om de algoritmes te kunnen begrijpen en ontwikkelen.”
Moderne psycholinguïstiek
“Met professor Steven Gillis hebben we bijvoorbeeld een TOP-project dat met
computermodellen tracht te simuleren hoe een kind uit primaire linguïstische data
taal leert. Het gaat om fundamenteel langetermijnonderzoek rond de hypothese:
hoeveel van onze taalkennis is aangeboren en hoeveel zit er verborgen in de
input en kan je er dus met algemene cognitieve processen uithalen? Met
professor Dominiek Sandra hebben we dan weer een project over
computermodellen van meertaligheid. Zo werken we binnen CLiPS goed samen op
de drie onderdelen: taalverwerving, -verwerking en computermodellering.”
https://www.eoswetenschap.eu/technologie/artificiele-intelligentie-taal-en-
letterkunde
Taal is sleutel tot artificiële intelligentie
Wat hebben drie germanisten van UAntwerpen te maken met de enorme rekenkracht
van spelconsoles? Kort en krachtig: ze leren computers aan hoe menselijk gedrag
werkt. “Taal weerspiegelt het wezen van wie we als mensen zijn.”
Hoe kan de beheerder van een online chatforum weten of er in een van de talloze
gesprekken die hij moet overzien een chatter over de schreef gaat en de anderen
de huid vol scheldt? Of hoe kunnen ouders merken dat hun tiener zwaar gepest
wordt op sociale media, die zoon- of dochterlief net zorgvuldig afschermt voor
hen? En in navolging van dat laatste: hoe weten deze ouders dat cyberpestgedrag
niet escaleert, in die mate dat hun kind met zelfmoordgedachten kampt, en dat
online ook laat merken?
Het onderzoek maakt deel uit van het AMiCA-project, dat samen met UGent en de
KULeuven ontwikkeld wordt, en waarmee ook seksueel overschrijdend gedrag op
sociale media kan worden herkend en gemeld. Niet doordat de tool elke keer als
het over seks gaat een waarschuwing stuurt naar de ouders. Maar door te
controleren of iemand die bijvoorbeeld in haar profiel zegt een 15-jarig meisje te
zijn, niet in werkelijkheid een 50-jarige pedofiel is. Hoe? Door te analyseren wat
die persoon schrijft en hoe die zijn of haar taal gebruikt.
Dat laatste geeft aan hoe complex de wetenschap achter deze toepassingen wel
is. En wat taal in hemelsnaam met computers en dataonderzoek te maken heeft,
zoals de computational linguistics in CLiPS aangeven. Dit gaat over artificiële
intelligentie. Over een computer die uit taalgebruik begrijpt dat iemand een man
is, van middelbare leeftijd, of een depressieve tiener.
“Het begint met een hele reeks woorden en teksten die, in ons project, als
pestgedrag kunnen worden omschreven, en waarmee we de computer als het
ware voeden”, begint Walter Daelemans, hoofd van CLiPS. “Dat was een hele
opdracht”, gaat collega Guy De Pauw verder. “We zijn zelf een tiental scholen
afgegaan, waarbij we jongeren een rollenspel rond pesten hebben laten spelen,
om de juiste scheldwoorden te leren kennen.” Met die data kan een computer
perfect reageren wanneer een van de ingevoerde woorden en uitdrukkingen
gebruikt wordt. Maar dan wordt het pas interessant.
Herken de kat
“Iemand een klootzak noemen kan ook plagerig bedoeld zijn”, merkt Daelemans
op. “Kortom, de computer moet de context van een bepaald gesprek vatten, om
uit te maken of het om een belediging of een plaagstoot ging.” “En meer nog”,
valt Mike Kestemont bij. “De computer moet ook weten dat als ‘bitch’ een
scheldwoord is, wat we hem hebben geleerd, ‘stom wijf’ vaak in dezelfde context
gebruikt wordt en dus ook een belediging is.”
Een computer die leert, en die een context interpreteert? Bestaat dat
dan? “Absoluut”, knikt een merkelijk enthousiaste Kestemont. “Een aantal jaar
geleden verscheen een paper over een onderzoek waarbij een computer een week
lang YouTube-filmpjes heeft gekeken. Nadien genereerde hij zelf een beeld van
onder meer een kattenkop. Een wezen dat hij niet kende, maar dat hij door de
talloze kattenfilmpjes op YouTube wel was gaan herkennen als iets wat hetzelfde
was. Een later onderzoek deed iets soortgelijks met Google News. Een computer
die geen taal kende, kon na een periode van het scannen van al die berichten
woordenwolken maken die uiteenvielen in onder meer de maanden van het jaar,
landen, steden, voorzetsels, … Hij wist nog steeds niet wat die woorden
betekenden, maar door de context waarin ze gebruikt werden, kon hij wel
opmaken dat ze wat met elkaar te maken hadden.”
Spelconsoles
“Computers kunnen dat slechts door een grote sprong in rekenkracht”, legt De
Pauw uit. “En dat gebeurde opvallend genoeg met de grafische processors die ook
in spelconsoles gebruikt worden. Die berekenen in enkele milliseconden enorm
ingewikkelde matrixen vol data, op een manier die vergelijkbaar is met de
werking van ons brein. We weten al tientallen jaren dat dergelijke zogenaamde
neurale netwerken theoretisch zouden kunnen, maar het is maar door de huidige
rekenkracht dat we ze ook kunnen toepassen. Op die manier kan de computer
triljoenen connecties maken, meer dan onze hersenen.”
Het grote woord is gevallen: een computer die werkt zoals onze hersenen, en
situaties kan inschatten, vertoont die menselijke eigenschappen? “We modelleren
het brein, en daarmee de mens”, bevestigt Daelemans. “Al blijft dat beperkt. De
elektrische impulsen in een brein kunnen we nabootsen – in de mate dat we ze al
kennen – maar de chemische reacties natuurlijk niet. Toch kunnen we bij een
computer al spreken van een vorm van intuïtie, van gezond verstand. Een grote
doorbraak op dat vlak zagen we onlangs: voor de eerste keer won een computer
van een topspeler in het Aziatische bordspelletje Go. Schaakcomputers zijn al een
tijdje beter dan mensen, maar Go is een spel dat veel meer intuïtie vereist dan
schaak. Door rekenkracht kunnen computers steeds vaker situaties en
gesprekspartners inschatten. We werken hier bijvoorbeeld met robots, waarvan
we weten dat autistische kinderen er goed op reageren. Maar dan moet die
computer wel weten wie hij voor zich heeft natuurlijk. Zo’n kind heeft niets aan
een jolige robot.”
"Volgens alle grote spelers is tekst wel degelijk de toekomst", menen Kestemont,
Daelemans en De Pauw (van linksaf).
Het is ironisch dat het een computer vergt om het belang van taal voor ons mens-
zijn aan te tonen. Alleen op het eerste zicht is de combinatie van taal- en
letterkunde en computers opvallend. “Taal is wat ons onderscheidt”, glimlacht
Daelemans. “Al onze emoties worden erin weerspiegeld. Al zijn er meer
taalkundigen die dat doorhebben en in deze sector werken, dan informatici.”
“Het was dan ook stevig studeren nog”, herinnert Kestemont zich. “Maar volgens
alle grote spelers is tekst wel degelijk de toekomst. Bedrijven als Google pompen
miljarden in het onderzoek rond computerlinguïstiek. Opvallend toch: twintig jaar
na Lernout & Hauspie zijn taal en spraak opnieuw dé uitdaging.”
https://www.eoswetenschap.eu/technologie/taal-sleutel-tot-artificiele-intelligentie
OPINIE ARTIFICIËLE INTELLIGENTIE
De grootste intellectuele
hold-up uit de geschiedenis
Patrick Goethals
Hoogleraar Toegepaste Taalkunde (UGent).
Dinsdag 24 januari 2023 om 3.25 uur
De grote techbedrijven zetten ons weer een hak met nieuwe
technologieën als ChatGPT, schrijft Patrick Goethals. Auteursrecht
en bronvermelding lappen ze doodleuk aan hun laars.
Lectrr
ChatGPT is overal. Elke dag passeren er
getuigenissen over wat de tekstgenerator kan en
hoe indrukwekkend of afschrikwekkend dat is.
Wat we zien, is het begin van een virtuele tekst-
en beeldenwereld, waarbij ‘virtueel’ niet langer
staat voor de drager van de communicatie (het
internet) maar ook voor de bron, namelijk
computers die zelf schrijven. Generatieve taaltechnologie is niet zomaar een
volgende stap, het is een paradigmashift, met algoritmes die zichzelf
kunnen programmeren en de belangrijkste menselijke kennisdragers,
namelijk teksten, boeken en afbeeldingen, kunnen klonen.
Het gebrek aan kritische reflectie is frappant, en een exponent van wat we
de ingenieursideologie van de laatste halve eeuw kunnen noemen. De -
centrale en positieve waarde in die ideologie is de fascinatie voor de -
menselijke creativiteit om van ruwe materialen bruikbare producten te
maken.
Helaas leidt die fascinatie tot het doorschuiven van de verantwoordelijkheid
voor de gevolgen, en tot een gebrek aan interesse in de intrinsieke waarde
van de bronmaterialen, of in de ecologische, sociale en nu ook intellectuele
duurzaamheid waarmee ze werden verkregen. Niet het doel, maar het -
product heiligt de middelen.
• Microsoft pompt 10 miljard dollar in ChatGPT
Het is die houding die ons over de rand van een klimaatcrisis bracht, en in
ChatGPT de vorm krijgt van wat de grootste intellectuele hold-up uit de
geschiedenis moet zijn. Die hold-up heeft trouwens ook een geopolitieke
dimensie, met een monopolie van Amerikaanse bedrijven die een claim
leggen op mondiale en Europese intellectuele eigendom.
Dat de makers zo vaag blijven over de bronnen, staat
volledig haaks op de fundamenten van een
kennismaatschappij
De techgiganten hebben wellicht niet liever dan dat het debat gaat over de
gevolgen van de technologie of, beter nog, over de voorlopige tekort-
komingen. Is de kennis nog niet helemaal up-to-date? Produceert het -
genderonvriendelijke of racistische praat? Zijn er geen bronverwijzingen? Is
het repetitief? De oplossingen zijn technologisch relatief eenvoudig, en
zullen verwerkt zitten in de betalende versies die weldra de markt zullen
overspoelen. Men ziet het graag gebeuren dat we daarover spreken omdat
we zo intussen niet de vraag stellen of het ding wel eerlijk ontwikkeld wordt.
De techgiganten hebben intussen ruimschoots bewezen dat ze niet het
minste respect hebben voor een eerlijk gebruik van data, sociale
werkomstandigheden of ecologische duurzaamheid.
Almaar hermetischer
ChatGPT en het immense taalmodel dat de motor ervan vormt, werden
volgens de makers getraind op hallucinant grote tekstbestanden van in -
totaal meer dan 300 miljard woorden. Het is door de combinaties van die
woorden te modelleren dat een talige intelligentie ontwikkeld wordt. Maar
de makers blijven bijzonder vaag over waar die woorden vandaan komen.
Ze verwijzen naar Wikipedia, sociale media, collecties boeken en
internetteksten. De indruk die ze willen geven is dat het veel te veel is om op
te sommen, dat onderaannemers instaan voor het respecteren van de
intellectuele eigendom, en dat het vooral fantastisch is dat men uit het
zootje van de sociale media zo’n geweldig product heeft kunnen maken.
Wie dat gelooft, is naïef. Het systeem boekt resultaten omdat het getraind is
op data met een hoge toegevoegde waarde: geëditeerde en gepubliceerde
boeken, wetenschappelijke papers en datasets, reële interpersoonlijke
communicatie enzovoort. Dat men zo vaag mag blijven over de werkelijke
bronnen, is aanstootgevend en staat volledig haaks op de belangrijkste
fundamenten van een kennismaatschappij, namelijk eerlijkheid over
bronnen en data, fundamenteel respect voor het principe van auteurschap
en ‘fair’ gebruik van de data. Niets van dat alles bij de aandeelhouders van
OpenAI. Naarmate hun producten beter werden, werden ze ook
hermetischer en deelde men minder code of bronnen.
Voor de makers is het een koud kunstje om een lijst te genereren van de
bronnen die gevoed werden aan het algoritme. Dat ze dat niet doen, -
betekent dat ze niet willen dat wij de bronnen zien. Het is onbegrijpelijk dat
daar geen reactie op komt. Je zou toch verwachten dat bedrijven en -
instanties garanties willen dat hun bestanden niet gebruikt worden om
zichzelf te klonen? Er is maar één manier om het te weten: volledige
transparantie eisen over zowel primaire bronnen als code, repliceren en
controleren of de modellen inderdaad op die manier getraind worden.
Incestueus labyrint
Het valt te verwachten dat precies het omgekeerde gebeurt: de manipulatie
zal nog erger worden. In volgende versies of afgeleiden zullen ongetwijfeld
bronvermeldingen komen, maar die zullen niet noodzakelijk de link leggen
met de meest hoogwaardige (en potentieel beschermde) bronnen die binnen
het model het meest hebben bijgedragen tot de modellering van een bepaald
concept, maar wel met een publiek beschikbaar afkooksel, dat steeds meer
automatisch zal gepubliceerd worden door tekst- en websitegeneratoren, en
commerciële inkomsten kan genereren. Die cyclus creëert een gigantisch
probleem van intellectuele duurzaamheid. Ook voor de generatoren zelf,
trouwens: die zullen de komende jaren wanhopig op zoek gaan naar teksten
die door mensen werden geschreven, want als ze zich trainen op hun eigen
creaties raken ze verstrikt in een incestueus labyrint. Vergis u dus niet: de
applicaties die ons zullen helpen om een onderscheid te maken tussen
menselijke en gegenereerde tekst zijn ultiem bedoeld voor de generatoren
zelf. Vergis u ook niet als u denkt dat bepaalde informatie niet in het -
systeem zit omdat ze er niet uit komt. In en uit zijn verschillende deuren
met verschillende filters.
In het bijzonder moet ook de Europese academische wereld kordaat en snel
reageren. De voorbije jaren werd aan universiteiten en wetenschappelijke
instellingen fors geïnvesteerd in modern datamanagement, waarbij de focus
ligt op openbaarheid van data, analyses en resultaten. De filosofie is dat
openbaarheid noodzakelijk is om wetenschappers het werk van andere
wetenschappers te laten verifiëren. Bestaan er garanties dat die data niet
worden opgeslokt door het algoritme, of dat er op een intellectueel eerlijke
manier naar verwezen wordt? Het antwoord is negatief. Zullen onze
Europese instellingen en wetgevers wel blijven eisen dat wetenschappers
zich op duizend manieren verantwoorden en ironisch genoeg zelfs moeten
betalen om hun resultaten in open access te publiceren, terwijl de
almachtige Amerikaanse techbedrijven er een gigantische parafraseer-,
plagieer- en manipuleermachine mee bouwen?
Die paradigmashift vereist een diepgaande reflectie met kennis van zaken,
maar ook een snel en krachtig antwoord vanwege beleidsmakers. -
Intellectuele duurzaamheid, gebaseerd op menselijk auteurschap en eerlijk
gebruik van data, is geen trivialiteit die we in handen moeten leggen van
onbetrouwbare techbedrijven.
https://www.standaard.be/cnt/dmf20230123_97406419?adh_i=&imai=&articlehash=BW7fddkT0fXu0D3%2FZDLrm8cxhUh8jVR2Tc1S8Vr9K8
RYYHTbrGgm5YMnAEwEA%2FIxk4MJFSRoMAgyyPjrO1uZnTf%2FGL5DZFAREjNMnSeTh7UQQymBsnEUg8im%2FwzGNaUCt2MIU6%2BgLf
0nWpNE1bFd0WfANcMxnFz0smtuSzx5uyOlrnGKdBKA3Npm2CQBpcuUzIzzGgPSLjtzzap%2Ff%2Btv4YkrpCZ1l4zSNEa4PObiB27blJL%2B8A%2
B1oovuXG9LPM3Eb0qfUhaJh5xWfgtbR8Vc%2Fza5GMquiyP1HHTyAqglTRXc8Mr9JTnA1BtFXPr1Q1RR0%2BzNzPN9aCj9vyZHQkITtw%3D%3
D
Taaltechnologie is meer dan spraakherkenning
03 OKTOBER 2000 OM 00:00 UUR | Hans Baeyens
Een kleine rondgang door het linguistic engineering department van Lernout & Hauspie leert ons
dat je niet zonder een heleboel hulpmiddelen kunt voor je nog maar kunt denken aan toepassingen
of kant-en-klare producten. André Schenk, vice-president van het linguistic engineering
department: ,,Wij zijn actief rond drie soorten databases: lexicale databases, in feite elektronische
woordenboeken of woordenlijsten, akoestische databases, waarin we alle klanken of
klankcombinaties opslaan voor een bepaalde taal, en elektronische tekstcorpora''.
Lernout & Hauspie gebruikt hiervoor niet het gewone fonetische alfabet, maar een eigen variant die
gemakkelijker in te voeren is via een gewoon toetsenbord. Wanneer er al een tekst-naar-spraak
engine bestaat voor de taal in kwestie, kan de taalkundige meteen een auditieve controle krijgen of
de fonetische weergave wel degelijk klopt.
Ook op andere vlakken zijn een heleboel controles en hulpmiddelen ingebouwd. Die moeten het
mogelijk maken om sneller en vooral eenduidiger te werken, niet alleen om vergissingen te
vermijden, maar ook om een zo consistent mogelijke database te verkrijgen.
Voor deze lexicale databases werkt men het liefst met taalkundigen die deze taal ook als
moedertaal hebben, of er toch minstens heel goed mee vertrouwd zijn. Voor sommige talen zoals
het Noors of Pools werkt men samen met buitenlandse partners die een deel van het basiswerk
voor hun rekening nemen, maar de controle gebeurt nog altijd door L&H zelf.
Momenteel heeft men lexicale databases voor een vijftiental talen, maar er zijn plannen voor nog
eens twintig extra talen, waaronder het Farsi, Perzisch, Turks en Hindi.
Bovendien is zo'n lexicale database nooit af. Daarom probeert men zoveel mogelijk teksten te
verzamelen en te integreren in elektronische tekstcorpora. Hierbij moet je niet alleen denken aan
teksten uit kranten of tijdschriften, maar ook aan documenten gebruikt in het bedrijfsleven of zelfs
afkomstig uit de juridische of medische sector. Dit is belangrijk voor toepassingen zoals
spraakherkenning of automatische vertaling: die moeten niet alleen courante woorden kunnen
vertalen of herkennen, maar ook nieuw (gebruikte) woorden, eigennamen of sommige vaktermen.
Dat klinkt eenvoudiger dan het is: veel uitgeverijen zijn bang dat hun teksten op een of andere
manier toch openbaar worden gemaakt en natuurlijk moet ook de privacy van de betrokkenen
worden gerespecteerd.
Boeren en buitenlui
Naast de lexicale databases zijn de akoestische databases even belangrijk. Die bevatten per taal
alle klanken en klankcombinaties. Daarvoor volstaat het niet om gewoon met een microfoon
woordjes op te nemen. De uiteindelijke bedoeling is immers dat woorden herkend worden onder de
meest uiteenlopende omstandigheden. Daarom vinden er ook opnames plaats in lawaaierige
kantooromgevingen, in de auto of via de telefoon.
Overigens maakt Lernout & Hauspie niet alles zelf. Er is zoals gezegd een samenwerking met
buitenlandse partners en af en toe worden er ook gewoon databases aangekocht, waarbij het
linguistic engineering department een kwaliteitscontrole uitvoert en later zorgt voor de integratie in
de eigen systemen.
De lange rij overnames, waarbij DictaPhone of Dragon maar de meest recente zijn, maakt dat LHS
nu met een amalgaam van bedrijven en systemen zit. Daarom houdt men in Ieper ook een
catalogus bij van beschikbare databases, engines enzovoort, die bij alle filialen en partners worden
gebruikt. Het is de bedoeling op langere termijn zowel de databases als de gebruikte methodes
zoveel mogelijk te consolideren naar één standaard, maar dat is een werk van lange adem. Je kunt
een database niet zomaar converteren naar een ander formaat, als ook de applicatie die hiervan
gebruikt maakt, niet mee wordt aangepast om het nieuwe formaat te herkennen.
© rr
Pardon?
Met de tekst-naar-spraak engines (TTS) gaan we al meer in de richting van de toepassingen. LHS
heeft verschillende spraakengines, gaande van RealSpeak tot TTS 3000 en TTS2500. Die
verschillende engines zijn noodzakelijk in functie van de beschikbare processor en geheugenruimte
op het systeem waarop de engine zal draaien. Draagbare systemen of systemen in de auto hebben
nu eenmaal minder mogelijkheden dan volwaardige pc's of systemen die speciaal voor deze
toepassingen werden ontworpen.
Dat betekent helaas ook dat het eindresultaat verschillend is. Bij RealSpeak kun je nog amper
horen dat het om een computerstem gaat, maar bij de andere engines is dat (nog) niet het geval.
Het hangt natuurlijk ook af van de uiteindelijke toepassing. Bij een sprekend woordenboek is een
correcte en goed verstaanbare uitspraak bijvoorbeeld belangrijker dan bij een toepassing die e-
mails kan voorlezen. In dat laatste geval moet de TTS-engine niet alleen de tekst kunnen
omzetten, maar ook in staat zijn om bepaalde elementen zoals e-mailadressen, handtekeningen en
technische informatie in de e-mail header te herkennen en te scheiden van de eigenlijke e-
mailboodschap.
De engines zijn uiteraard beschikbaar in verschillende talen. Maar omdat mensen en middelen niet
onbeperkt zijn, wordt hier wel gekeken naar de vraag, zowel vanuit de eigen afnemers als vanuit
klanten of prospecten om een bepaalde engine in deze of gene taal te ontwikkelen.
Taal en geld
Met databases en engines alleen kom je natuurlijk niet ver. Er moeten ook producten komen. En
daarbij zijn algemene pakketten voor de pc zoals Voice Xpress of Power Translator slechts het topje
van de ijsberg. Het echte geld zit hem in meer gespecialiseerde toepassingen, of althans
toegespitst op bepaalde sectoren.
Maar hier zijn de belangen hevig en de concurrentie groot. Die komt van de traditionele
telecomoperatoren, de AT&T's en Motorola's van deze wereld, van andere bedrijven actief in
telefonie en spraakherkenning zoals Philips, of van computergiganten als IBM.
Bovendien zijn er nog een heleboel kleinere bedrijven die gespecialiseerd zijn in een deelgebied
zoals telefonisch bankieren of internetbankieren. Die hebben wel meestal niet de middelen om een
compleet eigen oplossing te ontwikkelen en kopen daarom onderdelen aan -- de zogenaamde
engines waarvan sprake -- al dan niet via een licentiesysteem.
Voor tekst-naar-spraak systemen zijn er nog wel meer toepassingen. Denk maar aan systemen
voor het telefonisch opvragen en laten voorlezen van je e-mails, of aan navigatiesystemen die je
stemgestuurd de weg wijzen. Maar ook hier is de concurrentie hevig en is samenwerking met
andere partners (internetproviders, elektronica- of autofabrikanten) een must.
Bovendien is het niet al goud wat blinkt. Je e-mails laten voorlezen via je gsm is eigenlijk maar een
tijdelijke oplossing. Snellere netwerken en technologieën zoals GPRS of de nieuwe UMTS-
netwerken, gekoppeld aan krachtiger gsm's of PDA's, kunnen deze technologie overbodig maken.
Dat je binnenkort via de telefoon vlot zult kunnen praten met een Chinees, waarbij iedereen zijn
eigen moedertaal spreekt en de combinatie van spraakherkenning, machinevertaling en tekst-naar-
spraak zorgt voor de rest, is misschien geen sciencefiction, maar toch nog jaren weg. Dat belet
natuurlijk niet dat er geen markt voor zou zijn. Ook een ruwe vertaling kan nuttig zijn, zeker als er
daarna een mens aan te pas komt om die ruwe vertaling te corrigeren en bij te stellen. Dat er
dankzij de economische mondialisering en de uitbreiding van het Internet een steeds grotere
behoefte bestaat aan vertaaldiensten, brengt dit enigszins negatieve plaatje terug in balans.
https://www.standaard.be/cnt/dsm03102000_003?&articlehash=Ondo%2
Ffo%2FN7xiXV3Tof7xIIvgjutQ7rIK8OSOGkhUMw4pehCGyb6eurkWhmPL
Z0TN67JLX7TGaWArSrqbz56jZZU4uwzKCGLXme0RcDcsItY8IG%2Fmna
wQ8qSkbSNNh7yKoWXbXZGhVHGXvzGrtgDK0XwPsYTY1m0SUMID6D
%2FiTjsBIgEPR6YWtzr9zTuJ1D5IH8wTei9dTGABGLk%2BPSeZFexMwH
UDxQizu81NW9axYw9uvarEHyRzj%2BxEhB4xwvTxgCgnd4BP8OAQUW6
EILPsLMooo%2FgJuh6qIjUeyLGy%2BvotDzd2GD512SBD0Sp%2BxC%2Fi
%2BYWgKpBfIyoXo%2B75WCcLDA%3D%3D