Is een Nederlands taalmodel als GPT-NL haalbaar?

door Marco Derksen op 16 april 2024

Begin deze maand vond de veertiende editie van het symposium E-Discovery plaats, georganiseerd door het lectoraat Digital Forensics & E-Discovery van Hogeschool Leiden. Dit jaar lag de focus op de praktische toepassingen taalmodellen in digitaal forensisch onderzoek. Zelf was ik vooral geïnteresseerd in de lezing over GPT-NL.

Het symposium E-Discovery 2024 bouwde voort op de vorige editie waarbij de inzet van ChatGPT als digitale speurneus voor rechercheurs werd belicht. Een jaar later hebben experts nieuwe taalmodellen en technieken onthuld die voorgaande tekortkomingen adresseren. Deze innovaties werden op 2 april besproken, met speciale aandacht voor hun toepasbaarheid in het opsporen van ondermijning en financiële criminaliteit.

Tijdens het symposium werden diverse lezingen gehouden:

Zelf was ik vooral geïnteresseerd in de lezing “NL-GPT: De waarde van een Nederlands taalmodel” door Saskia Lensink van TNO.

Dit initiatief, bekend als GPT-NL, is een samenwerking tussen TNO, het Nederlands Forensisch Instituut (NFI), SURF en wordt financieel ondersteund door het Ministerie van Economische Zaken en Klimaat met een bedrag van 13,5 miljoen euro. GPT-NL is ontworpen als een open model om de transparantie, eerlijkheid en verifieerbaarheid van AI-gebruik te versterken, waardoor het breed inzetbaar is binnen academische, onderzoek- en overheidsinstellingen en Nederland minder afhankelijk maakt van commerciële AI-leveranciers (bron: digitaleoverheid.nl).

Begin dit jaar presenteerde het Nederlandse demissionaire kabinet haar visie op generatieve AI, gericht op veiligheid, rechtvaardigheid en het bevorderen van menselijk welzijn. Deze visie streeft ernaar AI te ontwikkelen die duurzaam is en de Nederlandse welvaart ondersteunt, met een focus op publieke waarden en grondrechten. De regering wil Nederland positioneren als een leider in dit veld, zowel nationaal als internationaal, door samen te werken met Europese partners en te streven naar passende regulering en bewustwording over AI. Een specifiek voorbeeld van deze aanpak is het GPT-NL taalmodel.

Het streven van Nederland om een eigen taalmodel zoals GPT-NL te ontwikkelen is begrijpelijk en lovenswaardig, maar eerlijk gezegd heb ik twijfels over de haalbaarheid. Met een budget van slechts 13,5 miljoen euro en de strikte privacywetgeving is het de vraag of een model op het niveau van ChatGPT haalbaar is. De architectuur van een LLM is weliswaar toegankelijk, maar de essentiële menselijke input en de vereiste data zijn dat veel minder. Dit betekent dat, om een competitief taalmodel te ontwikkelen, concessies moeten worden gedaan.

Ben erg benieuwd naar de eerste resultaten van GPT-NL die dit najaar worden verwacht, maar heel eerlijk heb ik er niet heel veel vertrouwen in. Wat denken jullie?

4 reacties

Als je er vanuit gaat dat je altijd heel veel data nodig hebt wellicht niet. Maar dat is niet gezegd: https://www.zylstra.org/blog/2023/05/effective-llms-on-less-than-1gb-training-data/

Er zijn Europese initiatieven al ruim tien jaar om voor alle EU talen corpora bijeen te brengen. Daarop is de vertaaltool van de EU gebaseerd sinds eind 2017. Dat lijkt me een bruikbaar startpunt. Je begint dus niet met nul, of met de noodzaak om je trainingsdata per se online te halen met alle ethische haken en ogen die daaraan zitten.
Daarbij rijst bij mij eerder de vraag of je het speciaal voor Nederlands (Frysk?) nog wil doen, als er bijvoorbeeld via de Language Data Space een model is/komt voor alle EU talen gemeenschappelijk?
Als je LLMs ook als strategisch relevant ziet, dan ontkom je er niet aan om te zorgen dat er meer alternatieven zijn dan nu. Op NL of EU niveau.

Beantwoord

Dank voor je reactie Ton en ik denk dat je gelijk hebt als het gaat om taalmodellen voor specifieke taken, maar ik vraag me af of die ook in staat zijn voor generiek gebruik zoals we dat nu steeds meer doen met GPT, Claude of Mistral. Daar is de beschikbaarheid van rechtmatig verkregen data en menselijke capaciteit voor finetuning de grootste uitdaging lijkt me. Hebben we die? Zeker niet als je het op niveau Nederland gaat doen, op Europees niveau zou dat moeten lukken maar daar vrees ik dat de samenwerking te traag is. Benieuwd hoe jij daar naar kijkt.

Beantwoord

Profielfoto
Freddy Snijder op schreef:

Hoi Marco,

Klopt, ik werk aan systemen gebaseerd op RAG, maar werk ook aan pre-training van taal modellen. Voordat ik mijn gedachten spui over de haalbaarheid van een Nederlands taalmodel, wil ik wel aangeven dat ik dit een goed initiatief vind: dit is een belangrijke stimulans om kennis op dit gebied in Nederland verder op te bouwen, om Nederland meer “AI native” te maken. Verder, een taalmodel die de nuances van onze taal, cultuur, normen en waarden en ethiek omvat, en waar “we” zelf controle over hebben is een mooi idee. Als het hele process inderdaad maar wel volledig transparant is.

Is een Nederlands taalmodel haalbaar? Een paar gedachten. Met betrekking tot de kosten van de rekenkracht is een kleiner model (bijv. 7B parameters) wel haalbaar binnen het genoemde budget lijkt me. Hierbij moet ook rekening gehouden worden met de verschillende experimentele training iteraties die je moet uitvoeren; het is niet zo dat je een dataset opzet en wat code schrijft en dan in één keer een goed taal model trained. Er kunnen onzuiverheden in de data zitten die de training onstabiel maken, of er kan iets in de data zitten waardoor bepaalde benchmarks tegenvallen.

Over benchmarks gesproken, waar komen de benchmarks in het Nederlands vandaan? Bepaalde tests, waar taal nuances van minder belang zijn, kan je ze direct de Engelse versie gebruiken, of automatisch vertalen uit het Engels. Maar als we een Nederlands taal model willen maken zullen er ook benchmarks ontwikkeld moeten worden die het model test met betrekking tot de nuances van de Nederlandse taal, onze cultuur, normen en waarden, etc.. Ik weet dat op dit gebied al een en ander bestaat maar is dat genoeg? Hoeveel van het budget wordt hier aan besteed?

Dan over de dataset zelf, goed dat hier veel aandacht aan besteed wordt. Er wordt continue nieuw onderzoek gepubliceerd dat concludeert dat niet zozeer de kwantiteit van de data, maar de kwaliteit van groot belang is om tot een goed model te komen. Er zal daarom niet alleen hard gewerkt moeten worden om interessante bronnen van Nederlands tekst te ontsluiten (ik denk ook aan bijv. transcriptie van alle publieke televisie en radio uitzendingen sinds de jaren 1920), maar ook om filter mechanismen te ontwikkelen om de beste stukken tekst te houden.

Als laatste wil ik de instruction-tuning datasets noemen, als je aan Nederlands “AI alignment” wilt doen dan zal je toch ook zeker nieuwe Nederlandse datasets hiervoor moeten ontwikkelen.

Al met al zal het niet makkelijk zijn om tot een goed resultaat te komen met het gegeven budget. Maar weet je, de eerste modellen hoeven niet perfect te zijn, dit het begin. Ik hoop vooral dat de Nederlandse overheid hier volhard en dat in de aankomende decennia meerdere van dit soort initiatieven op elkaar kunnen voortborduren.

O ja, het is erg uitzonderlijk dat ik zulke stukjes in het Nederlands schrijf, er zal dus taalkundig genoeg aan mis zijn; ik kan een Nederlands taal model wel gebruiken!

Beantwoord

Geef een reactie

Je e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *

Deze site gebruikt Akismet om spam te verminderen. Bekijk hoe je reactie-gegevens worden verwerkt.

Laatste blogs

Bekijk alle blogs (1013)
Contact