27 januari 2023
Pleidooi voor intellectuele duurzaamheid
ChatGPT is hot, ChatGPT is overal: elke dag lezen we in nieuwsmedia getuigenissen over wat de tekstgenerator kan, en hoe indrukwekkend of afschrikwekkend dit is. Wat we zien is het begin van een virtuele tekst- en beeldenwereld, waarbij 'virtueel' niet langer staat voor de drager van de communicatie (het internet) maar ook voor de bron, namelijk computers die zelf schrijven. Generatieve taaltechnologie is niet zomaar een volgende stap, het is een paradigmashift, met algoritmes die zichzelf kunnen programmeren en de belangrijkste menselijke kennisdragers, namelijk teksten, boeken en afbeeldingen, kunnen klonen.
Het gebrek aan kritische reflectie is frappant, en een exponent van wat we de ingenieursideologie van de laatste halve eeuw kunnen noemen. De centrale en positieve waarde in die ideologie is de fascinatie voor de menselijke creativiteit om van ruwe materialen bruikbare producten te maken. Met deze fascinatie is niets verkeerd, maar helaas leidt ze tot het doorschuiven van de verantwoordelijkheid voor de gevolgen, en tot een gebrek aan interesse in de intrinsieke waarde van de bronmaterialen, of in de ecologische, sociale en nu ook intellectuele duurzaamheid waarmee ze werden verkregen. Niet het doel maar het product heiligt de middelen. Het is die houding die ons over de rand van een klimaatcrisis bracht, en in ChatGPT de vorm krijgt van wat de grootste intellectuele hold-up uit de geschiedenis moet zijn. Die hold-up heeft trouwens ook een geopolitieke dimensie, met een monopolie van Amerikaanse bedrijven die een claim leggen op mondiaal en Europees intellectueel eigendom.
De techgiganten hebben wellicht niet liever dan dat het debat gaat over de gevolgen van de technologie of, beter nog, over de voorlopige tekortkomingen: is de kennis nog niet helemaal up-to-date? Produceert het genderonvriendelijke of racistische praat? Zijn er geen bronverwijzingen? Is het repetitief? De oplossingen zijn technologisch relatief eenvoudig, en zullen verwerkt zitten in de betalende versies die weldra de markt zullen overspoelen. Men ziet het graag gebeuren dat we daarover spreken omdat we zo intussen niet de vraag stellen of het wel eerlijk ontwikkeld wordt. De techgiganten hebben intussen ruimschoots bewezen dat ze niet het minste respect hebben voor een eerlijk gebruik van data, sociale werkomstandigheden of ecologische duurzaamheid.
ChatGPT en het immense taalmodel dat de motor ervan vormt werd volgens de makers getraind op hallucinant grote tekstbestanden van in totaal meer dan 300 miljard woorden. Het is door de combinaties van die woorden te modelleren dat een talige intelligentie ontwikkeld wordt. Maar de makers blijven bijzonder vaag over waar die woorden vandaan komen. Men verwijst naar Wikipedia, sociale media, collecties boeken en internetteksten. De indruk die men wil geven is dat het veel te veel is om op te sommen, dat onderaannemers instaan voor het respecteren van de intellectuele eigendom, en dat het vooral fantastisch is dat men uit het zootje van de sociale media zo'n fantastisch product heeft kunnen maken. Wie dit gelooft is naïef. Dit systeem haalt resultaten omdat het getraind is op data met een hoge toegevoegde waarde: geëditeerde en gepubliceerde boeken, wetenschappelijke papers en datasets, reële interpersoonlijke communicatie etc. Het feit dat men zo vaag mag blijven over de reële bronnen is aanstootgevend en staat volledig haaks op de belangrijkste fundamenten van een kennismaatschappij, namelijk eerlijkheid over de bronnen en data, een fundamenteel respect voor het principe van auteurschap en een 'fair' gebruik van de data. Niets van dit alles bij de aandeelhouders van OpenAI. Naarmate hun producten beter werden, werden ze hermetischer en deelde men minder code of bronnen.
Voor de makers is het een koud kunstje om een lijst te genereren van de bronnen die gevoed werden aan het algoritme. De reden dat men dit niet doet betekent dat men niet wil dat we de bronnen zien. Het is onbegrijpelijk dat hierop geen reactie komt. Je zou toch verwachten dat bedrijven en instanties absolute garanties willen dat hun bestanden niet gebruikt worden om zichzelf te klonen? Er is maar één manier om het te weten: volledige transparantie eisen over zowel primaire bronnen als code, repliceren en controleren of de modellen inderdaad op deze manier getraind worden.
Het valt echter te verwachten dat net het omgekeerde zal gebeuren en de manipulatie nog erger wordt. In volgende versies of afgeleiden zullen ongetwijfeld bronvermeldingen komen, maar die zullen niet noodzakelijk de link leggen met de meest hoogwaardige (en potentieel beschermde) bronnen die binnen het model het meest hebben bijgedragen tot de modellering van een bepaald concept, maar wel met een publiek beschikbaar afkooksel, dat steeds meer automatisch zal worden gepubliceerd door tekst- en websitegeneratoren, en commerciële inkomsten kan genereren. Deze cyclus creëert een gigantisch probleem van intellectuele duurzaamheid. Ook voor de generatoren zelf trouwens: die zullen de komende jaren wanhopig op zoek gaan naar teksten die door mensen werden geschreven, want als ze zich trainen op hun eigen creaties geraken ze verstrikt in een incestueus labyrint. Vergis u dus niet: de applicaties die ons zullen helpen om een onderscheid te maken tussen menselijke en gegenereerde tekst zijn ultiem bedoeld voor de generatoren zelf. Vergis u ook niet als u denkt dat bepaalde informatie niet in het systeem zit omdat het er niet uit komt. In en uit zijn verschillende deuren met verschillende filters.
In het bijzonder moet ook de Europese academische wereld kordaat en snel reageren. De voorbije jaren werd aan universiteiten en wetenschappelijke instellingen fors geïnvesteerd in een modern datamanagement, waarbij de focus ligt op openbaarheid van data, analyses en resultaten. De filosofie is dat openbaarheid noodzakelijk is om wetenschappers het werk van andere wetenschappers te laten verifiëren. Bestaan er garanties dat deze data niet opgeslokt worden door het algoritme of dat er op een intellectueel eerlijke manier naar verwezen wordt? Het antwoord is negatief. Zullen onze instellingen en wetgevers in Europa anderzijds blijven eisen dat wetenschappers zich op duizend manieren verantwoorden en ironisch genoeg zelfs moeten betalen om hun resultaten in open access te publiceren terwijl de almachtige Amerikaanse techs er een gigantische parafraseer-, plagieer- en manipuleermachine mee bouwen?
Deze paradigmashift vereist een diepgaande reflectie met kennis van zaken, maar ook een snel en krachtig antwoord vanwege beleidsmakers. Intellectuele duurzaamheid gebaseerd op menselijk auteurschap en eerlijk gebruik van data is geen trivialiteit die we in handen moeten leggen van onbetrouwbare techs.
(Deze tekst verscheen eerder in De Standaard, 24 januari 2023. Overgenomen met toestemming van de auteur.)
Meer van Patrick Goethals