Informatie voor het bibliotheeknetwerk

Dossier Digitaal Burgerschap

Wees niet bang voor AI

Betoog om kunstmatige intelligentie niet enkel te wantrouwen
Heb geen angst voor kunstmatige intelligentie. Dat bepleiten Martijn Kleppe, Hoofd Onderzoek bij de KB, en Jacco van Ossenbruggen, Informaticus bij het Centrum Wiskunde & Informatica en medeoprichter van het Cultural AI Lab (CulturAIL). Experimenteer als erfgoedsector met AI en leer erover – en onderschat vooral niet welke belangrijke spelers informatieprofessionals zelf zijn in het steeds groter wordende AI-veld.
AI Analyse

Dataslurpende techbedrijven

De kranten, tijdschriften en vakbladen staan vol over de mogelijkheden van kunstmatige intelligentie. Of beter gezegd: over de gevaren ervan. Want wie AI zegt, denkt bijna vanzelf aan beeldherkenningstechnieken die vooroordelen bevestigen. Of aan dataslurpende techbedrijven die alles van ons persoonlijk leven weten. Ook Maxim Februari pleitte in zijn gasthoofdredacteurnummer van IP | vakblad voor informatieprofessionals voor data-ethiek en betoogde dit onderwerp tot kerntaak te maken van ‘de mensen in het informatiedomein’. Zo’n pleidooi is ook goed. En een kritische houding is altijd gezond. Maar slaan we niet door? Verlamt de discussie over de mogelijke gevaren juist niet een verkenning van de mogelijkheden voor onze sector? Laten we niet achteroverleunen en afwachten, maar vooral experimenteren en leren over de mogelijkheden.

Experimenten

Gelukkig wordt ook in Nederland al op bescheiden schaal geëxperimenteerd. Dat leidt tot prachtige toepassingen en goede lessen. Met studenten van de TU Delft bekeken we bijvoorbeeld of we met behulp van beeldherkenning boeken konden aanbevelen. Je houdt de camera van je telefoon voor een boekenkast, waarna alle titels worden geanalyseerd en op basis van jouw voorkeuren suggesties worden gedaan voor andere boeken. NBD Biblion experimenteert met het automatisch genereren van beschrijvingen van boeken voor bibliotheken. Dat bevalt ze zo goed dat ze de partij waarmee ze dat doen, Bookarang, zelfs hebben overgenomen. Verschillende archieven werken momenteel met Transkribus, een systeem dat in staat is handschriften te lezen en om te zetten in computerleesbare tekst. Het Nationaal Archief heeft op die manier samen met het Noord-Hollands Archief manuscripten uit onder andere het zeventiende- en achttiende-eeuwse VOC-archief doorzoekbaar gemaakt. Bij de KB experimenteren we met het semi-automatisch beschrijven van publicaties met behulp van Natural Language Processing. Het Nederlands Instituut voor Beeld en Geluid past spraakherkenning toe om nog beter door televisieprogramma’s te kunnen zoeken. En het Noord-Hollands Archief gaat de komende tijd met beeldherkenning de collectie van Fotopersbureau De Boer doorzoekbaar maken: niet alleen met behulp van de metadata, maar ook met elementen op de foto.

Black box

Allemaal stoere toepassingen die verschillende vormen van kunstmatige intelligentie gebruiken. Een van de ingewikkeldere en ongrijpbare technieken is die van neurale netwerken. We weten niet goed wat ze precies doen, maar wel dat dit soort black boxes vaak een goed resultaat geven. Met name de ongrijpbaarheid maakt de inzet van deze netwerken voor veel mensen ingewikkeld. Zeker voor mensen die data-ethiek hoog in het vaandel hebben staan. Betekent dit dat we ze daarom niet moeten gebruiken? Wat ons betreft niet. Wel moet je goed nadenken wanneer je ze inzet en voor welke toepassing. Niet voor niets hebben we bij de KB AI-principes ontwikkeld, waarvan ‘inclusief’, ‘onpartijdig’ en ‘transparant’ onderdeel uitmaken.

Bias

Maar misschien nog wel belangrijker dan de algoritmes zelf zijn de data die gebruikt worden om algoritmes te trainen. Met name de bias, of de vooringenomenheid van de data, is daarbij cruciaal. Toen we bij de KB voor het eerst experimenteerden met beeldherkenning, merkten we dat beschikbare open source-algoritmes goed werkten om de inhoud van moderne foto’s te herkennen. Maar op historische foto’s lukte dat minder goed – en dat was ook niet zo vreemd. Imagenet, een grote dataset die de basis vormt voor veel beeldherkenningsalgoritmes, bevat namelijk alleen maar hedendaagse foto’s, en kon dus niet goed overweg met oudere afbeeldingen.

Data inbrengen

Dat brengt ons bij de unieke positie die de erfgoedsector kan spelen in het AI-domein: we kunnen de algoritmes ‘voeden’ met de prachtige (digitale) datasets die we al eeuwenlang verzamelen, beschrijven en digitaliseren. Dat brengt drie grote voordelen met zich mee. Allereerst brengen we op die manier een nieuw soort bias in, zoals historisch taalgebruik, waardoor algoritmes diverser worden. Hiermee krijgen onze datasets een tweede leven, waarmee we een waardevolle rol kunnen spelen in het debat over de eenzijdigheid van AI-algoritmes. Een tweede voordeel is dat algoritmes vervolgens ook steeds beter toepasbaar worden voor toepassing in ons domein wanneer ze getraind worden met ons soort data. Een derde voordeel is dat het trainen van  algoritmes – al dan niet open source – op publieke beschikbare (open) data het mogelijk maakt om de black box te doorbreken en onderzoek naar de bias door derde partijen mogelijk maakt.

Stappen gezet

Natuurlijk is het beschikbaar stellen van data makkelijker gezegd dan gedaan. Naast technische expertise (hoe maak je datasets eigenlijk zo goed mogelijk beschikbaar?) kunnen auteursrecht en privacy de nodige beperkingen met zich meebrengen, waardoor datasets niet gebruikt mogen worden. Toch zijn er afgelopen tijd mooie stappen gezet. Het Nationaal Archief en Noord-Hollands Archief hebben hun modellen uit het Transkribus-project beschikbaar gesteld voor andere onderzoekers. Vanuit de KB maken we zogenaamde ground truth-datasets beschikbaar voor onder andere onderzoekers. Recent nog publiceerde Brill een dataset met afbeeldingen om algoritmes te laten ontwikkelen dat automatisch Iconclass-codes kan toekennen. En in het nieuwe project met Fotopersbureau De Boer heeft het Noord-Hollands Archief ook toegezegd de data na afloop beschikbaar te maken.

Culturele AI

Hoewel zulke initiatieven nu nog op één hand te tellen zijn, zijn het wel de stappen die we als sector moeten zetten wanneer we kunstmatige intelligentie op een verantwoorde manier willen inzetten. In onze optiek moet het zelfs leiden tot de nieuwe (sub)discipline Culturele AI. Hierin wordt digitale erfgoeddata gebruikt om algoritmes verder te ontwikkelen die steeds beter in staat zijn om menselijke culturele normen en waarden beter te begrijpen. Of: hoe kunnen we onze kennis uit en over ons (digitale) erfgoed gebruiken om AI beter te maken? Het is dé manier om niet alleen nog veel meer over kunstmatige intelligentie te leren, maar ook actief een belangrijke bijdrage te leveren die hard nodig is.

Dit is een bewerking van een artikel dat voor het eerst verscheen in IP | vakblad voor informatieprofessionals.