We hebben dringend een recht op dataprocessing nodig

Deze column is gepubliceerd op platform VerderDenken.nl van het Centrum voor Postacademisch Juridisch Onderwijs (CPO) van de Radboud Universiteit Nijmegen. https://www.ru.nl/cpo/verderdenken/columns/we-dringend-recht-dataprocessing-nodig/

Bij een datagedreven economie hoort een gezond ecosysteem voor machine learning en artificial intelligence. Mauritz Kop beschrijft de juridische problemen en oplossingen hierbij. “We hebben dringend een recht op dataprocessing nodig.”

Datadelen is een noodzakelijke voorwaarde voor een succesvol Europees ecosysteem voor artificial intelligence (AI). Zo zijn ook gelabelde trainingdatasets anno 2020 een conditio sine qua non voor supervised machine learning. Aan industriële data en consumentendata kleven vele juridische aspecten. Zo houdt dataprocessing verband met intellectueel eigendomsrecht, grondrechten zoals privacy en de vrijheid van meningsuiting, consumentenrecht, contractenrecht, fiscaal recht, mededingingsrecht en internationaal handelsrecht. Het gebruik van persoonlijke informatie in AI-systemen heeft daarnaast ethische, sociaal-maatschappelijke en techniek-filosofische dimensies.

Mauritz Kop: “We hebben dringend een recht op dataprocessing nodig.”

5 juridische obstakels voor een succesvol AI-ecosysteem

Eerder schreef ik dat vraagstukken over het (intellectueel) eigendom van data, databescherming en privacy een belemmering vormen voor het (her)gebruiken en delen van hoge kwaliteit data tussen burgers, bedrijven, onderzoeksinstellingen en de overheid. Het gaat hier onder meer om toestemming voor horizontaal B2B, G2B, B2G en C2B datadelen, en tussen Europese lidstaten onderling. Deze data kan vervolgens worden geannoteerd, geanalyseerd en verwerkt om zo een AI-model machinaal te onderwijzen hoe het moet leren. Daarnaast heeft elke economische (top)sector specifieke uitdagingen bij het sectoraal en cross-sectoraal delen van machine learning-trainingdatasets. Er bestaat in Europa nog geen goed functionerend juridisch-technisch systeem dat rekening houdt met de belangen van alle betrokken partijen. Een systeem dat rechtszekerheid en een gunstig investeringsklimaat biedt en bovenal is gemaakt met de datagedreven economie in het achterhoofd. We hebben hier te maken met een complex probleem dat in de weg staat aan exponentiële innovatie.

Auteursrechten

De eerste juridische horde bij datadelen is auteursrechtelijk van aard. Datasets die bestaan uit auteursrechtelijk beschermde werken zoals boeken, foto’s, filmfragmenten en muziek moeten namelijk worden vrijgegeven voordat ze door onze intelligente machines mogen worden gereproduceerd tot een bruikbaar model. Zonder licenties is er een reële kans op een waterval aan rechtszaken voor ongeautoriseerd gebruik van beschermd werk. Sommige bezitters van content zullen zich verzetten tegen data mining vanwege een financieel belang.

Databankenrechten

Ten tweede kunnen er (sui generis) databankenrechten van derden rusten op (delen van) de training-, testing- of validatiedataset. In Europa worden augmented machine learning-trainingdatasets nu nog beschermd door een (sui generis) databankenrecht. Als de trainingdataset auteursrechtelijk beschermde werken bevat of informatie beschermd door (sui generis) databankenrechten − en er bovendien geen TDM-uitzondering van toepassing is − dan moeten alle afzonderlijke rechthebbenden van tevoren toestemming voor gebruik en verwerking geven in de vorm van een schriftelijke gebruikerslicentie. Dit geldt voor wetenschappelijke, niet-commerciële en commerciële trainingsdoeleinden.

Bedrijfsgeheimen

Ten derde zullen bedrijven alles in het werk stellen om hun investeringen in het trainen van een AI-model te beschermen en om zelf inkomsten te genereren met hun AI-toepassingen. Ze zullen er alles aan doen om de datasets een bedrijfsgeheim te houden, of om de gehele database - of die nu handmatig is gecodeerd of door een machine is gegenereerd - te beschermen met contracten of technologische maatregelen. MKB en multinationals zullen na een strategische afweging kiezen voor geheimhouding, en niet voor het patenteren van hun technische vondst. Deze verschuiving naar bedrijfsgeheimen is problematisch voor het delen van datasets, en daarmee ook voor het van de grond komen van een gezond AI-ecosysteem.

Rechtsonzekerheid over eigendom van data

Het vierde probleempunt is rechtsonzekerheid over juridisch eigendom van data. Dat bestaat niet, in de goederenrechtelijke betekenis van het woord. Data heeft natuurlijk wel kenmerken van eigendom en kan een aanzienlijke waarde vertegenwoordigen. Daarbij is juridisch eigendom iets anders dan intellectueel eigendom. Wat wel bestaat is, de facto, economisch eigendom van data. Belanghebbenden weten door dit alles niet goed van wie de data is en wat je er nu eigenlijk wel en niet mee mag doen. Al helemaal niet wanneer een dataset gedurende een bepaalde periode door meerdere bedrijven vanuit verschillende locaties is gemaakt. Of wanneer een dataset uit een mix van persoonlijke gegevens, overheidsdata en industriële informatie bestaat. Hierover bestaat behoefte aan rechtszekerheid.

AVG en Privacy

Een vijfde belemmering is de vrees voor de Algemene verordening gegevensbescherming (AVG). Hoewel de AVG de persoonsgegevens van Europese burgers beschermt, belemmert het in sommige gevallen de snelle uitrol van AI en datastart-ups en -scale-ups binnen de Europese interne markt. Anders gezegd bestaat er een risico op een spanningsveld tussen de AVG, intellectueel eigendom en beleidsdoelen zoals het delen van trainingdata en open innovatie. Deze complexe wetgeving werpt vooral juridische barrières op voor prille AI-start-ups die niet over voldoende financiële middelen beschikken om een gespecialiseerde advocaat of een functionaris voor gegevensbescherming in te huren. Of start-ups die liever geen equity weggeven. Onwetendheid en rechtsonzekerheid resulteert hier in risicomijdend gedrag. Het leidt in ieder geval niet tot spectaculaire datagedreven AI-applicaties en Europese unicorns die zich kunnen meten met digitale reuzen uit Silicon Valley en Shenzhen.

**Wat is machine learning eigenlijk?**

Vertrouwdheid met technische aspecten van data in machine learning geeft juristen, datawetenschappers en beleidsmakers de mogelijkheid om effectiever te communiceren over toekomstige regelgeving voor AI en het delen van data. Basiskennis van de verschillende machine learning-technieken geeft context aan discussies over oplossingen voor interdisciplinaire uitdagingen bij AI. Deze kennis katalyseert bovendien de synthese van ideeën over het in balans brengen van haar maatschappelijke impact.

Een machine learning-systeem wordt niet geprogrammeerd, maar getraind. Tijdens het leerproces ontvangt een computer uitgerust met kustmatige intelligentie zowel invoergegevens (trainingdata), als de verwachte, bij deze inputdata behorende antwoorden. Het AI-systeem moet zelf de bijpassende regels en wetmatigheden formuleren met een kunstmatig brein. Algoritmische, voorspellende modellen kunnen vervolgens worden toegepast op nieuwe datasets om nieuwe, correcte antwoorden te produceren.

Er bestaan binnen de context van AI verschillende soorten statistische methoden om waardevolle resultaten te bereiken bij voorspellende analyse en optimalisatie. De bekendste technieken zijn deep learning, reinforcement learning, transfer learning, machine reasoning, evolutionary algorithms en federated learning.

Voor het gros van de AI-modellen zijn gecentraliseerde trainingdatasets essentieel. Momenteel (dat zal in de toekomst veranderen) zijn door mensenhanden gelabelde trainingdatasets een belangrijk ingrediënt voor supervised machine learning, waarbij regressie en classificatie worden gebruikt om voorspellings- en optimalisatieproblemen op te lossen. De tegenhanger, unsupervised machine learning, gebruikt ongelabelde, ongestructureerde trainingdatasets als input om zijn algoritmen te trainen, op basis van patroonherkenning.

Een uitzondering hierop vormt federated learning. Federated learning is een gedistribueerde machine learning-benadering die modeltraining op een groot corpus van gedecentraliseerde gegevens mogelijk maakt. De trainingsgegevens worden op het edge-apparaat in het Internet of Things bewaard, zoals een mobiele telefoon, en niet in de cloud. Datadelen is niet nodig voor het trainen van het voorspellingsmodel. Met andere woorden, federated learning brengt de code naar de data in plaats van de data naar de code.

Een voorbeeld van een federated learning model is de Personal Health Train (PHT). Het PHT-initiatief bouwt voort op FAIR-dataprincipes. Het neemt datasoevereiniteit op in zijn ontwerpprincipes, waarbij dataprivacy en databescherming zoveel mogelijk zijn gewaarborgd. Op deze manier worden normen en waarden die wij als maatschappij belangrijk vinden in het design van technologie ingebed.

Dringend nodig: het recht op dataprocessing

Terug naar ons probleem. Machine learning en datadelen zijn van elementair belang voor de geboorte en de evolutie van AI. En daarmee voor het behoud van onze democratische waarden, welvaart en welzijn. Ik geef hieronder een aantal oplossingen voor de gesignaleerde juridische problemen rondom data.

Wat betreft de auteursrechten hebben we uitzonderingen op rechten nodig. Ten eerste de implementatie van een ruime, verplichte tekst en datamining-exceptie die alle soorten data in Europa omvat. Ten tweede de oprichting van een online clearing house met verplichte licensering voor machine learning-trainingdatasets gelijk een collectieve rechteninstantie. Ten derde de invoering van een recht op machine legibility. Elke uitzondering is gericht op het bevorderen van de dringend noodzakelijke vrijheid om machine learning-activiteiten te ontplooien.

Ten aanzien van de AVG deel ik graag de volgende twee waarnemingen. Er bestaat ten eerste geen dichotomie tussen privacy en databescherming. Dit zijn twee kanten van dezelfde medaille. Ten tweede: steeds meer datasets bestaan uit zowel personal als non-personal machine generated data. Dit noemen we een mixed dataset oftewel een gemengde databank. Zowel de AVG als de Free Flow of Data Regulation (FFD-verordening) zijn van toepassing op deze gemengde datasets. Wanneer gemengde datasets worden verwerkt in de context van machine learning en AI, is de vrije-stroom-of-overdracht-van-gegevens-bepaling van de AVG (vergelijk art. 20 dataportabiliteit) van toepassing op het gedeelte met persoonlijke gegevens van de dataset. De FFD-verordening is vervolgens van toepassing op het niet-persoonlijke gegevens gedeelte van de dataset. Twee wetten in tandem. De AVG biedt daarom voldoende ruimte om tot datadelen over te kunnen gaan. Vrees ervoor is begrijpelijk maar niet nodig. Op basis van deze twee verordeningen kan data vrij bewegen binnen de Europese Unie.

Wie heeft het meeste data in de wereld? De meeste consumentendata is in handen van Amerikaanse online platforms zoals Amazon, Google, Facebook en Microsoft, en het Chinese Alibaba. In de race om AI-suprematie heeft China de beschikking over massa’s goedkope arbeidskrachten die in data labeling farms gegevens van metadata voorzien in een machine readable formaat, ten behoeve van supervised machine learning. De Europese Unie beschikt op zijn beurt potentieel over een enorme hoeveelheid hoge kwaliteit industriële data, die schreeuwt om te worden uitgewisseld.

De Europese Commissie heeft de ambitie om datasoevereiniteit terug te winnen, en beoogt wereldwijd de standaard te zetten voor horizontaal en verticaal datadelen via het Towards Common Data Spaces-initiatief, zoals zij dat eerder succesvol deed met de AVG. Europa moet een internationale datahub worden. Deze initiatieven maken onderdeel uit van de Shaping Europe’s Digital Future-strategie en de European Data Strategy-agenda. Zo werd federated cloudplatform Gaia-X onlangs gelanceerd en er komt een veilige cloud in de edge, inclusief rulebook en marketplace. Deze verzameling beleidsdoelen vereist een modern, op maat gemaakt juridisch raamwerk in de vorm van de Europese Data Act, die in de loop van 2021 wordt verwacht.

Het is naar mijn idee cruciaal dat de Data Act een expliciet recht op dataprocessing bevat.

De reikwijdte van dit recht dient zich als een lex superior, lex specialis of lex posterior (de voorrangsregels uit het internationaal privaatrecht) uit te strekken van industriële data tot consumentendata en van private tot public data. Gecodificeerd als een gebruikersrecht met toegang, oftewel een primair of secundair datagebruiksrecht, met behoud van privacy en databescherming. Gemodelleerd naar een quasi, imperfect vruchtgebruik – niet voor land maar voor ‘eerste levensbehoefte’-data. Waar nodig geflankeerd door sectorspecifieke regelgeving zoals de Medical Device Regulation en de Machinerichtlijn, certificering en zelfnormering via tools als het AI Impact Assessment en de HLEG Assessment List for Trustworthy Artificial Intelligence (ALTAI). Indien wenselijk en noodzakelijk voor sociaal-maatschappelijke vooruitgang kan de wetgever nieuwe vormen en modaliteiten van eigendom implementeren en van toepassing verklaren op bepaalde categorieën data.

Tegelijkertijd moeten de Europese richtlijnen op deelgebieden van het intellectueel eigendomsrecht worden aangepast of verhelderd om de vijf hierboven aangeduide problemen op te lossen en de rechtsonzekerheid weg te nemen. Ook moeten er juridische mechanismen komen die veiligheidsrisico’s van en civiele aansprakelijkheid voor AI-gedreven producten en diensten afdoende tackelen. Mechanismen die er bovendien voor zorgen dat algoritmische systemen geen negatieve impact hebben op mensenrechten. Coherentie en complementariteit van de diverse regels dient hierbij te zijn gewaarborgd. Deze wetgevende inspanningen zullen een positief effect hebben op duurzame innovatie, in de zin van het verleggen van kennisgrenzen op wetenschappelijk, technologisch, esthetisch, cultureel en sociaal-maatschappelijk gebied.

Het is cruciaal dat de Europese Data Act een expliciet recht op dataprocessing bevat. Ook moeten Europese richtlijnen op deelgebieden van het intellectueel eigendomsrecht worden aangepast om juridische knelpunten op te lossen en rechtsonzekerheid we… — Het is cruciaal dat de Europese Data Act een expliciet recht op dataprocessing bevat. Ook moeten Europese richtlijnen op deelgebieden van het intellectueel eigendomsrecht worden aangepast om juridische knelpunten op te lossen en rechtsonzekerheid weg te nemen.

Wat beleidsmakers kunnen doen

Naast het maken van goede - en waar mogelijk techniekneutrale - wetten kunnen beleidsmakers concrete initiatieven ontplooien die bijdragen aan de bouw van een bloeiend AI-ecosysteem. Ten eerste kunnen zij – bij wijze van overheidsfinanciering voor gezonde competitie, innovatie en een fair level playing field – kennisvouchers aan jonge AI-start-ups uitreiken. Op die manier krijgen deze starters het budget om zich goed te laten adviseren en te voldoen aan de AVG. Ten tweede kunnen beleidsmakers kennisoverdracht stimuleren in publiek-private samenwerkingen zoals de NL AIC. Denk aan workshops over datadelen of het opstellen en automatiseren van licentiecontracten voor datadelen, datatoegang en data(her)gebruik. Contracten zijn in deze setting evenwel niet zaligmakend, omdat niet iedere partij bij een dergelijke overeenkomst dezelfde onderhandelingspositie heeft en zich daardoor in voorkomende gevallen zal moeten neerleggen bij onevenwichtige standaard clausules. Ten derde moeten data-uitwisselingsprotocollen en standaarden voor interoperabiliteit worden gerealiseerd, met bijbehorende IEC, ISO en NEN-normen. Tot slot kunnen beleidsmakers burgers en bedrijven bij de hand nemen en richtsnoeren bieden over de mogelijkheden van de FFD en de AVG in de praktijk. Onderwijs, informeer en faciliteer met een daartoe in het leven te roepen structuur, traject of instituut. In Finland gebeurt dit al met succes door een data permit authority. Heldere, geharmoniseerde voorschriften zorgen daar voor rechtszekerheid en vertrouwen in disruptieve technologie.

Data-altruïsme is een inventieve oplossing voor een tekort aan relevante data. Dezelfde overheidsinstantie die het veld ontzorgt bij de AVG en de FFD zou data donorship door burgers, instanties, bedrijven en de overheid kunnen faciliteren en registreren. Mede op basis van juridische concepten zoals opt-in en opt-out, creative commons en het publiek domein. Dit maakt datadonering van mobiliteitsgegevens, energiedata of gezondheidsinformatie mogelijk voor open data in het algemeen belang. Met een laagdrempelig, gestroomlijnd ‘datadonorcodicil’: ‘ja, nee of iemand anders beslist voor u’.

Technologie is niet neutraal

Tegelijk kan de architectuur van digitale systemen de sociaal-maatschappelijke impact van digitale transformatie reguleren. Een digitaal inclusieve samenleving moet technologie actief vormgeven. Technologie an sich is namelijk nooit neutraal. Maatschappelijke waarden zoals transparantie, vertrouwen, rechtvaardigheid, controle en cybersecurity moeten worden ingebouwd in het design van AI-systemen en de benodigde trainingdatasets, vanaf de eerste regel code.

Een kruisbestuiving van blockchain en AI kan dit realiseren. Denk aan een combinatie van gecentraliseerde en gedecentraliseerde datamanagementsystemen, waarbij cloud en edge met elkaar worden verbonden. Het tot norm maken van responsible tech en European ethically aligned design voorkomt bovendien dat samenlevingen die misschien prioriteit geven aan principes die fundamenteel afwijken van ons Europese digitale DNA, hun waarden met de distributie van hun eigen technologie aan ons opleggen. Waarden inbedden in het design van systemen moet een fundamenteel uitgangspunt worden van ons dataparadigma.

Blog over Kunstmatige Intelligentie, Quantum, Deep Learning, Blockchain en Big Data Law