Anonimiseringssoftware DataMask
- Publicatiecategorie
- Impactvolle algoritmes
- Impacttoetsen
- DPIA, ...
- Status
- In gebruik
Algemene informatie
Thema
Begindatum
Contactgegevens
Verantwoord gebruik
Doel en impact
De anonimiseringssoftware wordt ingezet om documenten die de provincie publiceert sneller en beter te anonimiseren. Zo voorkomen we datalekken en dragen we bij aan een betere bescherming van de AVG-rechten van betrokkenen.
Afwegingen
Provincie Gelderland moet steeds vaker informatie openbaar maken. Om bij de publicatie te voldoen aan – onder andere – privacywetgeving, moet privacy- of bedrijfsgevoelige informatie worden weggelakt. Voordat het algoritme werd ingezet, ging dit lakken niet altijd goed. Er kwamen datalekken voor waarbij niet alle persoonsgegevens weggelakt waren of waarbij weggelakte informatie toch te lezen was. Het voordeel van de anonimiseringssoftware is dat er sneller en beter geanonimiseerd wordt. Het nadeel is dat de tekstlaag van het document door een Microsoft Azure server wordt geanalyseerd. De inhoud wordt niet op deze server opgeslagen, waardoor het privacy risico van het gebruik van het algoritme niet opweegt tegen het privacy voordeel van de afname van het aantal datalekken door onjuist anonimiseren.
Menselijke tussenkomst
De uitkomst van het algoritme wordt gecontroleerd door een medewerker. De medewerker wordt door de software verplicht om alle pagina's te controleren. De medewerker bepaalt of het document correct is geanonimiseerd.
Risicobeheer
Er is geen risico op geautomatiseerde besluitvorming of inbreuk op grondrechten, omdat het algoritme geen bindende beslissingen neemt, maar enkel voorstellen doet voor het anonimiseren van persoonsgegevens. Het algoritme wordt daarnaast ook door de ontwikkelaar zelf gebruikt, wat helpt bij het snel identificeren van fouten. Verder wordt het algoritme regelmatig opnieuw getraind om de prestaties te verbeteren. Onze organisatie heeft specifiek verzocht dat onze documenten niet worden gebruikt om het algoritme te trainen. Mocht het algoritme onvoldoende nauwkeurig zijn, dan kunnen we het proces verfijnen door gebruik te maken van zogenaamde blacklists en whitelists. Een blacklist bevat termen of gegevens, zoals specifieke namen of adressen, die altijd gemarkeerd en geanonimiseerd moeten worden. De whitelist bevat daarentegen informatie die niet gemarkeerd hoeft te worden, bijvoorbeeld omdat het geen persoonsgegevens betreft of omdat het om informatie gaat die expliciet niet geanonimiseerd mag worden, zoals functietitels of algemene termen. Dit maakt het mogelijk om de nauwkeurigheid van de anonimisatie verder te verbeteren.
De laatste stap in het proces is altijd een handmatige controle door een medewerker van de provincie, die beoordeelt of de anonimisatie correct is uitgevoerd. Er bestaat echter een risico dat medewerkers niet goed controleren. Dit proberen we te beperken door medewerkers te wijzen op het belang van een grondige controle en zorgvuldige beoordeling van de door het algoritme gevonden gegevens.
Het overgebleven risico is het privacyrisico bij het gebruik van Azure. Vanwege de Patriot Act kan Microsoft in sommige gevallen verplicht worden gegevens over te dragen aan Amerikaanse autoriteiten. Om dit risico te verminderen, past de leverancier privacy by default toe. Dit houdt in dat de standaardinstellingen altijd privacy-vriendelijk zijn. Wanneer gegevens via de API naar de Azure-dienst worden gestuurd, kan dit synchroon of asynchroon gebeuren. De leverancier heeft ervoor gekozen de functie uit te schakelen waabrij Azure de via de API verstuurde gegevens tijdelijk opslaat voor debuggingdoeleinden. Hierdoor worden de gegevens onmiddellijk na verwerking verwijderd. Bovendien is de leverancier ISO 27001 gecertificeerd, wat bevestigt dat de gegevensbescherming goed geregeld is. Het gebruik van deze software, met de genoemde voorzorgsmaatregelen, biedt meer voordelen dan de risico’s van het niet goed anonimiseren van gegevens zonder deze tool.
Wettelijke basis
1. WOO 2. WDO 3. UAVG 4. WEP 5. WDO
Links naar wettelijke basis
- Woo: https://wetten.overheid.nl/BWBR0045754/
- WDO: https://eur-lex.europa.eu/legal-content/NL/TXT/HTML/?uri=CELEX:31995L0046
- UAVG: https://wetten.overheid.nl/BWBR0040940
- Wep: https://wetten.overheid.nl/BWBR0043961
- Wdo: https://wetten.overheid.nl/BWBR0048156
- Wet elektronische publicaties: https://wetten.overheid.nl/BWBR0043961/2024-01-01
Link naar verwerkingsregister
Toelichting op impacttoetsen
DEDA & DPIA uitgevoerd door DataMask. Pre-DPIA uitgevoerd door provincie Gelderland. ICO Wizard opgevraagd door provincie Gelderland, ingevuld door DataMask.
Impacttoetsen
- DEDA anonimiseringssoftware
- DPIA anonimiseringssoftware
- ICO Wizard (BIO)
Werking
Gegevens
Alle informatie die te vinden is in de geüploade documenten (behalve de metadata), wordt verwerkt door het algoritme. Het kan daarbij gaan om gewone persoonsgegevens, bijzondere persoonsgegevens en strafrechtelijke gegevens. Het kan ook gaan om bedrijfsgevoelige informatie.
Technische werking
Documenten worden door een medewerker geüpload naar de applicatie. Op dat moment wordt een (tijdelijk) kopie gemaakt van het origineel in de vorm van een PDF met tekstlaag en wordt de metadata van het oorspronkelijke document uit de kopie verwijderd. Deze kopie komt op een Nederlandse server terecht en blijft daar maximaal 30 dagen staan. De tekstlaag van de PDF wordt door een API aangeboden aan het machine learning algoritme. Het gaat om een Natural Language Processing algoritme (named entity recognition) van Microsoft Azure. De API levert terug op welke locatie in de geanalyseerde teksten waarschijnlijk een persoonsgegeven voorkomt, samen met de waarschijnlijkheidsscore (een percentage). Op dat moment wordt de tekstlaag bij Azure direct verwijderd. De waarschijnlijkheidsscore wordt samen met door de leverancier ontwikkelde eigen ai-modellen gebruikt om de herkenning van persoonsgegevens zo accuraat mogelijk te kunnen doen. De modellen worden getraind met gebruik van o.a. de volgende getrainde datasets als CoNLL-2003, UD Dutch LassySmall v2.8, Dutch NER Annotations for UD LassySmall en UD Dutch Alpino v2.8. Minimale kengetallen voor de nauwkeurigheid van het vaststellen van de persoonsgegevens zijn als volgt: Named entities (precision): 0.78, Named entities (recall): 0.76, Named entities (F-score): 0.77. Tot slot controleert een medewerker het document en wanneer deze het document afrondt, worden de te anonimiseren gegevens definitief uit de tekstlaag verwijderd en wordt zwartgelakt.
Leverancier
Soortgelijke algoritmebeschrijvingen
- Het algoritme herkent en anonimiseert persoonsgegevens in documenten.Laatst gewijzigd op 10 september 2024 om 12:06 | Publicatiestandaard 1.0
- Publicatiecategorie
- Overige algoritmes
- Impacttoetsen
- DPIA
- Status
- In gebruik
- Het algoritme herkent en anonimiseert persoonsgegevens en in specifieke gevallen vertrouwelijke bedrijfsgegevens in documenten voordat deze gepubliceerd worden.Laatst gewijzigd op 5 maart 2024 om 14:34 | Publicatiestandaard 1.0
- Publicatiecategorie
- Impactvolle algoritmes
- Impacttoetsen
- DPIA
- Status
- In gebruik
- Het algoritme herkent en anonimiseert persoonsgegevens en in specifieke gevallen vertrouwelijke bedrijfsgegevens in documenten voordat deze gepubliceerd worden.Laatst gewijzigd op 4 maart 2024 om 14:47 | Publicatiestandaard 1.0
- Publicatiecategorie
- Overige algoritmes
- Impacttoetsen
- Veld niet ingevuld.
- Status
- In gebruik
- Het algoritme herkent en anonimiseert persoonsgegevens en in specifieke gevallen vertrouwelijke bedrijfsgegevens in documenten voordat deze gepubliceerd worden.Laatst gewijzigd op 4 maart 2024 om 14:48 | Publicatiestandaard 1.0
- Publicatiecategorie
- Overige algoritmes
- Impacttoetsen
- Veld niet ingevuld.
- Status
- In gebruik
- Het algoritme herkent en anonimiseert persoonsgegevens in documenten.Laatst gewijzigd op 7 augustus 2024 om 9:45 | Publicatiestandaard 1.0
- Publicatiecategorie
- Overige algoritmes
- Impacttoetsen
- DPIA
- Status
- In gebruik