Anonimiseringssoftware

Het algoritme in de software herkent en anonimiseert persoonsgegevens en andere gevoelige informatie in documenten. Overheden publiceren regelmatig informatie die te maken heeft met het opstellen en uitvoeren van hun beleid (bijvoorbeeld op basis van de Woo). Deze tool wordt gebruikt om gevoelige gegevens daarbij onherkenbaar te maken.

Laatst gewijzigd op 9 januari 2025 om 9:23 | Publicatiestandaard 1.0
Publicatiecategorie
Overige algoritmes
Impacttoetsen
DPIA
Status
In gebruik

Algemene informatie

Thema

Organisatie en bedrijfsvoering

Begindatum

2025-01

Contactgegevens

privacy@hdsr.nl

Link naar publiekspagina

Anonimiseren - xxllnc

Verantwoord gebruik

Doel en impact

De anonimiseringstool wordt gebruikt om transparantie te waarborgen en tegelijkertijd personen, bedrijven en instellingen te beschermen.


Met de tool kan de organisatie informatie delen volgens regelgeving zoals de Woo, zowel actief als passief. Dit helpt bij de bescherming van persoonsgegevens van betrokkenen. Dat geldt ook voor de bescherming van privacygegevens van de medewerkers van de organisatie zelf.


Aanvragers van een Woo-verzoek krijgen de gevraagde informatie, geanonimiseerd of deels gemaskeerd volgens andere regelgeving. Voor de afdelingen die verantwoordelijk zijn voor het afhandelen van Woo-verzoeken, maakt de tool het voldoen aan wet- en regelgeving eenvoudiger en verkort het de doorlooptijd, zodat informatie binnen de wettelijke termijnen kan worden aangeboden.


De risico-impact van het algoritme is laag voor personen en organisaties. Het algoritme zoekt naar (persoons)gegevens en markeert of maskeert deze, zonder automatische beslissingen te nemen. Een vakexpert beoordeelt de voorstellen voor anonimiseren.


De tool biedt ook de optie om handmatig informatie te maskeren die niet openbaar gemaakt kan worden, zoals strategische informatie ter bescherming van de organisatie of partners. De grondslag voor anonimiseren of maskeren wordt door de tool vermeld.

Afwegingen

Soms kunnen bepaalde tekstfragmenten in documenten die openbaar worden gemaakt, niet met het publiek worden gedeeld. De Woo geeft hiervoor grondslagen, zoals bijvoorbeeld de Algemene Verordening Gegevensbescherming (AVG).


Zonder hulpmiddelen zou het anonimiseren van teksten veel tijd kosten en de kans op fouten vergroten, wat kan leiden tot ongewenste publicatie van gevoelige gegevens. Het gebruik van een anonimiseringstool versnelt en vereenvoudigt dit proces voor zowel actieve als passieve openbaarmaking.


Geautomatiseerd anonimiseren is minder foutgevoelig dan handmatig werk. Daardoor is de kans op datalekken kleiner en zijn de gegevens van personen beter beschermd.

Menselijke tussenkomst

Menselijke tussenkomst is altijd een eis bij het gebruik van de software. Dat betekent dat er altijd controle wordt uitgevoerd door medwerkers. De organisatie heeft een inrichtingsdocument opgesteld. Hiermee kan de organisatie het gebruik van algoritmes aanpassen aan hun specifieke situatie. Een vakspecialist beoordeelt voorstellen voor het anonimiseren van teksten. Er worden geen automatische beslissingen genomen.


Het algoritme zoekt naar (persoons)gegevens en markeert deze. De vakspecialist controleert en corrigeert de voorstellen. Dit werk kan eventueel door een tweede persoon binnen de tool worden gecontroleerd. Daarmee wordt voldaan aan de eis van 'menselijke tussenkomst'.

Risicobeheer

Om te voorkomen dat documenten niet goed geanonimiseerd worden, vindt er altijd een menselijke controle plaats. De software is intuïtief te gebruiken voor controle, wijzigingen of aanvullingen. Zonder menselijke controle kunnen er risico's ontstaan, zoals het openbaar maken van privacygevoelige gegevens. De combinatie van de tool en menselijke controle helpt dit te voorkomen.


Schending van privacywetgeving:

Het onbedoeld openbaar maken van persoonlijke gegevens kan een schending van de privacywetgeving inhouden, zoals de AVG in de EU. Dit kan leiden tot aanzienlijke boetes en juridische sancties.


Identiteitsdiefstal:

Als persoonlijke identificeerbare informatie (PII) zoals namen, adressen en sofinummers openbaar wordt gemaakt, kan dit leiden tot identiteitsdiefstal en financiële fraude.


Schade aan reputatie:

Zowel de reputatie van de individuen wiens informatie is gelekt als die van de organisatie die verantwoordelijk is voor het lek kunnen ernstige schade oplopen.


Verlies van vertrouwen:

Het vertrouwen van het publiek en de betrokken stakeholders in de organisatie kan afnemen, wat kan leiden tot een afname van de betrokkenheid en steun.


Persoonlijke schade:

Individuen kunnen emotionele en psychologische schade ondervinden als hun persoonlijke gegevens, zoals medische of financiële informatie, openbaar worden gemaakt.


Exploitatie en misbruik:

Openbaar gemaakte gegevens kunnen worden gebruikt voor kwaadwillende doeleinden, zoals staking, intimidatie of discriminatie.


Menselijke controle helpt om deze risico's te beperken door een extra laag van beoordeling en bevestiging te bieden. Er wordt dan gecontroleerd of de anonimiseringsprocessen goed zijn uitgevoerd voordat informatie openbaar wordt gemaakt.

Wettelijke basis

  • Algemene verordening gegevensbescherming (AVG)
  • Omgevingswet
  • Algemene Wet Bestuursrecht (AWB)
  • Bekendmakingswet
  • Wet Open Overheid (WOO)
  • Wet Elektronische Publicaties (WEP)

Links naar wettelijke basis

  • AVG: https://wetten.overheid.nl/BWBR0040940
  • Omgevingswet: https://wetten.overheid.nl/BWBR0037885
  • AWB: https://wetten.overheid.nl/BWBR0005537
  • Bekendmakingswet: https://wetten.overheid.nl/BWBR0004287
  • Wet Open Overheid (WOO): https://wetten.overheid.nl/BWBR0045754
  • Wet Elektronische Publicaties (WEP): https://wetten.overheid.nl/BWBR0043961

Impacttoetsen

Data Protection Impact Assessment (DPIA)

Werking

Gegevens

Alle informatie die te vinden is in de geuploade documenten (behalve de metadata), wordt verwerkt door het algoritme. Het kan daarbij gaan om gewone persoonsgegevens, bijzondere persoonsgegevens en strafrechtelijke gegevens. Het kan ook gaan om bedrijfsgevoelige informatie.

Technische werking

Documenten worden door een medewerker geupload naar de applicatie. Op dat moment wordt een kopie gemaakt van het origineel in de vorm van een PDF met tekstlaag en wordt de metadata van het oorspronkelijke document uit de kopie verwijderd. Deze kopie komt op een Nederlandse server terecht en blijft daar maximaal 30 dagen staan. De tekstlaag van de PDF wordt door een API aangeboden aan het machine learning algoritme. Het gaat om een Natural Language Processing algoritme (named entity recognition) van Microsoft Azure. De API levert terug op welke locatie in de geanalyseerde teksten waarschijnlijk een persoonsgegeven voorkomt, samen met de waarschijnlijkheidsscore (een percentage). Op dat moment wordt de tekstlaag bij Azure direct verwijderd. De waarschijnlijkheidsscore wordt samen met door de leverancier ontwikkelde eigen ai-modellen gebruikt om de herkenning van persoonsgegevens zo accuraat mogelijk te kunnen doen. De modellen worden getraind met gebruik van o.a. de volgende getrainde datasets als CoNLL-2003, UD Dutch LassySmall v2.8, Dutch NER Annotations for UD LassySmall en UD Dutch Alpino v2.8. Minimale kengetallen voor de nauwkeurigheid van het vaststellen van de persoonsgegevens zijn als volgt: Named entities (precision): 0.78, Named entities (recall): 0.76, Named entities (F-score): 0.77.Tot slot controleert een medewerker het document en wanneer deze het document afrondt, worden de te anonimiseren gegevens definitief uit de tekstlaag verwijderd en wordt een zwart balkje geplaatst.

Leverancier

DataMask B.V.

Soortgelijke algoritmebeschrijvingen

  • Het algoritme in de software herkent en anonimiseert persoonsgegevens en andere gevoelige informatie in documenten. Overheden publiceren regelmatig informatie die te maken heeft met het opstellen en uitvoeren van hun beleid (bijvoorbeeld op basis van de Woo). Deze tool wordt gebruikt om gevoelige gegevens daarbij onherkenbaar te maken.

    Laatst gewijzigd op 20 november 2024 om 14:27 | Publicatiestandaard 1.0
    Publicatiecategorie
    Overige algoritmes
    Impacttoetsen
    DPIA
    Status
    In gebruik
  • Het algoritme herkent en anonimiseert onder andere (persoons)gegevens en vertrouwelijke (financiële) gegevens in documenten, voordat deze gepubliceerd worden, bijvoorbeeld op basis van de Wet Open Overheid.

    Laatst gewijzigd op 4 april 2024 om 12:15 | Publicatiestandaard 1.0
    Publicatiecategorie
    Overige algoritmes
    Impacttoetsen
    Veld niet ingevuld.
    Status
    In gebruik
  • Het algoritme herkent en anonimiseert onder andere (persoons)gegevens en vertrouwelijke (financiële) gegevens in documenten, voordat deze gepubliceerd worden, bijvoorbeeld op basis van de Wet Open Overheid.

    Laatst gewijzigd op 4 april 2024 om 9:22 | Publicatiestandaard 1.0
    Publicatiecategorie
    Overige algoritmes
    Impacttoetsen
    Veld niet ingevuld.
    Status
    In gebruik
  • Het algoritme herkent en anonimiseert onder andere (persoons)gegevens en vertrouwelijke (financiële) gegevens in documenten, voordat deze gepubliceerd worden, bijvoorbeeld op basis van de Wet Open Overheid.

    Laatst gewijzigd op 8 april 2024 om 17:15 | Publicatiestandaard 1.0
    Publicatiecategorie
    Overige algoritmes
    Impacttoetsen
    Veld niet ingevuld.
    Status
    In gebruik
  • Het algoritme herkent en anonimiseert onder andere (persoons)gegevens en vertrouwelijke (financiële) gegevens in documenten, voordat deze gepubliceerd worden, bijvoorbeeld op basis van de Wet Open Overheid.

    Laatst gewijzigd op 14 maart 2024 om 13:20 | Publicatiestandaard 1.0
    Publicatiecategorie
    Overige algoritmes
    Impacttoetsen
    Veld niet ingevuld.
    Status
    In ontwikkeling