Anonimiseringssoftware

Het algoritme laat zien welke (persoons)gegevens in documenten een organisatie zou moeten weglakken. Zodat persoonlijke of vertrouwelijke gegevens niet meer te zien zijn in die documenten.

Laatst gewijzigd op 18 november 2025 om 11:25 | Publicatiestandaard 1.0
Publicatiecategorie
Overige algoritmes
Impacttoetsen
DPIA
Status
In gebruik

Algemene informatie

Thema

Organisatie en bedrijfsvoering

Begindatum

2024-06

Contactgegevens

infoboxstaftaken@autoriteitpersoonsgegevens.nl

Verantwoord gebruik

Doel en impact

De anonimiseringssoftware wordt ingezet om documenten die de AP publiceert sneller en beter te anonimiseren. Zo voorkomen we datalekken en dragen we bij aan een betere bescherming van de AVG-rechten van betrokkenen.

Afwegingen

Anonimiseren is een effectieve manier om persoonsgegevens te beschermen en de risico's van de verwerking ervan te beperken. De AP moet vaak veel en grote documenten anonimiseren. Het kost veel tijd en werk om deze documenten volledig met de hand te anonimiseren. Bovendien  brengt dit het risico met zich mee dat documenten niet op dezelfde manier en niet volledig worden geanonimiseerd. Het gebruik van dit algoritme neemt dit risico grotendeels weg. Hierdoor kan de AP (persoons)gegevens in documenten consequenter en efficiënter anonimiseren.

Menselijke tussenkomst

Een medewerker van de AP beoordeelt altijd de suggesties van het algoritme voordat de AP (persoons) gegevens in de documenten definitief anonimiseert (weglakt). 

Risicobeheer

Een technisch risico is dat het algoritme onjuiste suggesties doet voor het anonimiseren van bepaalde (persoons)gegevens. Daardoor zou de AP te weinig of juist te veel (persoons)gegevens kunnen anonimiseren. Waardoor de AP ofwel privacygevoelige informatie zou verspreiden, ofwel te weinig informatie zou geven. Om dit te voorkomen, controleert een medewerker van de AP handmatig de suggesties van het algoritme.  

Wettelijke basis

Algemene verordening gegevensbescherming (AVG): Anonimiseren is een effectieve manier om persoonsgegevens te beschermen en de risico's van de verwerking ervan te beperken. Wanneer gegevens goed zijn geanonimiseerd, vallen ze niet langer onder de reikwijdte van de AVG. De gegevens zijn dan namelijk niet meer herleidbaar tot een natuurlijk persoon. Daarom wordt anonimiseren vaak toegepast als beveiligingsmaatregel om te voldoen aan de AVG-beginselen. Hoewel de AVG geen specifiek artikel over anonimiseren bevat, verwijst overweging 26 wel naar "de anonimisering van persoonsgegevens" als een manier om de risico's voor de betrokkenen (de mensen van wie persoonsgegevens worden verwerkt) tot een aanvaardbaar niveau terug te brengen. Anonimiseren wordt dus gezien als een belangrijke techniek om persoonsgegevens effectief te beschermen in overeenstemming met de AVG.


Wet open overheid (Woo): Op grond van artikel 5.1 lid 2 sub e van de Woo hoeven overheidsorganisaties geen informatie openbaar te maken als het belang daarvan niet opweegt tegen het belang van “eerbiediging van de persoonlijke levenssfeer”. Bevat overheidsinformatie persoonsgegevens, dan hoeven deze gegevens dus niet openbaar gemaakt te worden.  Anonimiseren van persoonsgegevens is dan een logische stap om de betreffende overheidsinformatie toch (gedeeltelijk) openbaar te kunnen maken.

Links naar wettelijke basis

  • AVG: https://eur-lex.europa.eu/legal-content/NL/TXT/HTML/?uri=CELEX:32016R0679&qid=1685451198313
  • Woo: https://wetten.overheid.nl/BWBR0045754/2023-04-01

Impacttoetsen

Data Protection Impact Assessment (DPIA): De AP heeft op de anonimiseringstool een DPIA uitgevoerd.

Werking

Gegevens

Het soort gegevens dat het algoritme gebruikt, hangt af van de (te anonimiseren) documenten. Meestal gaat het om persoonsgegevens en bedrijfsgevoelige informatie, soms ook om bijzondere persoonsgegevens. Voorbeelden zijn: namen, adressen, geboortedata, handtekeningen en e-mailadressen.

Technische werking

Algoritmen - Algoritmen zijn in computertaal geprogrammeerde instructies die autonoom of met menselijke betrokkenheid geautomatiseerd beslissingen nemen.


Dat doen de algoritmen van xxllnc Anonimiseren door (1) in door gebruikers aangeboden documenten met (persoons)gegevens, (2) binnen de xxllnc Anonimiseren editor omgeving, (3) te beslissen of moet worden gesuggereerd aan gebruikers dat zij maatregelen dienen te nemen ter anonimiseren van deze gegevens, (4) waarna bij afronding tot een definitief document de besluiten op deze suggesties impact kunnen hebben op de mensen aan wie deze gegevens toebehoren.

Kunstmatige intelligentie (AI) – In de literatuur onderscheidt men twee categorieën van AI: menselijk of rationeel denken (machines die in staat zijn om beslissingen te nemen, problemen op te lossen en te leren) en menselijk of rationeel handelen (machines kunnen activiteiten uitvoeren die intelligentie vereisen).

xxllnc Anonimiseren past specifieke AI toe van het type “Natural Language Processing”: het verwerken van geschreven taal. We gebruiken daarbij de techniek “Named Entity Recognition” om tot suggesties te komen voor de entiteit: “namen”, met als verwerking de gehele context van de geschreven taal binnen een document. De intelligentie van de oplossing wordt (verder) getraind op basis van datasets in een supervised machine learning (voorgeprogrammeerde input en output) omgeving van xxllnc Anonimiseren. De datasets voor verdere training betreffen nooit de documenten die door gebruikers van xxllnc Anonimiseren worden aangeboden, tenzij hiertoe vooraf uitdrukkelijk en separaat toestemming is gegeven door alle betrokkenen. 

 

Details van de verwerking

De tekstlaag van documenten wordt middels een API-call aangeboden aan de AI / Machine Learning, Text Analytics module van xxllnc Anonimiseren, waarvan een deel gehost bij Microsoft Azure. In beide gevallen bevindt de data zich binnen EER.

 

Tekst wat door de xxllnc Anonimiseren API in synchrone of asynchrone aanroepen wordt verzonden aan de Cloud wordt niet opgeslagen door de hostingprovider. xxllnc Anonimiseren heeft deze functionaliteit bewust standaard uitgeschakeld, zodat ook tijdelijke opslag van tekst input wordt voorkomen. Hiervoor heeft xxllnc Anonimiseren (als onderdeel van Privacy by Default), de beschikbare optie: LoggingOptOut queryparameter dienovereenkomstig ingesteld. Hierdoor wordt door de API met de Text Analytics alleen aangegeven welke data in teksten zijn geanalyseerd als entiteit "naam" en via een API-signaal, samen met de waarschijnlijkheidsscore (een percentage) aan de xxllnc Anonimiseren klantserver verzonden waarna de data input bij de Cloud automatisch wordt verwijderd en vernietigd.

 

Borging van het proces

xxllnc en Microsoft Azure hanteren het normenstelsel ISO27001 en hebben daarvoor alle te nemen maatregelen doorgevoerd en ondergebracht in een ISMS. De Text Analytics dienst valt onder de reikwijdte van de certificering van Microsoft. De verwerkingen vinden plaats binnen de EER (West-Europa), verdere verwerking (voor andere doeleinden) is contractueel uitgesloten.

Leverancier

XXLNC

Soortgelijke algoritmebeschrijvingen

  • Het algoritme herkent en anonimiseert persoonsgegevens in documenten.

    Laatst gewijzigd op 10 september 2024 om 12:06 | Publicatiestandaard 1.0
    Publicatiecategorie
    Overige algoritmes
    Impacttoetsen
    DPIA
    Status
    In gebruik
  • Het algoritme herkent en anonimiseert onder andere (persoons)gegevens en vertrouwelijke financiële gegevens in documenten voordat deze gepubliceerd worden.

    Laatst gewijzigd op 14 juni 2024 om 7:27 | Publicatiestandaard 1.0
    Publicatiecategorie
    Overige algoritmes
    Impacttoetsen
    Veld niet ingevuld.
    Status
    In gebruik
  • Het algoritme herkent en anonimiseert o.a. (persoons)gegevens, vertrouwelijke financiële gegevens en andere privavy gevoelige informatie in documenten voordat deze gepubliceerd of gedeeld worden.

    Laatst gewijzigd op 7 november 2024 om 10:08 | Publicatiestandaard 1.0
    Publicatiecategorie
    Overige algoritmes
    Impacttoetsen
    DPIA
    Status
    In gebruik
  • Algoritme herkent en anonimiseert (persoons)gegevens en vertrouwelijke gegevens in documenten voordat deze gepubliceerd worden.

    Laatst gewijzigd op 15 juli 2024 om 7:16 | Publicatiestandaard 1.0
    Publicatiecategorie
    Overige algoritmes
    Impacttoetsen
    DPIA
    Status
    In gebruik
  • Algoritme herkent en anonimiseert (persoons)gegevens en vertrouwelijke gegevens in documenten voordat deze gepubliceerd worden.

    Laatst gewijzigd op 15 juli 2024 om 7:15 | Publicatiestandaard 1.0
    Publicatiecategorie
    Overige algoritmes
    Impacttoetsen
    DPIA
    Status
    In gebruik