Anonimiseren

Persoonsnamen en gezichten herkennen in teksten en afbeeldingen, om deze vervolgens te anoniem te maken.
Laatst gewijzigd op 19 juni 2026 om 6:21 | Publicatiestandaard 1.0
Publicatiecategorie
Overige algoritmes
Impacttoetsen
DEDA
Status
In gebruik

Algemene informatie

Thema

  • Organisatie en bedrijfsvoering
  • Onderwijs en wetenschap

Begindatum

2024-09

Contactgegevens

ai-werkgroep@zeeuwsarchief.nl

Link naar publiekspagina

https://www.zeeuwsarchief.nl

Verantwoord gebruik

Doel en impact

De software voor anonimiseren helpt om namen en gezichten te verbergen in archiefstukken. De openbaarheid van deze archiefstukken is in sommige gevallen beperkt op basis van de Archiefwet en sommige stukken kunnen onder de AVG vallen. Om deze (beperkt) openbare stukken toch beschikbaar te maken zijn persoonlijke gegevens uit gelakt.

Afwegingen

Het Zeeuws Archief moet zich houden aan de regels van de AVG en de Archiefwet als ze informatie publiceert. Om te controleren of de informatie goed is geanonimiseerd, gebruikt het Zeeuws Archief AQL-audits. Voor het anonimiseren van transcripties heeft het Zeeuws Archief samengewerkt met externe partners. De samenwerking met deze partners leverde echter een geen sucessvolle AQL steekproef op.

Het ontwikkelde algoritme herkent persoonsnamen, bsn-nummers en email-adressen; en anonimiseert deze vervolgens. Het proces vindt plaats op een interne server die enkel toegankelijk is voor geautoriseerde gebruikers. Het algoritme is gebouwd met een prioritering op "false-positives". Hierdoor wordt het risico op vergeten te anonimiseren gegevens beperkt. Wel zorgt dit voor meer "false negatives" (er wordt te veel weggelakt).

De output van het algoritme wordt gecontroleerd met een steekproef voordat het stuk gepubliceerd wordt. Wordt de steekproef niet gehaald dan volgt er een manuele correctie.

Het algoritme draagt bij aan een vermindering van datalekken als gevolg van onjuiste anonimisering. Hierdoor is er een positief effect op de bescherming van persoonsgegevens en hanteert het Zeeuws Archief de hoogste AQL-score.

Menselijke tussenkomst

Een medewerker controleert de uitkomst van het algoritme per batch. De medewerker kijkt of de archiefstukken goed zijn geanonimiseerd. Als dit niet het geval is wordt de hele batch handmatig geanonimiseerd.

Risicobeheer

Er is geen risico op geautomatiseerde besluitvorming. Het algoritme heeft geen invloed op grondrechten, omdat het geen besluiten neemt die rechtsgevolgen hebben. Er is wel een risico dat de output niet goed gecontroleerd wordt. Dit lossen we op met een AQL audit. Als de audit niet de hoogste score geeft, wordt het document niet gepubliceerd. Het risico dat niet geanonimiseerde data buiten het Archief komt, is verminderd omdat we het algoritme alleen intern gebruiken. De voordelen voor de privacy zijn groter dan de risico's van het niet gebruiken van deze software.

Daarnaast wordt bij publicatie aangegeven dat het anonimiseren een automatisch proces is waarbij AI is gebruikt. Bij het vinden van fouten kan contact worden opgenomen met de studiezaal.

Wettelijke basis

1. De UAVG (Uitvoeringswet Algemene Verordening Gegevensbescherming) is de wet die regels geeft over hoe we met persoonsgegevens omgaan.

2. De Archiefwet gaat over het bewaren van documenten en gegevens.

Links naar wettelijke basis

  • UAVG: https://autoriteitpersoonsgegevens.nl/uploads/imported/verordening_2016_-_679_definitief.pdf
  • Archiefwet: https://wetten.overheid.nl/BWBR0007376/2024-06-19

Toelichting op impacttoetsen


Impacttoetsen

De Ethische Data Assistant (DEDA)

Werking

Gegevens

Het systeem verwerkt teksten die zijn omgezet naar geschreven woorden. Dit kan ook persoonlijke informatie bevatten.

Technische werking

Gezichtsherkenning gebeurt op basis van insightface. Herkende gezichten worden onherkenbaar gemaakt.

Persoonlijke gegevens worden herkend met Named Entity Recognition (NER). Hiervoor worden 3 openbare modellen achtereenvolgens ingezet. Deze modellen zijn te downloaden van HuggingFace.

Momenteel gaat het om:

- xlm-roberta-large-finetuned-conll03-english

- Davlan/bert-base-multilingual-cased-ner-hrl

- iiiorg/piiranha-v1-detect-personal-information


Herkende persoonlijke gegevens (persoonsnaam, BSN en e-mail) worden zwart gemaakt op de afbeelding en in de bijgevoegde transcriptie worden ze vervangen met de tekst "[Vertrouwelijk]".


De AQL-steekproef heeft een inspectie-level van III en een sampling plan van 1.0

Soortgelijke algoritmebeschrijvingen

  • Het identificeren en anonimiseren van privacygevoelige informatie in informatieobjecten (in veel gevallen documenten).
    Laatst gewijzigd op 3 juni 2024 om 11:30 | Publicatiestandaard 1.0
    Publicatiecategorie
    Overige algoritmes
    Impacttoetsen
    Veld niet ingevuld.
    Status
    In gebruik
  • Het identificeren en anonimiseren van privacygevoelige informatie in informatieobjecten (in veel gevallen documenten).
    Laatst gewijzigd op 10 juni 2024 om 9:56 | Publicatiestandaard 1.0
    Publicatiecategorie
    Impactvolle algoritmes
    Impacttoetsen
    Veld niet ingevuld.
    Status
    In gebruik
  • Het identificeren en anonimiseren van privacygevoelige informatie in informatieobjecten (in veel gevallen documenten).
    Laatst gewijzigd op 12 april 2024 om 12:00 | Publicatiestandaard 1.0
    Publicatiecategorie
    Overige algoritmes
    Impacttoetsen
    Veld niet ingevuld.
    Status
    In gebruik
  • Het identificeren en anonimiseren van privacygevoelige informatie in informatieobjecten (in veel gevallen documenten).
    Laatst gewijzigd op 26 juni 2024 om 19:07 | Publicatiestandaard 1.0
    Publicatiecategorie
    Overige algoritmes
    Impacttoetsen
    Veld niet ingevuld.
    Status
    In gebruik
  • Het identificeren en anonimiseren van privacygevoelige informatie in informatieobjecten (in veel gevallen documenten).
    Laatst gewijzigd op 15 juli 2024 om 11:50 | Publicatiestandaard 1.0
    Publicatiecategorie
    Overige algoritmes
    Impacttoetsen
    Veld niet ingevuld.
    Status
    In gebruik