Anonimiseren
- Publicatiecategorie
- Overige algoritmes
- Impacttoetsen
- DEDA
- Status
- In gebruik
Algemene informatie
Thema
- Organisatie en bedrijfsvoering
- Onderwijs en wetenschap
Begindatum
Contactgegevens
Link naar publiekspagina
Verantwoord gebruik
Doel en impact
De software voor anonimiseren helpt om namen en gezichten te verbergen in archiefstukken. De openbaarheid van deze archiefstukken is in sommige gevallen beperkt op basis van de Archiefwet en sommige stukken kunnen onder de AVG vallen. Om deze (beperkt) openbare stukken toch beschikbaar te maken zijn persoonlijke gegevens uit gelakt.
Afwegingen
Het Zeeuws Archief moet zich houden aan de regels van de AVG en de Archiefwet als ze informatie publiceert. Om te controleren of de informatie goed is geanonimiseerd, gebruikt het Zeeuws Archief AQL-audits. Voor het anonimiseren van transcripties heeft het Zeeuws Archief samengewerkt met externe partners. De samenwerking met deze partners leverde echter een geen sucessvolle AQL steekproef op.
Het ontwikkelde algoritme herkent persoonsnamen, bsn-nummers en email-adressen; en anonimiseert deze vervolgens. Het proces vindt plaats op een interne server die enkel toegankelijk is voor geautoriseerde gebruikers. Het algoritme is gebouwd met een prioritering op "false-positives". Hierdoor wordt het risico op vergeten te anonimiseren gegevens beperkt. Wel zorgt dit voor meer "false negatives" (er wordt te veel weggelakt).
De output van het algoritme wordt gecontroleerd met een steekproef voordat het stuk gepubliceerd wordt. Wordt de steekproef niet gehaald dan volgt er een manuele correctie.
Het algoritme draagt bij aan een vermindering van datalekken als gevolg van onjuiste anonimisering. Hierdoor is er een positief effect op de bescherming van persoonsgegevens en hanteert het Zeeuws Archief de hoogste AQL-score.
Menselijke tussenkomst
Een medewerker controleert de uitkomst van het algoritme per batch. De medewerker kijkt of de archiefstukken goed zijn geanonimiseerd. Als dit niet het geval is wordt de hele batch handmatig geanonimiseerd.
Risicobeheer
Er is geen risico op geautomatiseerde besluitvorming. Het algoritme heeft geen invloed op grondrechten, omdat het geen besluiten neemt die rechtsgevolgen hebben. Er is wel een risico dat de output niet goed gecontroleerd wordt. Dit lossen we op met een AQL audit. Als de audit niet de hoogste score geeft, wordt het document niet gepubliceerd. Het risico dat niet geanonimiseerde data buiten het Archief komt, is verminderd omdat we het algoritme alleen intern gebruiken. De voordelen voor de privacy zijn groter dan de risico's van het niet gebruiken van deze software.
Daarnaast wordt bij publicatie aangegeven dat het anonimiseren een automatisch proces is waarbij AI is gebruikt. Bij het vinden van fouten kan contact worden opgenomen met de studiezaal.
Wettelijke basis
1. De UAVG (Uitvoeringswet Algemene Verordening Gegevensbescherming) is de wet die regels geeft over hoe we met persoonsgegevens omgaan.
2. De Archiefwet gaat over het bewaren van documenten en gegevens.
Links naar wettelijke basis
- UAVG: https://autoriteitpersoonsgegevens.nl/uploads/imported/verordening_2016_-_679_definitief.pdf
- Archiefwet: https://wetten.overheid.nl/BWBR0007376/2024-06-19
Toelichting op impacttoetsen
Impacttoetsen
Werking
Gegevens
Technische werking
Gezichtsherkenning gebeurt op basis van insightface. Herkende gezichten worden onherkenbaar gemaakt.
Persoonlijke gegevens worden herkend met Named Entity Recognition (NER). Hiervoor worden 3 openbare modellen achtereenvolgens ingezet. Deze modellen zijn te downloaden van HuggingFace.
Momenteel gaat het om:
- xlm-roberta-large-finetuned-conll03-english
- Davlan/bert-base-multilingual-cased-ner-hrl
- iiiorg/piiranha-v1-detect-personal-information
Herkende persoonlijke gegevens (persoonsnaam, BSN en e-mail) worden zwart gemaakt op de afbeelding en in de bijgevoegde transcriptie worden ze vervangen met de tekst "[Vertrouwelijk]".
De AQL-steekproef heeft een inspectie-level van III en een sampling plan van 1.0
Soortgelijke algoritmebeschrijvingen
- Het identificeren en anonimiseren van privacygevoelige informatie in informatieobjecten (in veel gevallen documenten).Laatst gewijzigd op 3 juni 2024 om 11:30 | Publicatiestandaard 1.0
- Publicatiecategorie
- Overige algoritmes
- Impacttoetsen
- Veld niet ingevuld.
- Status
- In gebruik
- Het identificeren en anonimiseren van privacygevoelige informatie in informatieobjecten (in veel gevallen documenten).Laatst gewijzigd op 10 juni 2024 om 9:56 | Publicatiestandaard 1.0
- Publicatiecategorie
- Impactvolle algoritmes
- Impacttoetsen
- Veld niet ingevuld.
- Status
- In gebruik
- Het identificeren en anonimiseren van privacygevoelige informatie in informatieobjecten (in veel gevallen documenten).Laatst gewijzigd op 12 april 2024 om 12:00 | Publicatiestandaard 1.0
- Publicatiecategorie
- Overige algoritmes
- Impacttoetsen
- Veld niet ingevuld.
- Status
- In gebruik
- Het identificeren en anonimiseren van privacygevoelige informatie in informatieobjecten (in veel gevallen documenten).Laatst gewijzigd op 26 juni 2024 om 19:07 | Publicatiestandaard 1.0
- Publicatiecategorie
- Overige algoritmes
- Impacttoetsen
- Veld niet ingevuld.
- Status
- In gebruik
- Het identificeren en anonimiseren van privacygevoelige informatie in informatieobjecten (in veel gevallen documenten).Laatst gewijzigd op 15 juli 2024 om 11:50 | Publicatiestandaard 1.0
- Publicatiecategorie
- Overige algoritmes
- Impacttoetsen
- Veld niet ingevuld.
- Status
- In gebruik