Anonimiseren van documenten
- Publicatiecategorie
- Overige algoritmes
- Impacttoetsen
- Veld niet ingevuld.
- Status
- In gebruik
Algemene informatie
Thema
Begindatum
Contactgegevens
Verantwoord gebruik
Doel en impact
Het doel is het anonimiseren van privacygevoelige informatie in documenten die de gemeente publiceert.
Zo beschermen we de privacy van burgers en organisaties en voorkomen we (eventuele) datalekken.
Afwegingen
De gemeente wil informatie openbaar maken. Daarbij moet privacy- of bedrijfsgevoelige informatie worden beschermd.
Het voordeel van de anonimiseringssoftware is dat er sneller geanonimiseerd wordt. Een nadeel kan zijn dat er teveel vertrouwd wordt op de uitkomst van het algoritme, door minder goed te controleren.
Menselijke tussenkomst
De uitkomst van het algoritme wordt gecontroleerd door een medewerker. De medewerker wordt door de software verplicht om alle pagina's te controleren. De medewerker bepaalt of het document correct is geanonimiseerd.
Risicobeheer
- De medewerker van de gemeente doet altijd de laatste toets of een document juist is geanonimiseerd. Het risico bestaat dat medewerkers niet goed controleren, dit ondervangen we door aandacht te geven aan het belang van een zorgvuldige controle van de door het algoritme gevonden persoonsgegevens.
- Datamask is een SaaS-oplossing (Software As A Service). Een kopie van het document wordt zonder metadata geupload naar de omgeving van de leverancier om te verwerken. Onmiddelijk na de verwerking wordt de data en de dataverwerking verwijderd. Wordt de kopie niet direct verwerkt, dan blijft deze maximaal 30 dagen op de (Nederlandse) server van de leverancier bewaard.
- De leverancier is ISO 27001 gecertificeerd.
Wettelijke basis
Anonimiseren is belangrijk omdat het helpt om de privacy van individuen te beschermen en ervoor zorgt dat gevoelige informatie niet onbedoeld openbaar wordt gemaakt. De wettelijke basis voor het anonimiseren van gegevens in Nederland is voornamelijk vastgelegd in de Algemene Verordening Gegevensbescherming (AVG).
Links naar wettelijke basis
Link naar verwerkingsregister
Werking
Gegevens
Alle informatie die te vinden is in de geuploade documenten (behalve de metadata), wordt verwerkt door het algoritme. Het kan daarbij gaan om gewone persoonsgegevens, bijzondere persoonsgegevens en strafrechtelijke gegevens. Het kan ook gaan om bedrijfsgevoelige informatie.
Technische werking
Documenten worden geupload naar de applicatie. Op dat moment wordt een kopie gemaakt in de vorm van een PDF met tekstlaag en wordt de metadata van het oorspronkelijke document uit de kopie verwijderd. Deze kopie komt op de (Nederlandse) server van de leverancier terecht en blijft daar maximaal 30 dagen staan. De tekstlaag van de PDF wordt door een API aangeboden aan het machine learning algoritme.
Het gaat om een Natural Language Processing algoritme (named entity recognition) van Microsoft Azure. De API levert terug op welke locatie in de geanalyseerde teksten waarschijnlijk een persoonsgegeven voorkomt, samen met de waarschijnlijkheidsscore (een percentage). De leverancier gebruikt de waarschijnlijkheidsscore samen met eigen AI-modellen om de herkenning van persoonsgegevens zo accuraat mogelijk te kunnen doen.
Tot slot controleert een medewerker het document en wanneer deze het document afrondt, worden de te anonimiseren gegevens definitief uit de tekstlaag verwijderd en wordt een zwart balkje geplaatst.
Leverancier
Soortgelijke algoritmebeschrijvingen
- Het algoritme anonimiseert documenten door persoonsgegevens te markeren. Een medewerker controleert of de anonimisatie correct is uitgevoerd. Na de goedkeuring van de medewerker verwijdert de software de gemarkeerde gegevens en worden deze zwartgelakt. Daarna kunnen de documenten, bijvoorbeeld in het kader van de WOO, gepubliceerd worden.Laatst gewijzigd op 24 september 2024 om 12:38 | Publicatiestandaard 1.0
- Publicatiecategorie
- Impactvolle algoritmes
- Impacttoetsen
- DPIA, ...
- Status
- In gebruik
- Het algoritme onderstreept de persoonsgegevens in documenten. Een medewerker moet alle pagina's bekijken en controleren of het document goed geanonimiseerd is. Daarna verwijdert de software alle gemarkeerde informatie en wordt het zwartgelakt. Daarna kunnen de documenten gepubliceerd worden, bijvoorbeeld op basis van de Wet Open Overheid (WOO).Laatst gewijzigd op 31 oktober 2024 om 9:40 | Publicatiestandaard 1.0
- Publicatiecategorie
- Overige algoritmes
- Impacttoetsen
- DPIA, ...
- Status
- In gebruik
- Het algoritme onderstreept de persoonsgegevens in documenten. Een medewerker moet alle pagina's bekijken en controleren of het document goed geanonimiseerd is. Daarna verwijdert de software alle gemarkeerde informatie en wordt het zwartgelakt. Daarna kunnen de documenten gepubliceerd worden, bijvoorbeeld op basis van de Wet Open Overheid (WOO).Laatst gewijzigd op 8 januari 2025 om 13:06 | Publicatiestandaard 1.0
- Publicatiecategorie
- Overige algoritmes
- Impacttoetsen
- DPIA
- Status
- In gebruik
- Het algoritme onderstreept de persoonsgegevens in documenten. Een medewerker moet alle pagina's bekijken en controleren of het document goed geanonimiseerd is. Daarna verwijdert de software alle gemarkeerde informatie en wordt het zwartgelakt. Daarna kunnen de documenten gepubliceerd worden, bijvoorbeeld op basis van de Wet Open Overheid (WOO).Laatst gewijzigd op 12 november 2024 om 7:25 | Publicatiestandaard 1.0
- Publicatiecategorie
- Overige algoritmes
- Impacttoetsen
- DPIA, ...
- Status
- In gebruik
- Het algoritme onderstreept de persoonsgegevens in documenten. Een medewerker moet alle pagina's bekijken en controleren of het document goed geanonimiseerd is. Daarna verwijdert de software alle gemarkeerde informatie en wordt het zwartgelakt. Daarna kunnen de documenten gepubliceerd worden, bijvoorbeeld op basis van de Wet Open Overheid (WOO).Laatst gewijzigd op 20 november 2024 om 10:04 | Publicatiestandaard 1.0
- Publicatiecategorie
- Overige algoritmes
- Impacttoetsen
- Veld niet ingevuld.
- Status
- In gebruik