Ontdubbelingscript
- Publicatiecategorie
- Overige algoritmes
- Impacttoetsen
- Veld niet ingevuld.
- Status
- In gebruik
Algemene informatie
Thema
Begindatum
Contactgegevens
Verantwoord gebruik
Doel en impact
Afwegingen
Het algoritme helpt een zoekspecialist bij het vinden van dubbele documenten, zodat dit niet handmatig hoeft te gebeuren. Een mogelijk nadeel is dat sommige documenten onterecht als "dubbel" worden gemarkeerd. Dit gebeurt echter zo min mogelijk dankzij een zorgvuldige instelling. De zoekspecialist controleert de uitkomsten altijd handmatig.
Menselijke tussenkomst
Risicobeheer
Het risico op onterecht als dubbel markeren is relatief laag. Dit risico is door de volgende maatregelen geminimaliseerd:
Afstelling algoritme: Het algoritme is conservatief afgesteld. Dit betekent dat het algoritme eerder te weinig documenten als dubbel markeert, dan teveel.
Handmatige beoordeling: De zoekspecialist beoordeelt handmatig de uitkomsten van de algoritme. De uitkomsten worden doorgestuurd naar de desbetreffende beleidsmedewerker. De beleidsmedewerker beoordeelt op compleetheid en relevantie.
Wettelijke basis
Wet Open Overheid
Links naar wettelijke basis
Toelichting op impacttoetsen
Het algoritme verwerkt geen persoonsgegevens. De parameters zijn enkel afgestemd op meta-data van bestanden.
Werking
Gegevens
Het algoritme maakt gebruik van de volgende gegevens:
- Bestandsnaam
- Grootte van het bestand
Technische werking
De input komt uit het zoekprogramma Zoek & Vind (Zoek & Vind - Ministerie van Financiën (overheid.nl) van het Ministerie van Financiën. Dit programma voegt extra karakters toe om unieke bestandsnamen te maken, zoals Windows dat vereist. Het ontdubbelingscript kijkt naar de bestandsnaam zonder deze extra karakters om te controleren of er dubbele bestanden zijn. Als er dubbele bestanden zijn, worden de bestandsgroottes met elkaar vergeleken. Op basis van bepaalde instellingen verplaatst het algoritme één van de twee bestanden naar een andere map. Zo houdt de zoekspecialist een map over met documenten die het ontdubbelingscript als “niet-dubbel” heeft beoordeeld.