Terug naar alle algoritmes

Ontdubbelingscript

Het ontdubbelingscript ondersteunt zoekspecialisten bij het filteren van dubbele bestanden bij een Woo-verzoek. 

Laatst gewijzigd op 31 oktober 2024 om 8:26 | Publicatiestandaard 1.0
Publicatiecategorie
Overige algoritmes
Impacttoetsen
Veld niet ingevuld.
Status
In gebruik

Algemene informatie

Thema

Organisatie en bedrijfsvoering

Begindatum

07-2023

Contactgegevens

cio-office@minfin.nl

Verantwoord gebruik

Doel en impact

Het algoritme heeft als doel de werkwijze binnen de Wet open overheid (Woo) verzoeken sneller en efficiënter te maken. Bij een Woo-verzoek kan het voorkomen dat er meerdere versies bestaan van de opgevraagde documenten. Dit algoritme helpt bij het ontdubbelen van deze documenten, zodat de Woo-verzoeker alleen relevante versies ontvangt. Voordat het algoritme in productie werd genomen, werd het ontdubbelen handmatig uitgevoerd. Door de inzet van het algoritme is het proces versneld, wat betekent dat de Woo-verzoeker sneller antwoord krijgt op het verzoek.

Afwegingen

Het algoritme helpt een zoekspecialist bij het vinden van dubbele documenten, zodat dit niet handmatig hoeft te gebeuren. Een mogelijk nadeel is dat sommige documenten onterecht als "dubbel" worden gemarkeerd. Dit gebeurt echter zo min mogelijk dankzij een zorgvuldige instelling. De zoekspecialist controleert de uitkomsten altijd handmatig.

Menselijke tussenkomst

Er zijn verschillende momenten waarop een specialist handmatig controleert tijdens het ontdubbelen van documenten. Eerst doet het algoritme een voorstel, dat de zoekspecialist beoordeelt. Daarna beslist de zoekspecialist of de selectie naar de juiste beleidsmedewerker moet worden gestuurd. De beleidsmedewerker bepaalt uiteindelijk welke documenten belangrijk zijn voor het Woo-verzoek en of er eventueel documenten ontbreken.


Risicobeheer

Het risico op onterecht als dubbel markeren is relatief laag. Dit risico is door de volgende maatregelen geminimaliseerd:


Afstelling algoritme: Het algoritme is conservatief afgesteld. Dit betekent dat het algoritme eerder te weinig documenten als dubbel markeert, dan teveel.


Handmatige beoordeling: De zoekspecialist beoordeelt handmatig de uitkomsten van de algoritme. De uitkomsten worden doorgestuurd naar de desbetreffende beleidsmedewerker. De beleidsmedewerker beoordeelt op compleetheid en relevantie. 

Wettelijke basis

Wet Open Overheid

Links naar wettelijke basis

Woo: https://wetten.overheid.nl/BWBR0045754/2023-04-01

Toelichting op impacttoetsen

Het algoritme verwerkt geen persoonsgegevens. De parameters zijn enkel afgestemd op meta-data van bestanden. 

Werking

Gegevens

Het algoritme maakt gebruik van de volgende gegevens:


  • Bestandsnaam
  • Grootte van het bestand

Technische werking

De input komt uit het zoekprogramma Zoek & Vind (Zoek & Vind - Ministerie van Financiën (overheid.nl) van het Ministerie van Financiën. Dit programma voegt extra karakters toe om unieke bestandsnamen te maken, zoals Windows dat vereist. Het ontdubbelingscript kijkt naar de bestandsnaam zonder deze extra karakters om te controleren of er dubbele bestanden zijn. Als er dubbele bestanden zijn, worden de bestandsgroottes met elkaar vergeleken. Op basis van bepaalde instellingen verplaatst het algoritme één van de twee bestanden naar een andere map. Zo houdt de zoekspecialist een map over met documenten die het ontdubbelingscript als “niet-dubbel” heeft beoordeeld.