NLdoc

Logius

Met NLdoc maak je eenvoudig een toegankelijke versie van een ontoegankelijk document. Ook als je geen expert bent.

Laatst gewijzigd op 11 juni 2025 om 8:51 | Publicatiestandaard 1.0

Publicatiecategorie: Overige algoritmes
Impacttoetsen: Veld niet ingevuld.
Status: In gebruik

Thema

Organisatie en bedrijfsvoering

Begindatum

2025-03

Contactgegevens

nldoc@logius.nl

Link naar publiekspagina

https://NLdoc.nl

Link naar bronregistratie

https://gitlab.com/logius/nldoc

Doel en impact

Met NLdoc zet je ieder document eenvoudig om in een toegankelijke variant. Bruikbaar voor iedereen en op alle devices. Zo sluit je niemand buiten. Bovendien voldoen je documenten dan aan de wet voor digitale toegankelijkheid.

Afwegingen

Vrijwel alle overheidsorganisaties publiceren documenten in de vorm van veelal pdf-documenten op hun websites. Deze documenten zijn uitsluitend met specialistische software, en specifieke kennis toegankelijk te maken. Daardoor voldoen al deze organisaties niet aan de wettelijke eisen. NLdoc biedt een functionaliteit waarmee je een toegankelijk alternatief kunt publiceren naast de bestaande documenten. Er zijn geen betaalbare alternatieven beschikbaar en als iedere organisatie dit zelf moet oplossen, zou dat exponentieel meer geld kosten.

Menselijke tussenkomst

NLdoc zet je ontoegankelijke documenten automatisch om naar HTML. Soms is er nog wel wat menselijk inzicht nodig om de content volledig toegankelijk te maken. In de NLdoc-applicatie kun je eenvoudig die laatste stap zetten. Je hebt geen technische kennis nodig - onze gebruikersinterface wijst je de weg. Zodat je document voldoet aan alle WCAG 2.1-eisen.

Risicobeheer

Om te kunnen bepalen waar het NLdoc team aan moet werken, is het belangrijk inzicht te hebben in het gebruik van onze systemen. Met deze gegevens kunnen we onze dienst steeds beter maken. We ontdekken bijvoorbeeld welke toegankelijkheidsfouten vaak voorkomen en kunnen daarvoor automatische oplossingen ontwikkelen. We zorgen er natuurlijk voor dat we deze gegevens op een verantwoorde manier verzamelen.

Gegevens

Wanneer jij een document bij NLdoc upload, slaan we dat brondocument niet op. We verwerken de inhoud en transformeren die inhoud naar onze structuur. Dat produceert een toegankelijk HTML bestand wat je kunt downloaden of via de API wordt verwerkt in jullie eigen omgeving.

Technische werking

Met Tesseract lezen we de tekst uit pagina’s van documenten. Zo goed en zo kwaad als het kan gaat het model ons vertellen welke woorden waar op de pagina te vinden zijn.

Het YOLO v11 model is getraind op de DocLayNet dataset en helpt ons delen van pagina’s te classificeren. Na classificatie kunnen we van allerlei delen van de pagina zeggen wat voor content daar staat. Denk aan koppen, tabellen, afbeeldingen, paragrafen, titels etcetera. Deze classificaties kunnen we dan weer toepassen op de gevonden woorden, en dan weten we of een woord bijvoorbeeld onderdeel is van een heading of een lijst.

Het Table transformer model gebruiken we wanneer het YOLO model een tabel heeft gevonden, deze te analyseren. Dit model gaat ons dan vertellen hoe een tabel in elkaar zit. Dus waar zitten de rijen, waar de kolommen, waar zitten de tabel headers, etcetera. We kunnen dan met alle verzamelde data de tabel weer reconstrueren.