NLdoc
- Publicatiecategorie
- Overige algoritmes
- Impacttoetsen
- Veld niet ingevuld.
- Status
- In gebruik
Algemene informatie
Thema
Begindatum
Contactgegevens
Link naar publiekspagina
Link naar bronregistratie
Verantwoord gebruik
Doel en impact
Met NLdoc zet je ieder document eenvoudig om in een toegankelijke variant. Bruikbaar voor iedereen en op alle devices. Zo sluit je niemand buiten. Bovendien voldoen je documenten dan aan de wet voor digitale toegankelijkheid.
Afwegingen
Vrijwel alle overheidsorganisaties publiceren documenten in de vorm van veelal pdf-documenten op hun websites. Deze documenten zijn uitsluitend met specialistische software, en specifieke kennis toegankelijk te maken. Daardoor voldoen al deze organisaties niet aan de wettelijke eisen. NLdoc biedt een functionaliteit waarmee je een toegankelijk alternatief kunt publiceren naast de bestaande documenten. Er zijn geen betaalbare alternatieven beschikbaar en als iedere organisatie dit zelf moet oplossen, zou dat exponentieel meer geld kosten.
Menselijke tussenkomst
NLdoc zet je ontoegankelijke documenten automatisch om naar HTML. Soms is er nog wel wat menselijk inzicht nodig om de content volledig toegankelijk te maken. In de NLdoc-applicatie kun je eenvoudig die laatste stap zetten. Je hebt geen technische kennis nodig - onze gebruikersinterface wijst je de weg. Zodat je document voldoet aan alle WCAG 2.1-eisen.
Risicobeheer
Om te kunnen bepalen waar het NLdoc team aan moet werken, is het belangrijk inzicht te hebben in het gebruik van onze systemen. Met deze gegevens kunnen we onze dienst steeds beter maken. We ontdekken bijvoorbeeld welke toegankelijkheidsfouten vaak voorkomen en kunnen daarvoor automatische oplossingen ontwikkelen. We zorgen er natuurlijk voor dat we deze gegevens op een verantwoorde manier verzamelen.
Werking
Gegevens
Wanneer jij een document bij NLdoc upload, slaan we dat brondocument niet op. We verwerken de inhoud en transformeren die inhoud naar onze structuur. Dat produceert een toegankelijk HTML bestand wat je kunt downloaden of via de API wordt verwerkt in jullie eigen omgeving.
Technische werking
Met Tesseract lezen we de tekst uit pagina’s van documenten. Zo goed en zo kwaad als het kan gaat het model ons vertellen welke woorden waar op de pagina te vinden zijn.
Het YOLO v11 model is getraind op de DocLayNet dataset en helpt ons delen van pagina’s te classificeren. Na classificatie kunnen we van allerlei delen van de pagina zeggen wat voor content daar staat. Denk aan koppen, tabellen, afbeeldingen, paragrafen, titels etcetera. Deze classificaties kunnen we dan weer toepassen op de gevonden woorden, en dan weten we of een woord bijvoorbeeld onderdeel is van een heading of een lijst.
Het Table transformer model gebruiken we wanneer het YOLO model een tabel heeft gevonden, deze te analyseren. Dit model gaat ons dan vertellen hoe een tabel in elkaar zit. Dus waar zitten de rijen, waar de kolommen, waar zitten de tabel headers, etcetera. We kunnen dan met alle verzamelde data de tabel weer reconstrueren.