Automatische tekstherkenning "Loghi"
- Publicatiecategorie
- Overige algoritmes
- Impacttoetsen
- DPIA
- Status
- In gebruik
Algemene informatie
Thema
Begindatum
Contactgegevens
Link naar publiekspagina
Verantwoord gebruik
Doel en impact
Het doel van de Automatische Tekst Herkenning (ATH) software ’Loghi’ is het automatisch omzetten van tekst op scans van documenten naar digitale tekst (transcripties). Om zo de tekst digitaal te kunnen doorzoeken en verdere digitale verwerking mogelijk te maken. Digitale verwerking is bijvoorbeeld het herkennen van persoonsnamen in de digitale tekst.
Afwegingen
Dit algoritme is in staat om automatisch transcripties te maken van grote hoeveelheden documenten waar de kosten en doorlooptijd van menselijke inzet te hoog zouden zijn. Het helpt onderzoekers om efficiënter onderzoek te doen en maakt het mogelijk om andere verbanden te leggen.
Menselijke tussenkomst
Voor automatische tekstherkenning wordt een model gemaakt. Een model is het resultaat van de training van een algoritme met een grote set gegevens waardoor computers intelligente taken automatisch kunnen uitvoeren. Bij het maken van het model worden scans voor training, validatie en testen meestal steekproefsgewijs geselecteerd. De geselecteerde scans worden, ten behoeve van het maken van een model, meestal handmatig getranscribeerd. Het Nationaal Archief beoordeelt de geschiktheid van een model aan de hand van het foutenpercentages die de validatieset en eventueel de testset laten zien. Steekproefsgewijs monitort het Nationaal Archief de kwaliteit van de automatische transcripties. Dat gebeurt visueel per scan en eventueel op karakterniveau. Correctie van automatische transcripties is mogelijk maar meestal te tijdrovend om grootschalig toe te passen. Dit is te verantwoorden omdat de oorspronkelijke tekst ook weergegeven wordt.
Risicobeheer
Het algoritme bepaalt welke karakters op de scan van een document staan. Bij gebruik van de automatisch gemaakte transcripties is het raadzaam om ook de scan te raadplegen omdat de software niet feilloos is. Er kunnen fouten optreden bij het bepalen van de juiste karakters en daarmee kan een verkeerde weergave van de karakters in de transcriptie voorkomen. Het is onmogelijk om vooringenomenheid in algoritmen te voorkomen. Hierbij stil te staan en controle te doen op mogelijke vooringenomenheid is daarom van belang. Het algoritme vormt op zichzelf geen risico. De data die wordt verwerkt door het algoritme en waar mogelijk persoonsgegevens in staan, vormen een risico. Risicobeheer is dus afhankelijk van de gebruikte dataset en de persoonsgegevens die daar in staan.
Er zijn twee momenten waarbij data gebruikt wordt door het algoritme. Bij training van het model voor een specifieke dataset en bij het daadwerkelijk omzetten van de digitale afbeeldingen naar digitale tekst.
Bij het trainen van het model bestaat het risicobeheer uit:
- Een Data Protection Impact Assessment (DPIA). Indien er mogelijk persoonsgegevens zijn in de zin van de AVG in het archief waarmee wordt getraind, moet een DPIA uitgevoerd zijn.
- Niet beschikbaar stellen. Indien archief met persoonsgegevens is gebruikt voor het model, dan wordt het model niet beschikbaar gesteld aan derden.
- Foutherkenning. Het model moet een bepaalde betrouwbaarheidswaarde hebben. De betrouwbaarheidswaarde wordt uitgedrukt in een aantal als fout herkende karakters of woorden.
Bij het omzetten van digitale afbeeldingen naar digitale tekst bestaat het risicobeheer uit:
- Een DPIA. Indien er mogelijk persoonsgegevens aanwezig zijn in het archief dat wordt omgezet, moet een DPIA uitgevoerd zijn.
- Een testset. Het model moet toepasbaar zijn op de dataset. Dit wordt bepaald aan de hand van een testset. Steekproefsgewijs worden zinnen zowel automatisch als handmatig getranscribeerd. De resultaten worden met elkaar vergeleken. Bij een te grote afwijking is het model (nog) niet geschikt.
- Betrouwbaarheidswaarde. De verwerkte scans moeten aan bepaalde betrouwbaarheidswaarden voldoen. De betrouwbaarheidswaarde wordt uitgedrukt in een waarde tussen 0 en 1 waarbij 1 goed is.
- Een handmatige steekproef. De verwerkte batch wordt door een medewerker steekproefsgewijs visueel gecontroleerd op fouten in de transcriptie.
Wettelijke basis
Op grond van de Archiefwet worden de naar het Nationaal Archief overgebrachte archieven beheerd door de algemene rijksarchivaris. De archieven dienen in goede, geordende en toegankelijke staat te worden gehouden, opdat onderzoek van de archieven maximaal wordt gefaciliteerd. Het onderhavige algoritme dient ter verbetering van de toegankelijke staat van de archieven.
Links naar wettelijke basis
Toelichting op impacttoetsen
De scans van documenten en daarmee ook de digitale tekst van de transcriptie kunnen persoonsgegevens bevatten. Zowel bij het trainen van het model als bij het daadwerkelijk maken van de transcripties kunnen dus persoonsgegevens worden verwerkt. Dit is afhankelijk van het archief dat getranscribeerd wordt. In veel gevallen staan persoonsgegevens in archieven. Bij een archief dat jonger is dan 110 jaar (dit is de maximaal gestelde leeftijd van een mens), persoonsgegevens bevat en die wordt gebruikt als trainingsdata of wordt getranscribeerd, wordt een Data Protection Impact Assessment (DPIA) uitgevoerd. Een DPIA wordt dan gedaan op verwerkingen en de data voordat het algoritme ingezet wordt en niet specifiek op het gebruikte algoritme of het trainen van het model.
Het algoritme is niet voor een specifiek archief opgesteld, het is generiek van opzet en daarmee inzetbaar op diverse archieven. Een DPIA wordt gedaan op de verwerkingen en de data van een specifiek archief. Het is hier niet mogelijk om alle DPIA impacttoetsen op te nemen voor alle getranscribeerde archieven omdat dit een oneindige lijst kan worden.
Impacttoetsen
Werking
Gegevens
Het algoritme Loghi verwerkt tekst van scans van (historische) documenten. Afhankelijk van de aangeboden archieven kunnen dit allerlei gegevens zijn.
Het algoritme is toegepast bij het transcriberen van het Centraal Archief Bijzondere Rechtspleging (CABR) maar ook bij het transcriberen van oudere archieven. Er kan hier geen specifieke gegevensbron aangewezen worden omdat het algoritme op meerdere gegevensbronnen/archieven toegepast kan worden.
Technische werking
De ATH-software “Loghi” bepaalt eerst waar de tekstregels zich bevinden. Dit kan de software bepalen doordat het getraind is om te detecteren waar de lijntjes staan waarop de tekst rust: de zogenoemde baselines. Dit kan gezien worden als het vinden van de liniering met tekst in een gelinieerd schrift.
Aan de hand van deze baselines kan de gehele tekstregel uitgeknipt worden. Deze wordt vervolgens automatisch getranscribeerd. In een eerder stadium heeft de software namelijk kunnen leren van vele voorbeelden van uitgeknipte tekstregels en hun bijbehorende handmatige transcriptie. Die kennis zit in een model.
Om een model te trainen, voor zowel het herkennen van de tekstregels als het herkennen van de karakters, moet trainingsdata worden gemaakt. Hiervoor wordt met een steekproef uit een set scans van documenten een representatieve dataset verkregen. Van deze scans wordt automatisch bepaald waar de baselines staan en welke karakters op de baselines staan. In de automatische transcripties zitten fouten. Die worden handmatig gecorrigeerd. De gecorrigeerde transcripties zijn de trainingsdata.
Door de software te voeden met de trainingsdata ontstaat een model dat zelf kan voorspellen waar baselines staan op de scan en welke karakters op de baseline staan. Na het trainen wordt het model geëvalueerd met een testset. Dit proces kan meerdere keren herhaald worden totdat het gewenste resultaat wordt behaald.
De ATH is software die bestaat uit meerdere componenten. Twee daarvan gebruiken machine learning. En kunnen aan de hand van voorbeelden in een getraind model voorspellingen doen over de data.
De eerste component is Laypa https://doi.org/10.1145/3604951.3605520. Laypa maakt gebruik van scans die aangevuld zijn met gegevens. Deze gegevens tonen waar een tekstregel zich bevindt op de scan van het document. Het doel van de software is zo accuraat mogelijk te voorspellen waar de tekstregels in een scan staan. Dit wordt gerealiseerd door te voorspellen welke pixels onderdeel zijn van een baseline.
De tweede component is Loghi https://doi.org/10.1007/978-3-031-70645-5_6. Loghi leert te voorspellen welke tekst er op niet eerdere geziene tekstregels staat. Dat gebeurt op basis van machine learning en voorbeelden van tekstregels en bijbehorende transcripties.
Leverancier
Link naar broncode
Soortgelijke algoritmebeschrijvingen
- Textmetrics is AI-software die organisaties helpt bij het controleren van content op onder andere toegankelijkheid, leesbaarheid en inclusiviteit. De software biedt, naast een op maat gemaakt dashboard, real-time feedback op taalgebruik, toon en leesniveau, en ondersteunt gebruikers met de AI assistent bij het genereren of herschrijven van teksten met behulp van generatieve AI.Laatst gewijzigd op 15 december 2025 om 8:59 | Publicatiestandaard 1.0
- Publicatiecategorie
- Overige algoritmes
- Impacttoetsen
- Veld niet ingevuld.
- Status
- In gebruik
- Dit algoritme heeft een laag impact. Het op woorden doorzoekbaar maken van historische handgeschreven documenten.Laatst gewijzigd op 10 september 2025 om 14:41 | Publicatiestandaard 1.0
- Publicatiecategorie
- Overige algoritmes
- Impacttoetsen
- Veld niet ingevuld.
- Status
- In gebruik
- Dit algoritme heeft een laag impact. Het op woorden doorzoekbaar maken van historische handgeschreven documenten.Laatst gewijzigd op 24 juni 2024 om 7:00 | Publicatiestandaard 1.0
- Publicatiecategorie
- Overige algoritmes
- Impacttoetsen
- Veld niet ingevuld.
- Status
- In gebruik