Automatische tekstherkenning "Loghi"

Het Automatische Tekst Herkenning (ATH) algoritme genaamd ’Loghi’ wordt gebruikt door het Nationaal Archief. Dit algoritme wordt ingezet bij het toegankelijk maken van gedigitaliseerd archief. Het algoritme maakt automatisch transcripties. Hierbij wordt handgeschreven, getypte of gedrukte tekst op scans van documenten omgezet naar digitaal doorzoekbare tekst (transcripties).
Laatst gewijzigd op 28 april 2026 om 13:34 | Publicatiestandaard 1.0
Publicatiecategorie
Overige algoritmes
Impacttoetsen
DPIA
Status
In gebruik

Algemene informatie

Thema

Onderwijs en wetenschap

Begindatum

2023 04

Contactgegevens

info@nationaalarchief.nl

Link naar publiekspagina

https://www.nationaalarchief.nl/onderzoeken/datalab-nationaal-archief/handschriftherkenning

Verantwoord gebruik

Doel en impact

Het doel van de Automatische Tekst Herkenning (ATH) software ’Loghi’ is het automatisch omzetten van tekst op scans van documenten naar digitale tekst (transcripties). Om zo de tekst digitaal te kunnen doorzoeken en verdere digitale verwerking mogelijk te maken. Digitale verwerking is bijvoorbeeld het herkennen van persoonsnamen in de digitale tekst.

Afwegingen

Dit algoritme is in staat om automatisch transcripties te maken van grote hoeveelheden documenten waar de kosten en doorlooptijd van menselijke inzet te hoog zouden zijn. Het helpt onderzoekers om efficiënter onderzoek te doen en maakt het mogelijk om andere verbanden te leggen.

Menselijke tussenkomst

Voor automatische tekstherkenning wordt een model gemaakt. Een model is het resultaat van de training van een algoritme met een grote set gegevens waardoor computers intelligente taken automatisch kunnen uitvoeren. Bij het maken van het model worden scans voor training, validatie en testen meestal steekproefsgewijs geselecteerd. De geselecteerde scans worden, ten behoeve van het maken van een model, meestal handmatig getranscribeerd. Het Nationaal Archief beoordeelt de geschiktheid van een model aan de hand van het foutenpercentages die de validatieset en eventueel de testset laten zien. Steekproefsgewijs monitort het Nationaal Archief de kwaliteit van de automatische transcripties. Dat gebeurt visueel per scan en eventueel op karakterniveau. Correctie van automatische transcripties is mogelijk maar meestal te tijdrovend om grootschalig toe te passen. Dit is te verantwoorden omdat de oorspronkelijke tekst ook weergegeven wordt.

Risicobeheer

Het algoritme bepaalt welke karakters op de scan van een document staan. Bij gebruik van de automatisch gemaakte transcripties is het raadzaam om ook de scan te raadplegen omdat de software niet feilloos is. Er kunnen fouten optreden bij het bepalen van de juiste karakters en daarmee kan een verkeerde weergave van de karakters in de transcriptie voorkomen. Het is onmogelijk om vooringenomenheid in algoritmen te voorkomen. Hierbij stil te staan en controle te doen op mogelijke vooringenomenheid is daarom van belang. Het algoritme vormt op zichzelf geen risico. De data die wordt verwerkt door het algoritme en waar mogelijk persoonsgegevens in staan, vormen een risico. Risicobeheer is dus afhankelijk van de gebruikte dataset en de persoonsgegevens die daar in staan.

Er zijn twee momenten waarbij data gebruikt wordt door het algoritme. Bij training van het model voor een specifieke dataset en bij het daadwerkelijk omzetten van de digitale afbeeldingen naar digitale tekst.

Bij het trainen van het model bestaat het risicobeheer uit:

  1. Een Data Protection Impact Assessment (DPIA). Indien er mogelijk persoonsgegevens zijn in de zin van de AVG in het archief waarmee wordt getraind, moet een DPIA uitgevoerd zijn.
  2. Niet beschikbaar stellen. Indien archief met persoonsgegevens is gebruikt voor het model, dan wordt het model niet beschikbaar gesteld aan derden.
  3. Foutherkenning. Het model moet een bepaalde betrouwbaarheidswaarde hebben. De betrouwbaarheidswaarde wordt uitgedrukt in een aantal als fout herkende karakters of woorden.

Bij het omzetten van digitale afbeeldingen naar digitale tekst bestaat het risicobeheer uit:

  1. Een DPIA. Indien er mogelijk persoonsgegevens aanwezig zijn in het archief dat wordt omgezet, moet een DPIA uitgevoerd zijn.
  2. Een testset. Het model moet toepasbaar zijn op de dataset. Dit wordt bepaald aan de hand van een testset. Steekproefsgewijs worden zinnen zowel automatisch als handmatig getranscribeerd. De resultaten worden met elkaar vergeleken. Bij een te grote afwijking is het model (nog) niet geschikt.
  3. Betrouwbaarheidswaarde. De verwerkte scans moeten aan bepaalde betrouwbaarheidswaarden voldoen. De betrouwbaarheidswaarde wordt uitgedrukt in een waarde tussen 0 en 1 waarbij 1 goed is.
  4. Een handmatige steekproef. De verwerkte batch wordt door een medewerker steekproefsgewijs visueel gecontroleerd op fouten in de transcriptie.


Wettelijke basis

Op grond van de Archiefwet worden de naar het Nationaal Archief overgebrachte archieven beheerd door de algemene rijksarchivaris. De archieven dienen in goede, geordende en toegankelijke staat te worden gehouden, opdat onderzoek van de archieven maximaal wordt gefaciliteerd. Het onderhavige algoritme dient ter verbetering van de toegankelijke staat van de archieven.

Links naar wettelijke basis

Archiefwet: https://wetten.overheid.nl/BWBR0007376/2024-06-19/0

Toelichting op impacttoetsen

De scans van documenten en daarmee ook de digitale tekst van de transcriptie kunnen persoonsgegevens bevatten. Zowel bij het trainen van het model als bij het daadwerkelijk maken van de transcripties kunnen dus persoonsgegevens worden verwerkt. Dit is afhankelijk van het archief dat getranscribeerd wordt. In veel gevallen staan persoonsgegevens in archieven. Bij een archief dat jonger is dan 110 jaar (dit is de maximaal gestelde leeftijd van een mens), persoonsgegevens bevat en die wordt gebruikt als trainingsdata of wordt getranscribeerd, wordt een Data Protection Impact Assessment (DPIA) uitgevoerd. Een DPIA wordt dan gedaan op verwerkingen en de data voordat het algoritme ingezet wordt en niet specifiek op het gebruikte algoritme of het trainen van het model.

Het algoritme is niet voor een specifiek archief opgesteld, het is generiek van opzet en daarmee inzetbaar op diverse archieven. Een DPIA wordt gedaan op de verwerkingen en de data van een specifiek archief. Het is hier niet mogelijk om alle DPIA impacttoetsen op te nemen voor alle getranscribeerde archieven omdat dit een oneindige lijst kan worden.

Impacttoetsen

Data Protection Impact Assessment (DPIA)

Werking

Gegevens

Het algoritme Loghi verwerkt tekst van scans van (historische) documenten. Afhankelijk van de aangeboden archieven kunnen dit allerlei gegevens zijn.

Het algoritme is toegepast bij het transcriberen van het Centraal Archief Bijzondere Rechtspleging (CABR) maar ook bij het transcriberen van oudere archieven. Er kan hier geen specifieke gegevensbron aangewezen worden omdat het algoritme op meerdere gegevensbronnen/archieven toegepast kan worden.

Technische werking

De ATH-software “Loghi” bepaalt eerst waar de tekstregels zich bevinden. Dit kan de software bepalen doordat het getraind is om te detecteren waar de lijntjes staan waarop de tekst rust: de zogenoemde baselines. Dit kan gezien worden als het vinden van de liniering met tekst in een gelinieerd schrift.

Aan de hand van deze baselines kan de gehele tekstregel uitgeknipt worden. Deze wordt vervolgens automatisch getranscribeerd. In een eerder stadium heeft de software namelijk kunnen leren van vele voorbeelden van uitgeknipte tekstregels en hun bijbehorende handmatige transcriptie. Die kennis zit in een model.

Om een model te trainen, voor zowel het herkennen van de tekstregels als het herkennen van de karakters, moet trainingsdata worden gemaakt. Hiervoor wordt met een steekproef uit een set scans van documenten een representatieve dataset verkregen. Van deze scans wordt automatisch bepaald waar de baselines staan en welke karakters op de baselines staan. In de automatische transcripties zitten fouten. Die worden handmatig gecorrigeerd. De gecorrigeerde transcripties zijn de trainingsdata.

Door de software te voeden met de trainingsdata ontstaat een model dat zelf kan voorspellen waar baselines staan op de scan en welke karakters op de baseline staan. Na het trainen wordt het model geëvalueerd met een testset. Dit proces kan meerdere keren herhaald worden totdat het gewenste resultaat wordt behaald.

De ATH is software die bestaat uit meerdere componenten. Twee daarvan gebruiken machine learning. En kunnen aan de hand van voorbeelden in een getraind model voorspellingen doen over de data.

De eerste component is Laypa https://doi.org/10.1145/3604951.3605520. Laypa maakt gebruik van scans die aangevuld zijn met gegevens. Deze gegevens tonen waar een tekstregel zich bevindt op de scan van het document. Het doel van de software is zo accuraat mogelijk te voorspellen waar de tekstregels in een scan staan. Dit wordt gerealiseerd door te voorspellen welke pixels onderdeel zijn van een baseline.

De tweede component is Loghi https://doi.org/10.1007/978-3-031-70645-5_6. Loghi leert te voorspellen welke tekst er op niet eerdere geziene tekstregels staat. Dat gebeurt op basis van machine learning en voorbeelden van tekstregels en bijbehorende transcripties.


Leverancier

KNAW Huygens Instituut

Link naar broncode

https://github.com/knaw-huc/loghi

Soortgelijke algoritmebeschrijvingen

  • Textmetrics is AI-software die organisaties helpt bij het controleren van content op onder andere toegankelijkheid, leesbaarheid en inclusiviteit. De software biedt, naast een op maat gemaakt dashboard, real-time feedback op taalgebruik, toon en leesniveau, en ondersteunt gebruikers met de AI assistent bij het genereren of herschrijven van teksten met behulp van generatieve AI.
    Laatst gewijzigd op 15 december 2025 om 8:59 | Publicatiestandaard 1.0
    Publicatiecategorie
    Overige algoritmes
    Impacttoetsen
    Veld niet ingevuld.
    Status
    In gebruik
  • Dit algoritme heeft een laag impact. Het op woorden doorzoekbaar maken van historische handgeschreven documenten.
    Laatst gewijzigd op 10 september 2025 om 14:41 | Publicatiestandaard 1.0
    Publicatiecategorie
    Overige algoritmes
    Impacttoetsen
    Veld niet ingevuld.
    Status
    In gebruik
  • Dit algoritme heeft een laag impact. Het op woorden doorzoekbaar maken van historische handgeschreven documenten.
    Laatst gewijzigd op 24 juni 2024 om 7:00 | Publicatiestandaard 1.0
    Publicatiecategorie
    Overige algoritmes
    Impacttoetsen
    Veld niet ingevuld.
    Status
    In gebruik