Transcriptieplatform Transkribus

Dit algoritme heeft een laag impact. Het op woorden doorzoekbaar maken van historische handgeschreven documenten.

Laatst gewijzigd op 24 juni 2024 om 7:00 | Publicatiestandaard 1.0
Publicatiecategorie
Overige algoritmes
Impacttoetsen
Veld niet ingevuld.
Status
In gebruik

Algemene informatie

Thema

Organisatie en bedrijfsvoering

Begindatum

2024-05

Contactgegevens

info@goeree-overflakkee.nl

Verantwoord gebruik

Doel en impact

Het digitaal toegankelijk en doorzoekbaar maken van historische handgeschreven documenten voor onderzoekers en andere geïnteresseerden. Geen impact.

Afwegingen

Historisch onderzoek makkelijker maken. Hierdoor hebben meer mensen toegang tot historisch bronmateriaal.

Menselijke tussenkomst

De AI-modellen zijn binnen de tool Transkribus door medewerkers van het streekarchief getraind. De computergelezen teksten (handwritten text recognition (HTR)) worden achteraf steekproefsgewijs gecontroleerd en waarnodig gecorrigeerd. Derden die fouten ontdekken kunnen dit melden bij het streekarchief. Na beoordeling van de melding kan dit leiden tot een correctie.

Risicobeheer

De risico’s zijn laag. Het streekarchief verwerkt alleen openbare documenten met HTR. Transkribus is voortgekomen uit een EU Horizon 2020 programma een daarna doorontwikkeld tot een Europese coöperatie met een groot aantal internationale erfgoedinstituten als leden. Alle data en metadata worden op Europese servers gehost en voldoen aan de AVG. 

Werking

Gegevens

Transcripties en Ground Truth

De dataset bevat machinegelezen transcripties en Ground Truth (trainingsmateriaal) van historische handschriften uit het openbare deel van de Burgerlijke Stand. Periodiek worden nieuwe scans met HTR toegevoegd.

Technische werking

Met machine learning en Handwritten Text Recognition (HTR)-technieken worden AI-modellen getraind op het herkennen van handschriften. Vanaf 19e-eeuwse- en modernere handschriften.


Architectuur van het model

De HTR is uitgevoerd met verschillende specifieke en generieke AI-modellen binnen Transkribus, gebruikmakend van convolutional neural networks en transformer neural networks. 

Leverancier

Transkribus

Soortgelijke algoritmebeschrijvingen

  • Dit algoritme heeft een laag impact. Het op woorden doorzoekbaar maken van historische handgeschreven documenten.

    Laatst gewijzigd op 9 december 2024 om 14:25 | Publicatiestandaard 1.0
    Publicatiecategorie
    Overige algoritmes
    Impacttoetsen
    Veld niet ingevuld.
    Status
    In gebruik
  • Op basis van taaltechnologie worden persoons- en bedrijfsnamen gelezen en uitgefilterd uit tekstbestanden als emails en losse documenten.

    Laatst gewijzigd op 14 oktober 2024 om 10:47 | Publicatiestandaard 1.0
    Publicatiecategorie
    Overige algoritmes
    Impacttoetsen
    Veld niet ingevuld.
    Status
    In gebruik
  • Algoritme dat de inschrijver kan helpen om “look-alike-fraude” te voorkomen.

    Laatst gewijzigd op 13 januari 2025 om 8:11 | Publicatiestandaard 1.0
    Publicatiecategorie
    Overige algoritmes
    Impacttoetsen
    Veld niet ingevuld.
    Status
    In gebruik
  • Algoritme dat de inschrijver kan helpen om “look-alike-fraude” te voorkomen. Afkomstig van de Rijksdienst voor Identiteitsgegevens (RvIG)

    Laatst gewijzigd op 16 augustus 2024 om 9:46 | Publicatiestandaard 1.0
    Publicatiecategorie
    Hoog-risico AI-systeem
    Impacttoetsen
    Veld niet ingevuld.
    Status
    In gebruik
  • Het algoritme onderstreept de persoonsgegevens in documenten. Een medewerker moet alle pagina's bekijken en controleren of het document goed geanonimiseerd is. Daarna verwijdert de software alle gemarkeerde informatie en wordt het onherstelbaar zwartgelakt. Daarna kunnen de documenten gepubliceerd worden, bijv. op basis van de Wet Open Overheid.

    Laatst gewijzigd op 30 september 2024 om 13:43 | Publicatiestandaard 1.0
    Publicatiecategorie
    Overige algoritmes
    Impacttoetsen
    DPIA, ...
    Status
    In gebruik