Transcriptieplatform Transkribus
- Publicatiecategorie
- Overige algoritmes
- Impacttoetsen
- Veld niet ingevuld.
- Status
- In gebruik
Algemene informatie
Thema
Begindatum
Contactgegevens
Verantwoord gebruik
Doel en impact
Het digitaal toegankelijk en doorzoekbaar maken van historische handgeschreven documenten voor onderzoekers en andere geïnteresseerden. Geen impact.
Afwegingen
Historisch onderzoek makkelijker maken. Hierdoor hebben meer mensen toegang tot historisch bronmateriaal.
Menselijke tussenkomst
De AI-modellen zijn binnen de tool Transkribus door medewerkers van het streekarchief getraind. De computergelezen teksten (handwritten text recognition (HTR)) worden achteraf steekproefsgewijs gecontroleerd en waarnodig gecorrigeerd. Derden die fouten ontdekken kunnen dit melden bij het streekarchief. Na beoordeling van de melding kan dit leiden tot een correctie.
Risicobeheer
De risico’s zijn laag. Het streekarchief verwerkt alleen openbare documenten met HTR. Transkribus is voortgekomen uit een EU Horizon 2020 programma een daarna doorontwikkeld tot een Europese coöperatie met een groot aantal internationale erfgoedinstituten als leden. Alle data en metadata worden op Europese servers gehost en voldoen aan de AVG.
Werking
Gegevens
Transcripties en Ground Truth
De dataset bevat machinegelezen transcripties en Ground Truth (trainingsmateriaal) van historische handschriften uit het openbare deel van de Burgerlijke Stand. Periodiek worden nieuwe scans met HTR toegevoegd.
Technische werking
Met machine learning en Handwritten Text Recognition (HTR)-technieken worden AI-modellen getraind op het herkennen van handschriften. Vanaf 19e-eeuwse- en modernere handschriften.
Architectuur van het model
De HTR is uitgevoerd met verschillende specifieke en generieke AI-modellen binnen Transkribus, gebruikmakend van convolutional neural networks en transformer neural networks.
Leverancier
Soortgelijke algoritmebeschrijvingen
- Dit algoritme heeft een laag impact. Het op woorden doorzoekbaar maken van historische handgeschreven documenten.Laatst gewijzigd op 9 december 2024 om 14:25 | Publicatiestandaard 1.0
- Publicatiecategorie
- Overige algoritmes
- Impacttoetsen
- Veld niet ingevuld.
- Status
- In gebruik
- Op basis van taaltechnologie worden persoons- en bedrijfsnamen gelezen en uitgefilterd uit tekstbestanden als emails en losse documenten.Laatst gewijzigd op 14 oktober 2024 om 10:47 | Publicatiestandaard 1.0
- Publicatiecategorie
- Overige algoritmes
- Impacttoetsen
- Veld niet ingevuld.
- Status
- In gebruik
Geautomatiseerde gezichtsvergelijking bij het RNI-inschrijfproces.
Rijksdienst voor Identiteitsgegevens
Algoritme dat de inschrijver kan helpen om “look-alike-fraude” te voorkomen.Laatst gewijzigd op 13 januari 2025 om 8:11 | Publicatiestandaard 1.0- Publicatiecategorie
- Overige algoritmes
- Impacttoetsen
- Veld niet ingevuld.
- Status
- In gebruik
- Algoritme dat de inschrijver kan helpen om “look-alike-fraude” te voorkomen. Afkomstig van de Rijksdienst voor Identiteitsgegevens (RvIG)Laatst gewijzigd op 16 augustus 2024 om 9:46 | Publicatiestandaard 1.0
- Publicatiecategorie
- Hoog-risico AI-systeem
- Impacttoetsen
- Veld niet ingevuld.
- Status
- In gebruik
- Het algoritme onderstreept de persoonsgegevens in documenten. Een medewerker moet alle pagina's bekijken en controleren of het document goed geanonimiseerd is. Daarna verwijdert de software alle gemarkeerde informatie en wordt het onherstelbaar zwartgelakt. Daarna kunnen de documenten gepubliceerd worden, bijv. op basis van de Wet Open Overheid.Laatst gewijzigd op 30 september 2024 om 13:43 | Publicatiestandaard 1.0
- Publicatiecategorie
- Overige algoritmes
- Impacttoetsen
- DPIA, ...
- Status
- In gebruik