Transcriptieplatform Transkribus

Dit algoritme heeft een laag impact. Het op woorden doorzoekbaar maken van historische handgeschreven documenten.

Laatst gewijzigd op 9 december 2024 om 14:25 | Publicatiestandaard 1.0
Publicatiecategorie
Overige algoritmes
Impacttoetsen
Veld niet ingevuld.
Status
In gebruik

Algemene informatie

Thema

Cultuur en recreatie

Begindatum

Veld niet ingevuld.

Contactgegevens

algoritmen@amsterdam.nl

Verantwoord gebruik

Doel en impact

Het digitaal toegankelijk en doorzoekbaar maken van historische handgeschreven documenten voor onderzoekers en andere geïnteresseerden. Geen impact.

Afwegingen

Historisch onderzoek makkelijker maken. Hierdoor hebben meer mensen toegang tot historisch bronmateriaal.

Menselijke tussenkomst

De AI-modellen zijn binnen de tool Transkribus door medewerkers van het Stadsarchief getraind. De computergelezen teksten (HTR) zijn achteraf niet meer door mensen gecorrigeerd, waardoor er fouten kunnen zitten in de gelezen karakters

Risicobeheer

De risico’s zijn laag. Het Stadsarchief verwerkt geen niet-openbare documenten met HTR. Transkribus is voortgekomen uit een EU Horizon 2020 programma een daarna doorontwikkeld tot een Europese coöperatie met een groot aantal internationale erfgoedinstituten als leden. Alle data en metadata worden op Europese servers gehost en voldoen aan GDPR en AVG. 

Werking

Gegevens

Transcripties en Ground Truth
De dataset bevat machinegelezen transcripties en Ground Truth (trainingsmateriaal) van historische handschriften uit de notariële archieven, het archief van Publieke Werken en het openbare deel van de Burgerlijke Stand. Periodiek worden nieuwe scans met HTR toegevoegd. Het trainingsmateriaal bestaat uit tienduizenden transcripties, gemaakt door vrijwilligers en medewerkers van het Stadsarchief Amsterdam.

Technische werking

Met machine learning en Handwritten Text Recognition (HTR)-technieken worden AI-modellen getraind op het herkennen van handschriften. Zowel van17e-eeuwse- als modernere handschriften.

Architectuur van het model
De HTR is uitgevoerd met verschillende specifieke en generieke AI-modellen binnen Transkribus, gebruikmakend van convolutional neural networks en transformer neural networks. 

Leverancier

Transkribus

Link naar broncode

https://transkribus.eu/r/amsterdam-city-archives

Soortgelijke algoritmebeschrijvingen

  • Dit algoritme heeft een laag impact. Het op woorden doorzoekbaar maken van historische handgeschreven documenten.

    Laatst gewijzigd op 24 juni 2024 om 7:00 | Publicatiestandaard 1.0
    Publicatiecategorie
    Overige algoritmes
    Impacttoetsen
    Veld niet ingevuld.
    Status
    In gebruik
  • Op basis van taaltechnologie worden persoons- en bedrijfsnamen gelezen en uitgefilterd uit tekstbestanden als emails en losse documenten.

    Laatst gewijzigd op 14 oktober 2024 om 10:47 | Publicatiestandaard 1.0
    Publicatiecategorie
    Overige algoritmes
    Impacttoetsen
    Veld niet ingevuld.
    Status
    In gebruik
  • Algoritme dat de inschrijver kan helpen om “look-alike-fraude” te voorkomen.

    Laatst gewijzigd op 13 januari 2025 om 8:11 | Publicatiestandaard 1.0
    Publicatiecategorie
    Overige algoritmes
    Impacttoetsen
    Veld niet ingevuld.
    Status
    In gebruik
  • Algoritme dat de inschrijver kan helpen om “look-alike-fraude” te voorkomen. Afkomstig van de Rijksdienst voor Identiteitsgegevens (RvIG)

    Laatst gewijzigd op 16 augustus 2024 om 9:46 | Publicatiestandaard 1.0
    Publicatiecategorie
    Hoog-risico AI-systeem
    Impacttoetsen
    Veld niet ingevuld.
    Status
    In gebruik
  • Het algoritme onderstreept de persoonsgegevens in documenten. Een medewerker moet alle pagina's bekijken en controleren of het document goed geanonimiseerd is. Daarna verwijdert de software alle gemarkeerde informatie en wordt het onherstelbaar zwartgelakt. Daarna kunnen de documenten gepubliceerd worden, bijv. op basis van de Wet Open Overheid.

    Laatst gewijzigd op 30 september 2024 om 13:43 | Publicatiestandaard 1.0
    Publicatiecategorie
    Overige algoritmes
    Impacttoetsen
    DPIA, ...
    Status
    In gebruik