Tink derom: De algoritmebeskriuwingen yn it Frysk binne automatysk oerset. Hjir kinne flaters yn sitte. Foar de orizjinele beskriuwingen geane jo nei de Nederlânske ferzje fan it Algoritmeregister.

Automatyske tekstherkenning "Loghi"

Nasjonaal Argyf

It algoritme foar automatyske tekstherkenning (ATR) mei de namme 'Loghi' wurdt brûkt troch it Nasjonaal Argyf. Dit algoritme wurdt ynset om digitalisearre argiven tagonklik te meitsjen. It algoritme makket automatysk transkripsjes. Yn dit proses wurdt mei de hân skreaune, typte of printe tekst op scans fan dokuminten omset yn digitaal trochsykbere tekst (transkripsjes).

Lêst feroare op 28 april 2026 om 13:34 | Publikaasjestandaard 1.0

Publicatiecategorie: Oare algoritmes
Impacttoetsen: DPIA
Status: Yn gebrûk

Tema

Ûnderwiis en wittenskip

Begjindatum

2023-04

Kontaktgegevens

info@nationaalarchief.nl

Link nei publykspagina

https://www.nationaalarchief.nl/onderzoeken/datalab-nationaal-archief/handschriftherkenning

Doel en impact

It doel fan 'e Automatyske Tekstherkenningssoftware (ATR) 'Loghi' is om tekst op dokumintscans automatysk om te setten yn digitale tekst (transkripsjes). Dit makket it mooglik om de tekst digitaal te sykjen en fierdere digitale ferwurking mooglik. Digitale ferwurking omfettet bygelyks it werkennen fan persoansnammen yn 'e digitale tekst.

Afwagings

Dit algoritme is by steat om grutte hoemannichten dokuminten automatysk te transkribearjen wêrby't de kosten en trochrintiid fan minsklike yntervinsje te heech wêze soene. It helpt ûndersikers om ûndersyk effisjinter út te fieren en makket it mooglik om oare ferbiningen te meitsjen.

Minskele tuskenkomst

In model wurdt makke foar automatyske tekstherkenning. In model is it resultaat fan it trainen fan in algoritme mei in grutte dataset, wêrtroch kompjûters automatysk yntelliginte taken útfiere kinne. By it meitsjen fan it model wurde scans meastentiids selektearre op basis fan stekproeven foar training, falidaasje en testen. De selektearre scans wurde typysk mei de hân transkribearre mei it doel om in model te meitsjen. It Nasjonaal Argyf beoardielet de geskiktheid fan in model op basis fan 'e flaterraten dy't werjûn wurde troch de falidaasjeset en, wêr fan tapassing, de testset. It Nasjonaal Argyf kontrolearret de kwaliteit fan 'e automatyske transkripsjes op basis fan stekproeven. Dit wurdt fisueel dien per scan en, wêr fan tapassing, op karakternivo. Korreksje fan automatyske transkripsjes is mooglik, mar meastentiids te tiidslinend om op grutte skaal ta te passen. Dit is rjochtfeardich, om't de orizjinele tekst ek werjûn wurdt.

Risikobehear

It algoritme bepaalt hokker tekens ferskine op in scan fan in dokumint. By it brûken fan automatysk generearre transkripsjes is it oan te rieden om ek de scan te rieplachtsjen, om't de software net ûnfeilber is. Flaters kinne foarkomme by it bepalen fan 'e juste tekens, wat kin resultearje yn in ferkearde werjefte fan 'e tekens yn' e transkripsje. It is ûnmooglik om bias yn algoritmen te foarkommen. Dêrom is it wichtich om hjir rekken mei te hâlden en te kontrolearjen op mooglike bias. It algoritme sels foarmet gjin risiko. De gegevens dy't troch it algoritme ferwurke wurde, dy't persoanlike gegevens kinne befetsje, foarmje in risiko. Risikomanagement hinget dêrom ôf fan 'e brûkte dataset en de persoanlike gegevens dy't dêryn befette binne.

Der binne twa mominten wêryn gegevens brûkt wurde troch it algoritme: tidens de training fan it model foar in spesifike dataset en tidens de eigentlike konverzje fan 'e digitale ôfbyldings nei digitale tekst.

By it trainen fan it model bestiet risikomanagement út:

In Gegevensbeskermingsynfloedbeoardieling (DPIA). As der mooglik persoanlike gegevens yn 'e sin fan' e AVG yn it trainingsargyf binne, moat in DPIA útfierd wurde.
Net beskikber stelle. As in argyf mei persoanlike gegevens brûkt is foar it model, sil it model net beskikber steld wurde oan tredden.
Flaterdeteksje. It model moat in bepaalde betrouberenswearde hawwe. De betrouberenswearde wurdt útdrukt as in oantal tekens of wurden dy't as flaters werkenne wurde.

By it konvertearjen fan digitale ôfbyldings nei digitale tekst bestiet risikomanagement út:

In DPIA. As persoanlike gegevens oanwêzich kinne wêze yn it argyf dat konvertearre wurdt, moat in DPIA útfierd wurde.
In testset. It model moat fan tapassing wêze op de dataset. Dit wurdt bepaald mei in testset. Sinnen wurde sawol automatysk as mei de hân oerskreaun op in stekproefbasis. De resultaten wurde fergelike. As de ôfwiking te grut is, is it model (noch) net geskikt.
Fertrouwenswearde. De ferwurke scans moatte oan bepaalde betrouberenswearden foldwaan. De betrouberenswearde wurdt útdrukt as in wearde tusken 0 en 1, wêrby't 1 goed is.
In hânmjittich stekproef. De ferwurke batch wurdt fisueel kontrolearre troch in meiwurker op stekproefbasis op flaters yn 'e transkripsje.

Wettlike basis

Neffens de Argyfwet wurde de argiven dy't oerdroegen binne oan it Nasjonaal Argyf beheard troch de Steatsarchivaris. De argiven moatte yn goede, oarderlike en tagonklike steat hâlden wurde om ûndersyk dêryn safolle mooglik te fasilitearjen. It hjoeddeiske algoritme tsjinnet om de tagonklike steat fan 'e argiven te ferbetterjen.

Links nei wettlike basis

Archives Act: https://wetten.overheid.nl/BWBR0007376/2024-06-19/0

Taljochting op impacttoetsen

Scans fan dokuminten, en dêrtroch de digitale tekst fan 'e transkripsje, kinne persoanlike gegevens befetsje. Dêrom kinne persoanlike gegevens sawol tidens de training fan it model as tidens it eigentlike meitsjen fan 'e transkripsjes ferwurke wurde. Dit hinget ôf fan it argyf dat transkribearre wurdt. Yn in protte gefallen binne persoanlike gegevens yn argiven befette. Foar in argyf jonger as 110 jier (dit is de maksimaal ynstelde minsklike leeftyd), mei persoanlike gegevens, en dat brûkt wurdt as trainingsgegevens of transkribearre wurdt, wurdt in Data Protection Impact Assessment (DPIA) útfierd. In DPIA wurdt dan útfierd op 'e ferwurkingsoperaasjes en de gegevens foardat it algoritme ynset wurdt, en net spesifyk op it brûkte algoritme of de training fan it model.

It algoritme is net ûntwikkele foar in spesifyk argyf; it is generyk fan ûntwerp en dêrom fan tapassing op ferskate argiven. In DPIA wurdt útfierd op 'e ferwurkingsoperaasjes en de gegevens fan in spesifyk argyf. It is hjir net mooglik om alle DPIA-ynfloedbeoardielingen foar alle transkribearre argiven op te nimmen, om't dit kin resultearje yn in einleaze list.

Impacttoetsen

Data Protection Impact Assessment (DPIA)

Gegevens

It Loghi-algoritme ferwurket tekst út scans fan (histoaryske) dokuminten. Ofhinklik fan 'e oanbeane argiven kin dit allerlei soarten gegevens wêze.

It algoritme is tapast op 'e transkripsje fan it Sintraal Argyf fan Spesjale Jurisdiksje (CABR), en ek op 'e transkripsje fan âldere argiven. Der kin hjir gjin spesifike gegevensboarne identifisearre wurde, om't it algoritme tapast wurde kin op meardere gegevensboarnen/argiven.

Technyske wurking

De ATH-software "Loghi" bepaalt earst de posysje fan 'e tekstrigels. De software kin dit bepale, om't it traind is om de lokaasje fan 'e rigels te detektearjen wêrop't de tekst rêst: de saneamde basislinen. Dit kin sjoen wurde as it finen fan 'e rigelôfstân fan tekst yn linen.

Op basis fan dizze basislinen kin de hiele tekstregel útknipt wurde. Dit wurdt dan automatysk transkribearre. Yn in earder stadium koe de software leare fan in protte foarbylden fan útknipte tekstrigels en de oerienkommende hânmjittige transkripsje. Dy kennis is befette yn in model.

Om in model te trainen foar sawol rigelherkenning as karakterherkenning, moatte trainingsgegevens generearre wurde. Om dit te dwaan, wurdt in represintative dataset krigen fan in stekproef fan in set dokumintscans. Fan dizze scans wurdt de lokaasje fan 'e basislinen en de karakters dy't derop oanwêzich binne automatysk bepaald. De automatyske transkripsjes befetsje flaters, dy't mei de hân korrizjeare wurde. De korrizjeare transkripsjes foarmje de trainingsgegevens.

Troch de software te fieden mei de trainingsgegevens wurdt in model makke dat ûnôfhinklik de lokaasje fan basislinen op 'e scan foarsizze kin en hokker tekens op 'e basisline ferskine. Nei de training wurdt it model evaluearre mei in testset. Dit proses kin meardere kearen werhelle wurde oant it winske resultaat berikt is.

De ATH is software dy't út meardere komponinten bestiet. Twa dêrfan brûke masinelearen en kinne foarsizzingen dwaan oer de gegevens op basis fan foarbylden yn in traind model.

De earste komponint is Laypa https://doi.org/10.1145/3604951.3605520. Laypa brûkt scans oanfolle mei gegevens. Dizze gegevens litte de posysje fan in tekstregel op 'e scan fan it dokumint sjen. It doel fan 'e software is om de lokaasje fan tekstrigels binnen in scan sa krekt mooglik te foarsizzen. Dit wurdt berikt troch te foarsizzen hokker piksels diel útmeitsje fan in basisline.

De twadde komponint is Loghi https://doi.org/10.1007/978-3-031-70645-5_6. Loghi leart te foarsizzen hokker tekst op earder net sjoene tekstrigels stiet. Dit wurdt dien op basis fan masinelearen en foarbylden fan tekstrigels en oerienkommende transkripsjes.

Leveransier

KNAW Huygens Ynstitút

Link nei boarnekoade

https://github.com/knaw-huc/loghi

Soartgelikense algoritme beskriuwingen

Stim-aktivearre rapportaazje
GGD Yssellân
Dit algoritme konvertearret sprutsen tekst automatysk nei skreaune tekst. Professionals kinne in rapport, gearfetting of bestânsnotysje diktearje tidens of direkt nei in petear. It systeem makket hjirfan in konsept, dat troch in meiwurker kontrolearre en oanpast wurdt foardat it bewarre wurdt.
Lêst feroare op 3 july 2026 om 7:12 | Publikaasjestandaard 1.0
Publicatiecategorie
Oare algoritmes
Impacttoetsen
AIIA, DPIA
Status
Yn gebrûk
De ynformaasje fersyk Namme gebrûk yn de BRP API People
National Identity Data Service
Dit algoritme wurdt brûkt binnen de BRP People API om it nammegebrûk te jaan yn rinnende tekst. Dat wurdt bygelyks tapast yn in sin yn in brief as der nei in oare persoan ferwiisd wurde moat.
Lêst feroare op 21 oktober 2024 om 10:49 | Publikaasjestandaard 1.0
Publicatiecategorie
Ympaktfolle algoritmes
Impacttoetsen
DPIA
Status
Yn gebrûk
Loftfeartband
Nasjonaal Ynspekteurskip foar Digitale Ynfrastruktuer (RDI)
It algoritme detektearret anomalieën yn it radiospektrum dat brûkt wurdt foar kommunikaasje yn 'e boargerloftfeart en stjoert se as notifikaasjes nei ynspekteurs. Dêrmei stipet it algoritme it deistige wurk fan dizze ynspekteurs.
Lêst feroare op 24 maart 2026 om 14:32 | Publikaasjestandaard 1.0
Publicatiecategorie
Ympaktfolle algoritmes
Impacttoetsen
Fjild net ynfierd.
Status
Yn gebrûk
Kâlde gefal sykje applikaasje
Plysje
Dit algoritme helpt om ynformaasje te finen yn kâlde saakbestannen. It brûkt in taalmodel om te sykjen nei de betsjutting fan wurden en net allinnich de krekte wurden.
Lêst feroare op 28 jannewaris 2025 om 13:28 | Publikaasjestandaard 1.0
Publicatiecategorie
Oare algoritmes
Impacttoetsen
DPIA, Quickscan etyk
Status
Yn gebrûk
Octobox Anonymisearje
Wetterskip Zuiderzeelân
It algoritme yn 'e software herkent en anonymisearret persoanlike gegevens en oare gefoelige ynformaasje yn dokuminten. Oerheden publisearje geregeld ynformaasje oer de formulearring en útfiering fan harren belied (bygelyks op grûn fan de Woo). Dit ark wurdt brûkt om gefoelige gegevens net werkenber te meitsjen.
Lêst feroare op 20 novimber 2024 om 14:27 | Publikaasjestandaard 1.0
Publicatiecategorie
Oare algoritmes
Impacttoetsen
DPIA
Status
Yn gebrûk

Automatyske tekstherkenning "Loghi"

Nasjonaal Argyf

Algemene ynformaasje

Tema

Begjindatum

Kontaktgegevens

Link nei publykspagina

Ferantwurde gebrûk

Doel en impact

Afwagings

Minskele tuskenkomst

Risikobehear

Wettlike basis

Links nei wettlike basis

Taljochting op impacttoetsen

Impacttoetsen

Wurking

Gegevens

Technyske wurking

Leveransier

Link nei boarnekoade

Soartgelikense algoritme beskriuwingen

Stim-aktivearre rapportaazje

GGD Yssellân

De ynformaasje fersyk Namme gebrûk yn de BRP API People

National Identity Data Service

Loftfeartband

Nasjonaal Ynspekteurskip foar Digitale Ynfrastruktuer (RDI)

Kâlde gefal sykje applikaasje

Plysje

Octobox Anonymisearje

Wetterskip Zuiderzeelân