Tink derom: De algoritmebeskriuwingen yn it Frysk binne automatysk oerset. Hjir kinne flaters yn sitte. Foar de orizjinele beskriuwingen geane jo nei de Nederlânske ferzje fan it Algoritmeregister.
Automatyske tekstherkenning "Loghi"
- Publicatiecategorie
- Oare algoritmes
- Impacttoetsen
- DPIA
- Status
- Yn gebrûk
Algemene ynformaasje
Tema
Begjindatum
Kontaktgegevens
Link nei publykspagina
Ferantwurde gebrûk
Doel en impact
It doel fan 'e Automatyske Tekstherkenningssoftware (ATR) 'Loghi' is om tekst op dokumintscans automatysk om te setten yn digitale tekst (transkripsjes). Dit makket it mooglik om de tekst digitaal te sykjen en fierdere digitale ferwurking mooglik. Digitale ferwurking omfettet bygelyks it werkennen fan persoansnammen yn 'e digitale tekst.
Afwagings
Dit algoritme is by steat om grutte hoemannichten dokuminten automatysk te transkribearjen wêrby't de kosten en trochrintiid fan minsklike yntervinsje te heech wêze soene. It helpt ûndersikers om ûndersyk effisjinter út te fieren en makket it mooglik om oare ferbiningen te meitsjen.
Minskele tuskenkomst
In model wurdt makke foar automatyske tekstherkenning. In model is it resultaat fan it trainen fan in algoritme mei in grutte dataset, wêrtroch kompjûters automatysk yntelliginte taken útfiere kinne. By it meitsjen fan it model wurde scans meastentiids selektearre op basis fan stekproeven foar training, falidaasje en testen. De selektearre scans wurde typysk mei de hân transkribearre mei it doel om in model te meitsjen. It Nasjonaal Argyf beoardielet de geskiktheid fan in model op basis fan 'e flaterraten dy't werjûn wurde troch de falidaasjeset en, wêr fan tapassing, de testset. It Nasjonaal Argyf kontrolearret de kwaliteit fan 'e automatyske transkripsjes op basis fan stekproeven. Dit wurdt fisueel dien per scan en, wêr fan tapassing, op karakternivo. Korreksje fan automatyske transkripsjes is mooglik, mar meastentiids te tiidslinend om op grutte skaal ta te passen. Dit is rjochtfeardich, om't de orizjinele tekst ek werjûn wurdt.
Risikobehear
It algoritme bepaalt hokker tekens ferskine op in scan fan in dokumint. By it brûken fan automatysk generearre transkripsjes is it oan te rieden om ek de scan te rieplachtsjen, om't de software net ûnfeilber is. Flaters kinne foarkomme by it bepalen fan 'e juste tekens, wat kin resultearje yn in ferkearde werjefte fan 'e tekens yn' e transkripsje. It is ûnmooglik om bias yn algoritmen te foarkommen. Dêrom is it wichtich om hjir rekken mei te hâlden en te kontrolearjen op mooglike bias. It algoritme sels foarmet gjin risiko. De gegevens dy't troch it algoritme ferwurke wurde, dy't persoanlike gegevens kinne befetsje, foarmje in risiko. Risikomanagement hinget dêrom ôf fan 'e brûkte dataset en de persoanlike gegevens dy't dêryn befette binne.
Der binne twa mominten wêryn gegevens brûkt wurde troch it algoritme: tidens de training fan it model foar in spesifike dataset en tidens de eigentlike konverzje fan 'e digitale ôfbyldings nei digitale tekst.
By it trainen fan it model bestiet risikomanagement út:
- In Gegevensbeskermingsynfloedbeoardieling (DPIA). As der mooglik persoanlike gegevens yn 'e sin fan' e AVG yn it trainingsargyf binne, moat in DPIA útfierd wurde.
- Net beskikber stelle. As in argyf mei persoanlike gegevens brûkt is foar it model, sil it model net beskikber steld wurde oan tredden.
- Flaterdeteksje. It model moat in bepaalde betrouberenswearde hawwe. De betrouberenswearde wurdt útdrukt as in oantal tekens of wurden dy't as flaters werkenne wurde.
By it konvertearjen fan digitale ôfbyldings nei digitale tekst bestiet risikomanagement út:
- In DPIA. As persoanlike gegevens oanwêzich kinne wêze yn it argyf dat konvertearre wurdt, moat in DPIA útfierd wurde.
- In testset. It model moat fan tapassing wêze op de dataset. Dit wurdt bepaald mei in testset. Sinnen wurde sawol automatysk as mei de hân oerskreaun op in stekproefbasis. De resultaten wurde fergelike. As de ôfwiking te grut is, is it model (noch) net geskikt.
- Fertrouwenswearde. De ferwurke scans moatte oan bepaalde betrouberenswearden foldwaan. De betrouberenswearde wurdt útdrukt as in wearde tusken 0 en 1, wêrby't 1 goed is.
- In hânmjittich stekproef. De ferwurke batch wurdt fisueel kontrolearre troch in meiwurker op stekproefbasis op flaters yn 'e transkripsje.
Wettlike basis
Neffens de Argyfwet wurde de argiven dy't oerdroegen binne oan it Nasjonaal Argyf beheard troch de Steatsarchivaris. De argiven moatte yn goede, oarderlike en tagonklike steat hâlden wurde om ûndersyk dêryn safolle mooglik te fasilitearjen. It hjoeddeiske algoritme tsjinnet om de tagonklike steat fan 'e argiven te ferbetterjen.
Links nei wettlike basis
Taljochting op impacttoetsen
Scans fan dokuminten, en dêrtroch de digitale tekst fan 'e transkripsje, kinne persoanlike gegevens befetsje. Dêrom kinne persoanlike gegevens sawol tidens de training fan it model as tidens it eigentlike meitsjen fan 'e transkripsjes ferwurke wurde. Dit hinget ôf fan it argyf dat transkribearre wurdt. Yn in protte gefallen binne persoanlike gegevens yn argiven befette. Foar in argyf jonger as 110 jier (dit is de maksimaal ynstelde minsklike leeftyd), mei persoanlike gegevens, en dat brûkt wurdt as trainingsgegevens of transkribearre wurdt, wurdt in Data Protection Impact Assessment (DPIA) útfierd. In DPIA wurdt dan útfierd op 'e ferwurkingsoperaasjes en de gegevens foardat it algoritme ynset wurdt, en net spesifyk op it brûkte algoritme of de training fan it model.
It algoritme is net ûntwikkele foar in spesifyk argyf; it is generyk fan ûntwerp en dêrom fan tapassing op ferskate argiven. In DPIA wurdt útfierd op 'e ferwurkingsoperaasjes en de gegevens fan in spesifyk argyf. It is hjir net mooglik om alle DPIA-ynfloedbeoardielingen foar alle transkribearre argiven op te nimmen, om't dit kin resultearje yn in einleaze list.
Impacttoetsen
Wurking
Gegevens
It Loghi-algoritme ferwurket tekst út scans fan (histoaryske) dokuminten. Ofhinklik fan 'e oanbeane argiven kin dit allerlei soarten gegevens wêze.
It algoritme is tapast op 'e transkripsje fan it Sintraal Argyf fan Spesjale Jurisdiksje (CABR), en ek op 'e transkripsje fan âldere argiven. Der kin hjir gjin spesifike gegevensboarne identifisearre wurde, om't it algoritme tapast wurde kin op meardere gegevensboarnen/argiven.
Technyske wurking
De ATH-software "Loghi" bepaalt earst de posysje fan 'e tekstrigels. De software kin dit bepale, om't it traind is om de lokaasje fan 'e rigels te detektearjen wêrop't de tekst rêst: de saneamde basislinen. Dit kin sjoen wurde as it finen fan 'e rigelôfstân fan tekst yn linen.
Op basis fan dizze basislinen kin de hiele tekstregel útknipt wurde. Dit wurdt dan automatysk transkribearre. Yn in earder stadium koe de software leare fan in protte foarbylden fan útknipte tekstrigels en de oerienkommende hânmjittige transkripsje. Dy kennis is befette yn in model.
Om in model te trainen foar sawol rigelherkenning as karakterherkenning, moatte trainingsgegevens generearre wurde. Om dit te dwaan, wurdt in represintative dataset krigen fan in stekproef fan in set dokumintscans. Fan dizze scans wurdt de lokaasje fan 'e basislinen en de karakters dy't derop oanwêzich binne automatysk bepaald. De automatyske transkripsjes befetsje flaters, dy't mei de hân korrizjeare wurde. De korrizjeare transkripsjes foarmje de trainingsgegevens.
Troch de software te fieden mei de trainingsgegevens wurdt in model makke dat ûnôfhinklik de lokaasje fan basislinen op 'e scan foarsizze kin en hokker tekens op 'e basisline ferskine. Nei de training wurdt it model evaluearre mei in testset. Dit proses kin meardere kearen werhelle wurde oant it winske resultaat berikt is.
De ATH is software dy't út meardere komponinten bestiet. Twa dêrfan brûke masinelearen en kinne foarsizzingen dwaan oer de gegevens op basis fan foarbylden yn in traind model.
De earste komponint is Laypa https://doi.org/10.1145/3604951.3605520. Laypa brûkt scans oanfolle mei gegevens. Dizze gegevens litte de posysje fan in tekstregel op 'e scan fan it dokumint sjen. It doel fan 'e software is om de lokaasje fan tekstrigels binnen in scan sa krekt mooglik te foarsizzen. Dit wurdt berikt troch te foarsizzen hokker piksels diel útmeitsje fan in basisline.
De twadde komponint is Loghi https://doi.org/10.1007/978-3-031-70645-5_6. Loghi leart te foarsizzen hokker tekst op earder net sjoene tekstrigels stiet. Dit wurdt dien op basis fan masinelearen en foarbylden fan tekstrigels en oerienkommende transkripsjes.
Leveransier
Link nei boarnekoade
Soartgelikense algoritme beskriuwingen
- Dit algoritme wurdt brûkt binnen de BRP People API om it nammegebrûk te jaan yn rinnende tekst. Dat wurdt bygelyks tapast yn in sin yn in brief as der nei in oare persoan ferwiisd wurde moat.Lêst feroare op 21 oktober 2024 om 10:49 | Publikaasjestandaard 1.0
- Publicatiecategorie
- Ympaktfolle algoritmes
- Impacttoetsen
- DPIA
- Status
- Yn gebrûk
- It algoritme detektearret anomalieën yn it radiospektrum dat brûkt wurdt foar kommunikaasje yn 'e boargerloftfeart en stjoert se as notifikaasjes nei ynspekteurs. Dêrmei stipet it algoritme it deistige wurk fan dizze ynspekteurs.Lêst feroare op 24 maart 2026 om 14:32 | Publikaasjestandaard 1.0
- Publicatiecategorie
- Ympaktfolle algoritmes
- Impacttoetsen
- Fjild net ynfierd.
- Status
- Yn gebrûk
- Dit algoritme helpt om ynformaasje te finen yn kâlde saakbestannen. It brûkt in taalmodel om te sykjen nei de betsjutting fan wurden en net allinnich de krekte wurden.Lêst feroare op 28 jannewaris 2025 om 13:28 | Publikaasjestandaard 1.0
- Publicatiecategorie
- Oare algoritmes
- Impacttoetsen
- DPIA, Quickscan ethiek
- Status
- Yn gebrûk
- It algoritme yn 'e software herkent en anonymisearret persoanlike gegevens en oare gefoelige ynformaasje yn dokuminten. Oerheden publisearje geregeld ynformaasje oer de formulearring en útfiering fan harren belied (bygelyks op grûn fan de Woo). Dit ark wurdt brûkt om gefoelige gegevens net werkenber te meitsjen.Lêst feroare op 20 novimber 2024 om 14:27 | Publikaasjestandaard 1.0
- Publicatiecategorie
- Oare algoritmes
- Impacttoetsen
- DPIA
- Status
- Yn gebrûk
- PolyAI is in stimbot (spraakrobot) dy't mei in boarger kommunisearje kin mei help fan natuerlike spraakherkenning. Poly AI brûkt in algoritme om it ûnderwerp fan in fraach te werkennen.Lêst feroare op 10 septimber 2025 om 9:46 | Publikaasjestandaard 1.0
- Publicatiecategorie
- Ympaktfolle algoritmes
- Impacttoetsen
- DPIA, De Etyske Folder
- Status
- Yn gebrûk