Yandex je nevronske mreže naučil dešifrirati arhivske zapise s kompleksnim črkovanjem
Miscellanea / / April 03, 2023
Zgodovinske rokopise, ki jih človek težko razčleni, umetna inteligenca skoraj v trenutku pretvori v tiskano besedilo.
Yandex je predstavil novo storitev, imenovano Archive Search, ki uporablja nevronske mreže za dešifriranje arhivskih zapisov s kompleksnim predrevolucionarnim črkovanjem.
Storitev omogoča dostop do več kot 2,5 milijona strani zgodovinskih dokumentov s prepisi besedil. Njegov algoritem, zgrajen na podlagi sistema za optično prepoznavanje znakov, upošteva posebnosti rokopisa, prepozna črke, ki so izgubile pomen, in razume posebno strukturo arhivskih dokumentov.
Strokovnjaki podjetja so usposobili nevronsko mrežo na podatkovnem nizu sto tisoč rokopisnih vrstic iz resničnih besedil 18.-19. stoletja in desetine milijonov ustvarjenih primerov.
Rokopise, ki jih nepripravljena oseba težko razčleni, tehnologija Yandex skoraj v trenutku spremeni v tiskano besedilo. Zahvaljujoč temu lahko v bazi podatkov storitve hitro najdete dokumente z omembo priimka, kraja ali katere koli druge besede.
»Iskanje po arhivih« bo povečalo učinkovitost dela zgodovinarjev, sociologov, demografov, rodoslovcev in pomagalo tistim, ki iščejo podatke o svoji družini.
Prvi sklad, predstavljen v storitvi, je bil Glavni arhiv Moskve - na njegovem gradivu so razvijalci usposobili nevronsko mrežo. Baza podatkov vsebuje tudi dokumente iz arhivov Orenburške in Novgorodske regije. Sčasoma se bo število shramb in razpoložljivih skeniranih datotek povečalo.
Iščete lahko gradiva iz 18. - začetka 20. stoletja, ki so med uporabniki najbolj priljubljena. To so župnijske matične knjige, spovedni listi in revizijske povesti z rezultati popisa prebivalstva. Dokumente najdete v katalogu ali prek iskalne vrstice. Na voljo so filtri po letih, arhivih, fondih in popisih.
Poleg skeniranja vsake strani je prikazano dekodiranje vrstice za vrstico, ki ga opravijo nevronske mreže. Če miškin kazalec premaknete nad želeni fragment, bo na digitalni kopiji takoj označen.