Otključavanje historije: AI prevodi rukopise iz osmanskog u moderni turski

Državni arhivi, biblioteke i privatne zbirke čuvaju milione dokumenata iz osmanskog perioda, uključujući knjige, časopise, novine, bilježnice, zapise i drugu građu napisanu na osmanskom turskom – čuvajući stoljetno historijsko naslijeđe koje čeka da bude otkriveno.

Umjesto ulaganja značajne količine vremena u učenje osmanskog turskog od nule, sada postoji nova inicijativa za rješavanje ove potrebe, poznata kao "sveobuhvatni prijevod s osmanskog turskog uz pomoć umjetne inteligencije".

Osmanlica.com, inicijativa koju je kao projekat doktorske disertacije započeo dr. Ishak Dolek pod mentorstvom vanrednog profesora dr. Atakana Kurta s Odsjeka za kompjuterski inženjering Univerziteta Istanbul-Cerrahpasa, postigla je 96 posto uspjeha u procesu osmanskog optičkog prepoznavanja znakova (OCR), što se može smatrati prvim korakom u prenošenju osmanskih izvora na savremeni turski jezik.

"Posjedujemo ogromnu arhivu koja uključuje otprilike stotinu miliona stranica iz osmanskog doba. Međutim, izazov leži u činjenici da ljudi ne mogu čitati i razumjeti ove arhive jer se njihov jezik razlikuje od savremenog turskog", kaže Atakan Kurt za TRT World.

„Ovo je jedan od najvećih izazova s kojima se suočavaju naši ljudi“, kaže on.

Na Osmanlica.com osmanski dokumenti se pretvaraju u moderni turski u tri koraka. Foto: TRT World

Jezička revolucija

Osmanski turski bio je jezik pisan koristeći turske oblike arapskog pisma između 13. i 20. stoljeća, a sadržavao je mnogo arapskih i perzijskih izraza.

1928. godine, pet godina nakon osnivanja Republike Turkiye, zemlja je doživjela jezičku revoluciju. Brzo se prešlo s upotrebe arapskog alfabeta na usvajanje rane verzije turskog, pisane latinicom, koja je i danas u upotrebi. Osim toga, tokom ovog perioda došlo je do značajnog uklanjanja stranih elemenata iz jezika.

Kurt kaže da je ono što je Evropska unija učinila za njihove historijske rukopise, pisane još od srednjeg vijeka, jeste da koristi ove kompjuterske programe da ih prevede u tekst koji se može uređivati.

„Budući da u Evropi ne postoji velika razlika između jezika srednjeg vijeka i jezika današnjice, oni samo pretvaraju ove štampane i rukopisne tekstove — stare novine, knjige, pisma, rukopise — iz datoteka slika u tekstove koji se mogu uređivati, i dijele ih “, napomenuo je.

Osmanski OCR pretvara sliku u tekst koji se može uređivati. Foto: TRT World

Rješenje u tri koraka

Kada je riječ o osmanskom turskom, Kurt kaže da su se suočili s dva dodatna problema.

“Prvo, abeceda u našim tekstovima je drugačija od one koju danas koristimo. Drugo, jezik je također različit. Čak i ako prevedemo slova, ljudi ne razumiju jezik koji se koristio prije otprilike jedno ili dva stoljeća. Čak je i jezik koji se koristio prije pedeset godina danas gotovo nerazumljiv.”

“Drugim riječima, jezik koji se koristio u to vrijeme sada je kao strani jezik. Zato moramo i jezik dokumenata prevesti na savremeni turski.”

Na Osmanlica.com osmanski dokumenti se pretvaraju u moderni turski u tri koraka. Prvo, osmanski OCR (Optičko prepoznavanje znakova), tj. pretvaranje slike u tekst koji se može uređivati; drugo, transliteracija osmanskog turskog pisma; i treće, prevod osmanskog turskog na savremeni turski.

Svaki od ova tri koraka su tehnički složeni problemi koji zahtijevaju velike resurse u obradi prirodnog jezika (NLP, tj. sposobnost kompjutera da koristi i razumije govorni i/ili pisani jezik sličan ljudskom) i dubokom učenju (metoda AI koja podučava računare - da obrađuje podatke na način sličan ljudskom mozgu).

Da bi to postigli, Atakan Kurt i njegov partner Ishak Dolek osnovali su kompaniju pod nazivom "Mina Arge" i razvili OCR projekt kao prvi korak.

Nakon uspješnog završetka OCR projekta, kompanija trenutno razvija drugu fazu, transliteraciju osmanskog turskog pisma, uz podršku KOSGEB-a, Organizacije za razvoj malih i srednjih preduzeća i TUBITAK-a, Vijeća za naučna i tehnološka istraživanja Turkiye.

Transliteracija osmanskoturskog pisma Foto: TRT World

Interdisciplinarno istraživanje

Kompanija, koja je već postigla 75 posto tačnosti u prijevodu alfabeta, nastavlja svoje istraživačko-razvojne aktivnosti s grupom informatičara, jezikoslovaca, lingvista i historičara, kako bi postigla stopu tačnosti od 95 posto u ovoj aplikaciji.

„Za efikasno provođenje ovih studija potrebno je više od jednog studenta doktorskih studija; potrebne su vam dvije različite grupe koje sarađuju. Jednu grupu čine informatičari, dok drugu čine stručnjaci za historiju i jezik. Ovo predstavlja interdisciplinarnu studiju”, napomenuo je Kurt.

Adile Ozgunay, jedna od historičarki zaposlenih kao ekspert na projektu, rekla je da radi na osmanskom turskom blizu 11 godina. „Imala sam priliku da izbliza posmatram koliko je truda i vremena potrebno na terenu. Protekle dvije godine ulagali smo svoj trud i vjeru u ovaj projekat.”

Ozgunay je rekla da „diplomci i doktoranti koji rade u Osmanskom arhivu provode znatnu količinu vremena u prevođenju i transliteraciji u sklopu svog akademskog studija. Ovaj projekat će omogućiti istraživačima da posvete više vremena svom istraživanju, a mnogo manje prevođenju."

Kompanija, koja je već postigla 75 posto tačnosti u prevođenju pisma, nastavlja svoje istraživačke i razvojne aktivnosti s grupom informatičara, lingvista i historičara. Foto: TRT World

“Najznačajniji projekat stoljeća”

Kurt je spomenuo: "Procjenjujem da postoji više od stotinu miliona osmanskih arhiva smještenih u inozemstvu. Čak i institucije poput Univerziteta u Torontu u Kanadi posjeduju najmanje hiljadu knjiga napisanih na osmanskom turskom. Dodatno, brojni osmanski dokumenti mogu se pronaći na Balkanu, Bliskom istoku, pa čak i u nekim zemljama u Africi."

Ozgunay je također navela da brzo prilagođavanje umjetne inteligencije društvenim naukama nudi akademicima interdisciplinarno proširenje polja. Naučnici su počeli da integrišu druge tehnologije, kao što su mapiranje i analiza odnosa, u svoja istraživanja, dodala je ona.

Osim što će koristiti akademicima, projekat će također pomoći ljudima koji ne znaju čitati osmanski turski, ali žele čitati dokumente kao što su vlasnički listovi, pisma njihovih predaka ili rukom pisane bilješke na poleđini fotografije, istaknula je.

“Vjerujem da će se, kada postignemo sve faze ovog projekta, istaknuti kao najznačajniji projekat stoljeća u području društvenih nauka u Turkiye”, naglasio je Kurt.

TRT Balkan

Otključavanje historije: AI prevodi rukopise iz osmanskog u moderni turski

Povezane vijesti

Članci u trendu u ovoj kategoriji

Šta biste još željeli znati?

Korporativni

Pravne obaveze