Pri podjetju Meta so izdali nov model “govora v besedilo” (speach to text), ki lahko prevede skoraj 100 jezikov, imenovan SeamlessM4T, saj podjetje še naprej poskuša narediti univerzalni prevajalnik.
SeamlessM4T, kar pomeni masivno večjezično in večmodalno strojno prevajanje, za katerega družba pravi, da lahko prevaja govor v besedilo in besedilo v besedilo za skoraj 100 jezikov. Za dejanja govora v govor in besedila v govor prepozna 100 vnosnih jezikov in jih pretvori v 35 izhodnih jezikov. Izdan je pod licenco Creative Commons CC BY-NC 4.0, kar raziskovalcem omogoča, da ga uporabljajo. Skupaj s SeamlessM4T je Meta izdala tudi metapodatke za svoj nabor odprtih prevodov SeamlessAlign. “Izdelava univerzalnega jezikovnega prevajalnika, kot je izmišljena ribica Babel v Štoparskem vodniku po galaksiji, je zahtevna, ker obstoječi sistemi govora v govor in govora v besedilo pokrivajo le majhen del svetovnih jezikov,” previjo pri Meti.
Štoparski vodnik Babel Fish, kot si ga je zamislil avtor Douglas Adams, je riba, ki jo lahko položite v uho in takoj razume kateri koli jezik. Če ste oboževalec Doctor Who, lahko Metino orodje primerjate s prevajalsko matriko v TARDIS-u, ki spremeni celo tuje besede v angleščino. Pri podjetju pravijo, da SeamlessM4T predstavlja “pomemben preboj”, saj ta novi model izvede celotno prevajalsko nalogo naenkrat, za razliko od drugih velikih prevajalskih modelov, ki razdelijo prevajanje med različne sisteme.
Ena od zanimivih lastnosti SeamlessM4T, če lahko deluje pravilno, je njegova domnevna sposobnost prepoznati, kdaj govorec preklaplja kodo ali ko se nekdo premika med dvema ali več jeziki v enem stavku. Meta je na primer v videu pokazala, da model takoj razlikuje med hindijščino, telugujščino in angleščino. Modela nisem preizkusil, vendar pogosto preklapljam med svojima maternima jezikoma (filipinščino in angleščino) – tako kot večina ljudi, ki govorijo različne jezike – in po osebnih izkušnjah večina programske opreme za prepoznavanje govora z umetno inteligenco tega ne zazna. hitro. SeamlessM4T gradi na prejšnjih modelih prevajanja iz Mete.
Lani je Meta izdala svoj model strojnega prevajanja besedila v besedilo No Language Left Behind, ki je podpiral 200 jezikov. Razvil je SpeechMatrix, nabor podatkov za večjezično prevajanje govora v govor in Massively Multilingual Speech za prepoznavanje govora. Meta je lani predstavila svoj univerzalni prevajalnik govora, ki pretvarja govorjeni jezik Hokkien, ki se na Kitajskem pogosto uporablja in nima uradnega pisnega sistema, v angleščino. Prevajanje v jezik je pomembno za podjetja, kot je Meta, ki zaposlujejo na tisoče ljudi za moderiranje poplave objav na Facebooku in Instagramu v različnih jezikih. Zelo pogosto imajo neglavni jeziki manjše ekipe in se na koncu zanašajo na samodejno moderiranje, ki slabo deluje s temi jeziki. AI, če ima dostop do nabora podatkov teh manjših jezikov, je lahko orodje za podjetja, kot je Meta, za izboljšanje moderiranja. Za izgradnjo SeamlessM4T je Meta dejala, da je preoblikovala svoj komplet orodij za modeliranje zaporedja Fairseq, da bi ustvarila lahke modele in obdelala več informacij.
Med razvojem SeamlessM4T je Meta dejala, da je zgradila sistem, ki identificira strupene ali občutljive besede. Meta opredeljuje strupene besede kot primere, ko »lahko prevod spodbuja sovraštvo, nasilje, kletvice ali zlorabo«. Cilj je zaznati, kdaj izhodni prevod vnese strupenost, ki je ni bilo v izvirnem gradivu. »V podatkih o usposabljanju smo filtrirali neuravnoteženo toksičnost. Če sta vnos ali izhod vsebovala različne količine toksičnosti, smo to zaporedje usposabljanja odstranili,« so dejali pri podjetju. Raziskovalci so poskušali tudi počistiti nabore podatkov, ki napačno prevajajo nekatere psovke, da bi natančneje zaznali, kdaj se uporabljajo. Meta trdi, da prepozna tudi pristranskost glede spola v jezikih in pravi, da lahko model kvantificira pristranskost glede spola v prevodih. SeamlessM4T lahko preveri, ali je stavek uporabil spolno določeno obliko besede, recimo doctora v španščini, in po potrebi dodeli ženski zaimek v ciljnem jeziku brez enakovredne spolno opredeljene slovnice. Meta je k temu pristopila podobno kot k toksičnosti. Meta je dejala, da SeamlessM4T šteje, kolikokrat prevod doda besede, povezane s spolom, v izraze, ki v izvirnem jeziku niso posebej opredeljeni po spolu, kar pomeni, da samodejno domneva, da je zdravnik moški, če v angleškem jeziku ni razlike med spoloma. Meta razvijalcem in raziskovalcem daje veliko svojih modelov AI na bolj ali manj odprtokodni način. Nedavno je izdal AudioCraft, kodo, ki omogoča ustvarjanje besedila v zvok. Meta je zagotovila tudi dostop do svojega velikega jezikovnega modela Llama 2. Introducing SeamlessM4T, a Multimodal AI Model for Speech and Text Translations | Meta (fb.com)

Komentiraj