Stroj jezik: kako Siri pobere svoj glas?
Makradar Tehnologije / / December 19, 2019
Google, Apple, Microsoft, in celo Amazon aktivno razvijajo svoje govorne storitve. Sveže pečen na iOS 7 je enak Siri, le nove funkcije in... glas. Se sprašujete, kako je ta proces? Ker so računalniki učil govor? ta prava umetnost.
Za vsako od izraža Siri - vaš igralec. Ko je zaključil svojo vlogo pri artikulaciji, se je delo šele začelo... V moški glas nadaljuje svojo pot. Zgodba o tem potovanju, oba človeka in robota - enega izmed najbolj zahtevnih tehnoloških procesov, ki jih ni bilo mogoče izvesti pred desetimi leti.
Dajmo se seznanijo z direktorjem oblikovanja in razvoja glasovno Nuance, je eden od največjih neodvisnih podjetij na svetu, ki se ukvarjajo s prepoznavanjem govora in besedila v govor. Brant Ward (J. Brant Ward) se uporablja, da je skladatelj, sestavite zabavo za godalne kvartete, da sintetizatorji, zdaj pa jo sestavlja s pomočjo sintetične glasove. Dela v sintezo govora industrije v Silicijevi dolini že več kot desetletje.
Besedilo v govor - zelo konkurenčno industrijo, in njenih zaposlenih je zelo skrivnosten. Čeprav na svetu in je prepričan, da Nuance ustvarja glas Siri za, Ward in njegov kolega David Vasquez (David Vazquez) prepreči neposreden odgovor. Kljub temu pa so se dogovorili, da pojasni, vsaj na splošno, kako proces ustvarjanja neverjetno stroj glasov.
Ni treba posebej poudarjati, ni treba artikulirati in pisati vsako besedo iz slovarja. Toda, ko gre za uporabo, ki jih je treba prebrati nobene novice v vaš e-novice, ali pa našli nekaj za vas na internetu, je preprosto mora govoriti vsako besedo v slovarju.
Večina predlogov so izbrani na "premoženjskih fonetike" - to pomeni, da jih vsebujejo različne kombinacije fonemov. "Dejstvo je, več podatkov, ki jih imamo, bo bolj realno rezultat," - pravi Ward.
Ko je besedilo posnete v živo glasovni igralec (a mučen proces, ki lahko traja več mesecev), zelo težko delo začne. Besede in stavki se analizirajo, razdeljeni po kategorijah in zapiše v veliki podatkovni bazi. V tem zapletenem delu izbral ekipo namenskih jezikoslovcev, kot tudi za uporabo lastne jezikovne programske opreme.
Ko je vse to storjeno, je enota Nuance za prevajanje besedila v govor ustvarja bitne besede in besedne zveze, da se igralec lahko Nikoli dejansko izrekel, vendar se sliši zelo podoben govor igralca, ker tehnično je glas igralec.
Postopek govor je nezavesten. To počnemo, ne da bi razmišljal o tem, kako se ta proces: stanje, v katerem je naš jezik, ki Razmerja so zgrajene fonemov, in tako naprej - enostavno in učinkovito izražanje kompleksnih idej in čustva. Ampak, da bi računalnik pobral zvok človeških glasov, morajo biti vse te dejavnike je treba upoštevati. Kot en profesor jezikoslovja, je naloga "Titanika."
Ne bi smeli razmišljati: "Jaz govorim z računalnikom." Na splošno ni treba razmišljati o tem.
"Moji otroci interakcijo z dne Siri, kot če bi šlo za živo bitje... Oni ne čutijo razliko," - pravi Ward.
Do sedaj, in da je prijateljstvo med ljudmi in roboti - kot človeka. Veliko ljudi bi bilo všeč, če lahko Siri prepoznati čustveno stanje govorca, in nekako odzvati nanjo (na primer vključujejo glasovni način pomirja). Predstavljajte si - govoriti z robotom, ki je moralno te potrepljal po glavi. Mogoče, Nuance je že razmišljal o tem ...