NVIDIA PersonaPlex-7B-v1: Nova era inteligentnog govora u punom dupleksu
PersonaPlex-7B-v1 predstavlja značajan tehnološki iskorak u razvoju konverzacijske veštačke inteligencije. Reč je o modelu od 7 milijardi parametara koji omogućava govornu interakciju u punom dupleksu (full-duplex), što znači da model može istovremeno da sluša i govori, obrađujući prekide, preklapanja govora i prirodne povratne reakcije (backchannels) u realnom vremenu. Za razliku od tradicionalnih sistema koji se oslanjaju na kaskadno povezivanje tri zasebna modula (ASR→LLM→TTS), PersonaPlex koristi jedinstvenu Transformer mrežu. Ovaj pristup drastično smanjuje kašnjenje (latenciju) i omogućava prirodniji tok razgovora uz preciznu kontrolu identiteta (persone) putem hibridnog sistema upita. Model je zasnovan na Moshi arhitekturi i Helium jezičkoj osnovi, a nudi vrhunske performanse u zadacima asistencije i korisničkog servisa.
Prelazak na integrisanu arhitekturu punog dupleksa
Tradicionalni glasovni asistenti funkcionišu putem kaskadnog cevovoda gde se svaka faza obavlja sekvencijalno:
- ASR (Automatic Speech Recognition): Pretvara govor u tekst.
- LLM (Large Language Model): Generiše tekstualni odgovor.
- TTS (Text to Speech): Pretvara odgovor nazad u audio format.
Ovaj model uzrokuje akumuliranu latenciju i nemogućnost upravljanja prirodnim elementima govora poput upadanja u reč ili istovremenog govorenja. PersonaPlex zamenjuje ovaj složeni sistem jedinstvenim Transformer modelom koji vrši striming razumevanja i generisanja govora unutar jedne mreže.
Ključne prednosti integrisanog modela:
- Istovremena obrada: Model operiše na kontinuiranom audiju enkodiranom neuronskim kodekom, predviđajući i tekstualne i audio tokene autoregresivno.
- Dual-stream konfiguracija: Jedan tok prati korisnički audio, dok drugi prati govor i tekst agenta. Oba toka dele isto stanje modela, omogućavajući agentu da prilagodi odgovor u trenutku kada ga korisnik prekine.
- Prirodna interakcija: Podržava "barge-in" (upadanje u reč), preklapanja, brzu smenu govornika i kontekstualne povratne informacije.
Tehnička arhitektura i specifikacije
PersonaPlex-7B-v1 koristi napredne komponente za postizanje visoke vernosti zvuka i semantičkog razumevanja:
Zahvaljujući Helium bazi, model pokazuje sposobnost generalizacije van scenarija korišćenih u obuci, što je demonstrirano u primerima poput "hitne situacije u svemiru", gde model zadržava koherentno tehničko zaključivanje i odgovarajući emocionalni ton.
Kontrola persone i hibridni upiti
Identitet i ponašanje agenta definišu se putem dva glavna tipa upita (prompta):
- Glasovni upit (Voice Prompt): Sekvenca audio tokena koja kodira vokalne karakteristike, stil govora i prozodiju. NVIDIA nudi gotove audio embeddinge kao što su porodice NATF i NATM.
- Tekstualni upit (Text Prompt): Opisuje ulogu, pozadinu, informacije o organizaciji i kontekst scenarija.
- Sistemski upit (System Prompt): Podržava polja kao što su ime biznisa i agenta, sa budžetom do 200 tokena, što omogućava striktno pridržavanje poslovnih pravila.
Ovaj sistem omogućava razdvajanje prirodnog konverzacijskog ponašanja od specifičnih zadataka i uslova uloge.
Metodologija obuke i podaci
Obuka PersonaPlex modela sprovedena je u jednoj fazi, koristeći pažljivo balansiran skup stvarnih i sintetičkih podataka:
- Stvarne konverzacije: Korišćeno je 7.303 poziva (oko 1.217 sati) iz Fisher English korpusa. Ovi podaci su naknadno anotirani pomoću GPT-OSS-120B modela kako bi se pružili opisi persone. Ovaj korpus je ključan za učenje pauza, emocionalnih obrazaca i prirodnih diskontinuiteta u govoru.
- Sintetički podaci za uloge:
- Asistenti: 39.322 konverzacije (oko 410 sati), gde je tekstualni upit fiksiran na ulogu "mudrog i prijateljskog učitelja".
- Korisnički servis: 105.410 konverzacija (oko 1.840 sati) sa strukturiranim poslovnim pravilima, cenama i radnim vremenom.
- Generisanje podataka: Transkripti su generisani pomoću Qwen3-32B i GPT-OSS-120B, dok je za pretvaranje u govor korišćen Chatterbox TTS.
Evaluacija i performanse
Model je testiran na benchmarku FullDuplexBench i njegovom proširenju za korisničke servise ServiceDuplexBench. PersonaPlex je nadmašio mnoge sisteme otvorenog i zatvorenog koda u ključnim metrikama:
Ključne metrike performansi:
- Glatka smena govornika (Turn Taking): Stopa preuzimanja (TOR) od 0,908 uz latenciju od 0,170 sekundi.
- Upravljanje prekidima (User Interruption): TOR od 0,950 uz latenciju od 0,240 sekundi.
- Sličnost govornika: Postignuta vrednost od 0,650 korišćenjem WavLM TDNN embeddinga za usklađivanje glasa agenta sa glasovnim upitom.
Zaključak i licenciranje
NVIDIA PersonaPlex-7B-v1 postavlja novi standard za realistične glasovne agente. Integracijom razumevanja i generisanja govora u jedan model, postignuta je latencija ispod sekunde i visok stepen prirodnosti interakcije.
- Kod: Dostupan pod MIT licencom.
- Težine modela (Weights): Dostupne pod NVIDIA Open Model License.
Sposobnost modela da balansira između prirodnog konverzacijskog toka (dobijenog iz Fisher korpusa) i striktnog pridržavanja zadataka (iz sintetičkih podataka) čini ga idealnim rešenjem za napredne sisteme korisničke podrške i interaktivne digitalne asistente.
Izvor: marktechpost.com
Komentari
Nema komentara. Šta vi mislite o ovome?