NVIDIA PersonaPlex-7B-v1: Nova era inteligentnog govora u punom dupleksu

PersonaPlex-7B-v1 predstavlja značajan tehnološki iskorak u razvoju konverzacijske veštačke inteligencije. Reč je o modelu od 7 milijardi parametara koji omogućava govornu interakciju u punom dupleksu (full-duplex), što znači da model može istovremeno da sluša i govori, obrađujući prekide, preklapanja govora i prirodne povratne reakcije (backchannels) u realnom vremenu. Za razliku od tradicionalnih sistema koji se oslanjaju na kaskadno povezivanje tri zasebna modula (ASR→LLM→TTS), PersonaPlex koristi jedinstvenu Transformer mrežu. Ovaj pristup drastično smanjuje kašnjenje (latenciju) i omogućava prirodniji tok razgovora uz preciznu kontrolu identiteta (persone) putem hibridnog sistema upita. Model je zasnovan na Moshi arhitekturi i Helium jezičkoj osnovi, a nudi vrhunske performanse u zadacima asistencije i korisničkog servisa.

Prelazak na integrisanu arhitekturu punog dupleksa

Tradicionalni glasovni asistenti funkcionišu putem kaskadnog cevovoda gde se svaka faza obavlja sekvencijalno:

ASR (Automatic Speech Recognition): Pretvara govor u tekst.
LLM (Large Language Model): Generiše tekstualni odgovor.
TTS (Text to Speech): Pretvara odgovor nazad u audio format.

Ovaj model uzrokuje akumuliranu latenciju i nemogućnost upravljanja prirodnim elementima govora poput upadanja u reč ili istovremenog govorenja. PersonaPlex zamenjuje ovaj složeni sistem jedinstvenim Transformer modelom koji vrši striming razumevanja i generisanja govora unutar jedne mreže.

Ključne prednosti integrisanog modela:

Istovremena obrada: Model operiše na kontinuiranom audiju enkodiranom neuronskim kodekom, predviđajući i tekstualne i audio tokene autoregresivno.
Dual-stream konfiguracija: Jedan tok prati korisnički audio, dok drugi prati govor i tekst agenta. Oba toka dele isto stanje modela, omogućavajući agentu da prilagodi odgovor u trenutku kada ga korisnik prekine.
Prirodna interakcija: Podržava "barge-in" (upadanje u reč), preklapanja, brzu smenu govornika i kontekstualne povratne informacije.

Tehnička arhitektura i specifikacije

PersonaPlex-7B-v1 koristi napredne komponente za postizanje visoke vernosti zvuka i semantičkog razumevanja:

Komponenta	Detalji
Model	7 milijardi parametara, baziran na Moshi arhitekturi
Jezička osnova	Helium (omogućava semantičko razumevanje i generalizaciju)
Audio enkodiranje	Mimi govorni enkoder (kombinacija ConvNet i Transformer slojeva)
Audio dekodiranje	Mimi govorni dekoder za generisanje izlaznih audio tokena
Frekvencija uzorkovanja	24 kHz za ulazni i izlazni audio
Procesiranje	Temporalni i dubinski Transformeri za više kanala

Zahvaljujući Helium bazi, model pokazuje sposobnost generalizacije van scenarija korišćenih u obuci, što je demonstrirano u primerima poput "hitne situacije u svemiru", gde model zadržava koherentno tehničko zaključivanje i odgovarajući emocionalni ton.

Kontrola persone i hibridni upiti

Identitet i ponašanje agenta definišu se putem dva glavna tipa upita (prompta):

Glasovni upit (Voice Prompt): Sekvenca audio tokena koja kodira vokalne karakteristike, stil govora i prozodiju. NVIDIA nudi gotove audio embeddinge kao što su porodice NATF i NATM.
Tekstualni upit (Text Prompt): Opisuje ulogu, pozadinu, informacije o organizaciji i kontekst scenarija.
Sistemski upit (System Prompt): Podržava polja kao što su ime biznisa i agenta, sa budžetom do 200 tokena, što omogućava striktno pridržavanje poslovnih pravila.

Ovaj sistem omogućava razdvajanje prirodnog konverzacijskog ponašanja od specifičnih zadataka i uslova uloge.

Metodologija obuke i podaci

Obuka PersonaPlex modela sprovedena je u jednoj fazi, koristeći pažljivo balansiran skup stvarnih i sintetičkih podataka:

Stvarne konverzacije: Korišćeno je 7.303 poziva (oko 1.217 sati) iz Fisher English korpusa. Ovi podaci su naknadno anotirani pomoću GPT-OSS-120B modela kako bi se pružili opisi persone. Ovaj korpus je ključan za učenje pauza, emocionalnih obrazaca i prirodnih diskontinuiteta u govoru.
Sintetički podaci za uloge:
- Asistenti: 39.322 konverzacije (oko 410 sati), gde je tekstualni upit fiksiran na ulogu "mudrog i prijateljskog učitelja".
- Korisnički servis: 105.410 konverzacija (oko 1.840 sati) sa strukturiranim poslovnim pravilima, cenama i radnim vremenom.
Generisanje podataka: Transkripti su generisani pomoću Qwen3-32B i GPT-OSS-120B, dok je za pretvaranje u govor korišćen Chatterbox TTS.

Evaluacija i performanse

Model je testiran na benchmarku FullDuplexBench i njegovom proširenju za korisničke servise ServiceDuplexBench. PersonaPlex je nadmašio mnoge sisteme otvorenog i zatvorenog koda u ključnim metrikama:

Ključne metrike performansi:

Glatka smena govornika (Turn Taking): Stopa preuzimanja (TOR) od 0,908 uz latenciju od 0,170 sekundi.
Upravljanje prekidima (User Interruption): TOR od 0,950 uz latenciju od 0,240 sekundi.
Sličnost govornika: Postignuta vrednost od 0,650 korišćenjem WavLM TDNN embeddinga za usklađivanje glasa agenta sa glasovnim upitom.

Zaključak i licenciranje

NVIDIA PersonaPlex-7B-v1 postavlja novi standard za realistične glasovne agente. Integracijom razumevanja i generisanja govora u jedan model, postignuta je latencija ispod sekunde i visok stepen prirodnosti interakcije.

Kod: Dostupan pod MIT licencom.
Težine modela (Weights): Dostupne pod NVIDIA Open Model License.

Sposobnost modela da balansira između prirodnog konverzacijskog toka (dobijenog iz Fisher korpusa) i striktnog pridržavanja zadataka (iz sintetičkih podataka) čini ga idealnim rešenjem za napredne sisteme korisničke podrške i interaktivne digitalne asistente.

Izvor: marktechpost.com

Novi komentari

Kategorije

AI Alati

Tagovi

Kontakt

O sajtu AIZONA

Prijava

Registracija