GPT-5.2: Najvažnije sposobnosti i performanse
Na GDPval benčmarku, koji procenjuje zadatke zasnovane na znanju u 44 profesije i 9 velikih industrija, GPT-5.2 Thinking nadmašuje ili se izjednačava sa vrhunskim ljudskim profesionalcima u 70,9% poređenja. Pri tome, generiše rezultate preko 11 puta brže i sa manje od 1% procenjenih troškova eksperta. Ovo omogućava inženjerskim timovima da pouzdano generišu artefakte kao što su prezentacije, tabele, rasporedi i dijagrami na osnovu strukturiranih instrukcija.
Na internom benčmarku koji simulira zadatke modeliranja tabela za mlađe analitičare u investicionom bankarstvu, prosečni rezultati su porasli sa 59,1% (GPT-5.1) na 68,4% sa GPT-5.2 Thinking i 71,7% sa GPT-5.2 Pro. Ovi zadaci uključuju kompleksne finansijske modele sa strogim zahtevima za formatiranje i citiranje.
Softversko inženjerstvo
U domenu softverskog inženjerstva, GPT-5.2 Thinking postiže izvanredne rezultate:
- SWE-Bench Pro: Dostiže 55,6% uspešnosti (u poređenju sa 50,8% za GPT-5.1) na testu koji ocenjuje generisanje zakrpa na nivou repozitorijuma za više programskih jezika.
- SWE-bench Verified: Dostiže 80,0% uspešnosti (u poređenju sa 76,3% za GPT-5.1) na testu fokusiranom na Python.
Sposobnosti dugog konteksta i agentski radni tokovi
Dugi kontekst je ključna karakteristika dizajna. GPT-5.2 Thinking postavlja novi standard na OpenAI MRCRv2 benčmarku, gde postiže skoro 100% tačnosti na varijanti sa 4 "igle" (specifična upita) u "plastu sena" (dugi dijalog) do 256.000 tokena, što ga čini prvim modelom sa ovakvim rezultatom.
Za zadatke koji prevazilaze čak i taj kontekst, model se integriše sa Responses /compact krajnjom tačkom, koja vrši kompresiju konteksta kako bi se efektivni prozor proširio za dugotrajne poslove koji intenzivno koriste alate.
U korišćenju alata, GPT-5.2 Thinking postiže 98,7% tačnosti na Tau2-bench Telecom benčmarku, koji simulira višestruke interakcije u korisničkoj podršci. Primeri pokazuju da model uspešno upravlja složenim scenarijima, kao što je putnik sa odloženim letom, propuštenom konekcijom i izgubljenim prtljagom, rešavajući sve probleme u konzistentnom nizu, za razliku od GPT-5.1 koji ostavlja korake nedovršenim.
Vizuelno prepoznavanje, nauka i matematika
Kvalitet vizuelnog prepoznavanja je značajno unapređen. GPT-5.2 Thinking otprilike prepolovljava stope grešaka na benčmarcima za rezonovanje o grafikonima (CharXiv Reasoning) i razumevanje korisničkog interfejsa (ScreenSpot Pro) kada je omogućen Python alat. Model takođe pokazuje poboljšano prostorno razumevanje slika, kao što je preciznije identifikovanje i označavanje komponenti na matičnoj ploči.
Za naučne primene, performanse su sledeće:
- GPQA Diamond (testira znanje na postdiplomskom nivou iz fizike, hemije i biologije):
- GPT-5.2 Thinking: 92,4%
- GPT-5.2 Pro: 93,2%
- FrontierMath (Tier 1 do Tier 3): GPT-5.2 Thinking rešava 40,3% problema uz pomoć Python alata.
OpenAI ističe da je GPT-5.2 Pro doprineo dokazu u teoriji statističkog učenja, pod ljudskom verifikacijom.
Uporedna tabela modela
Zaključci
- GPT-5.2 Thinking je novi podrazumevani radni model: On zamenjuje GPT-5.1 Thinking kao glavni model za kodiranje, rad sa znanjem i agente, zadržavajući isti kontekst od 400.000 tokena i maksimalni izlaz od 128.000 tokena, ali sa jasno višim performansama na ključnim benčmarcima.
- Značajan skok u tačnosti u odnosu na GPT-5.1 pri sličnoj skali: Na ključnim testovima, GPT-5.2 Thinking pokazuje značajna poboljšanja, kao što je skok sa 17,6% na 52,9% na ARC-AGI-2 benčmarku, dok zadržava uporediva ograničenja tokena.
- GPT-5.2 Pro je namenjen vrhunskom rezonovanju i nauci: Ovo je varijanta sa većom računarskom snagom koja se ističe u najtežim zadacima rezonovanja i naučnim primenama, postižući najviše rezultate na benčmarcima kao što su GPQA Diamond i ARC-AGI.
Izvor: MarkTechPost, "OpenAI Introduces GPT 5.2: A Long Context Workhorse For Agents, Coding And Knowledge Work", Asif Razzaq, 11. decembar 2025.
#OpenAI #GPT
Komentari
Nema komentara. Šta vi mislite o ovome?