Najnoviji komentari

J.R.R.

23.07.2026 11:51

Ako je inteligencija onda nije više "veštačka "

IP adresa pošiljaoca: 37.19.109.170 Idi na vest

Odobren

Pavle

16.07.2026 12:32

odlican je i cvija imam pitanje vi radite stripove

IP adresa pošiljaoca: 178.220.176.61 Idi na vest

Odobren

Aleksandar

14.05.2026 14:25

Postovani, danas sam naleteo na Vas sajt i zanimljivo je. A sad-to sto kaze Milan:
"Milan 25.12.2025 07:47
Lepo, ali g... Idi na vest

Odobren

Veselin

12.04.2026 17:57

Veoma informativni članci, koji donose najnovije trendove u AI industriji. Samo nastavite tako. Idi na vest

Odobren

AIZona

22.03.2026 13:42

Evo zvanične stranice.
https://xrai.glass/ar2/
Raspitajte se kod njih. Možete kupiti online. Možda imaju negde u okol... Idi na vest

Odobren

Benčmark test: GLM-4.6, GLM-4.5, DeepSeek-V3.2-Exp, Claude Sonnet 4 i Claude Sonnet 4.5

Oblast: Modeli |
Nedelja, 26. oktobar 2025. 13:25
Autor: AIZona

Evaluacija performansi LLM-a: Agentsko razmišljanje, zaključivanje i kodiranje

8 uporednih testova: AIME 25, GPQA, LiveCodeBench v6, HLE, BrowseComp, SWE-bench Verified, Terminal-Bench, τ²-Bench (rezultati evaluacije ispod 128K dužine konteksta)

LLM modeli testirani: GLM-4.6
GLM-4.5
DeepSeek-V3.2-Exp
Claude Sonnet 4
Claude Sonnet 4.5

Reperne (banchmark) testove treba uzimati sa rezervom.

Komentari

Nema komentara. Šta vi mislite o ovome?

Novi komentari

Kategorije

AI Alati

Tagovi

Kontakt

O sajtu AIZONA

Prijava

Registracija

Kategorije

AI alati

Tagovi

Kontakt

O sajtu AIZONA

Benčmark test: GLM-4.6, GLM-4.5, DeepSeek-V3.2-Exp, Claude Sonnet 4 i Claude Sonnet 4.5

Komentari

KATEGORIJE

NOVA IZDANJA