Meni

Kategorije

Tagovi

SAJT U PRIPREMI
AIZONA
Budućnost inteligencije

Benčmark test: GLM-4.6, GLM-4.5, DeepSeek-V3.2-Exp, Claude Sonnet 4 i Claude Sonnet 4.5

Kategorija: Modeli
Nedelja, 26 oktobar 2025 13:25
Autor: AIZona

Benčmark test: GLM-4.6, GLM-4.5, DeepSeek-V3.2-Exp, Claude Sonnet 4 i Claude Sonnet 4.5
Evaluacija performansi LLM-a: Agentsko razmišljanje, zaključivanje i kodiranje

8 uporednih testova: AIME 25, GPQA, LiveCodeBench v6, HLE, BrowseComp, SWE-bench Verified, Terminal-Bench, τ²-Bench (rezultati evaluacije ispod 128K dužine konteksta)

LLM modeli testirani: GLM-4.6
GLM-4.5
DeepSeek-V3.2-Exp
Claude Sonnet 4
Claude Sonnet 4.5

Reperne (banchmark) testove treba uzimati sa rezervom.

Komentari

Nema komentara. Šta vi mislite o ovome?