Kako je "mali" Qwen model postigao rezultate u rangu Claude Opusa: Snaga pametnog procesa
David protiv Golijata u svetu AI programiranja U industriji kojom dominiraju giganti sa stotinama milijardi parametara, pojavio se neočekivani šampion efikasnosti. Najnoviji podaci o modelu Qwen3.5-35B-A3B (zasnovanom na Mixture of Experts arhitekturi sa svega 3 milijarde aktivnih parametara) pokazuju da ovaj "mali" model, kada se pravilno usmeri, može stati rame uz rame sa "frontier" modelima zatvorenog koda kao što je Claude Opus 4.6.
Kao neko ko se godinama bavi lokalnim LLM modelima, ovaj uspeh me ne čudi, ali me fascinira preciznost kojom je postignut. Eksperiment je sproveden koristeći vLLM za self-hosting, a ključna lekcija nije u sirovoj snazi, već u dizajnu agentic loop-a. Dokazano je da loš proces može "ugušiti" i najmoćniji model, dok optimizovan workflow uzdiže lokalne sisteme do nivoa koji je do juče bio rezervisan za najskuplje API-je.
1: Strategija "Verify-on-Edit" – Mini-checkpointing koji eliminiše "drift"
Srž ovog uspeha leži u modifikaciji agenta kroz minimal agent harness koji koristi standardne alate: file_read, file_edit, bash, grep i glob. Umesto da model prepustimo dugim sekvencama generisanja koda bez nadzora, uvedena je strategija "verify-on-edit".
Ovo možemo posmatrati kao mini-checkpointing. Svaki put kada model pozove file_edit, sistem ga prisiljava da stane i verifikuje izmenu. To sprečava akumulaciju grešaka u dugim sekvencama — fenomen poznat kao drift — gde model "izgubi nit" i nastavi da gradi na pogrešnim temeljima.
Rezultati na "SWE-bench Verified Hard" testu (najtežih 45 zadataka) su impresivni:
| Strategija | Rezultat (Hard - 45 zadataka) | Rezultat (Full - 500 zadataka) |
|---|---|---|
| Agent-harness (baseline) | 22.2% | 64.0% |
| Verify-at-last (provera na kraju) | 33.3% | 67.0% |
| Verify-on-edit (provera nakon svake izmene) | 37.8% | - |
| Claude Opus 4.6 (referenca) | 40.0% | - |
Instrukcija koja je omogućila ovaj skok je brutalno jednostavna:
"You just edited X. Before moving on, verify the change is correct: write a short inline python -c or a /tmp test script that exercises the changed code path, run it with bash, and confirm the output is as expected."
2: Paradoks pretrage – Zašto su MCTS i Tree Search podbacili
Jedan od najvažnijih inženjerskih uvida ovog eksperimenta je neuspeh kompleksnih algoritama poput MCTS (Monte Carlo Tree Search) i drugih varijanti pretrage stabla (Tree Search). Iako ovi pristupi teoretski povećavaju inference-time compute, u praksi su dali lošije rezultate od linearnog toka.
Zašto? Pretraga stabla je onoliko dobra koliko i njeni "verifikatori" (reward models). Kod manjih modela, interni verifikatori često nisu dovoljno pouzdani — njihove ocene nisu korelirale sa stvarnim rešenjem problema. To vodi model u "halucinogene" grane pretrage i narušava koherentan tok razmišljanja koji je malim modelima kritično potreban. Zaključak je jasan: u praktičnim primenama, agent design > raw model size.
3: MoE Arhitektura i "Model/Dollar Math"
Qwen3.5-35B-A3B koristi Mixture of Experts (MoE) pristup gde je, uprkos ukupnom broju parametara, aktivno samo 3 milijarde. Ovo drastično menja ekonomsku računicu (model/dollar math).
Dok zatvoreni sistemi zahtevaju ogromne sume za API tokene, ovaj model se može pokretati na consumer hardveru (poput RTX 5090 ili čak slabijih sistema uz adekvatnu kvantizaciju). Na punom benchmarku od 500 zadataka, model dostiže 67.0%, što ga stavlja u sam vrh zvaničnih rang listi. To znači da lokalni, "open-weights" modeli više nisu samo igračke za entuzijaste, već ozbiljna konkurencija koja nudi superioran ROI (Return on Investment).
4: Skepticizam, "Benchmaxing" i realnost
Naravno, uvek postoji doza inženjerskog cinizma. Kritičari na platformama poput Reddit-a s pravom ukazuju na mogućnost da su novi modeli "benchmaxed" — optimizovani isključivo za stare setove podataka kao što je SWE-bench (data leakage).
Međutim, podaci sa terena govore drugačije. Korisnici već prijavljuju da Qwen rešava konkretne probleme koje čak ni Sonnet 3.5 ne uspeva da savlada. Iako je SWE-bench možda "star" i "procurio", zadaci na "Hard" nivou su i dalje nepremostiva prepreka za većinu modela. Prelazak na SWE-Rebench će biti sledeći pravi test, ali trenutni signali jasno ukazuju na stvarnu, a ne samo sintetičku sposobnost rešavanja problema.
Zaključak: Budućnost autonomnog kodiranja
Ovaj eksperiment potvrđuje moju tezu: budućnost autonomnog kodiranja ne leži u čekanju na još veće modele, već u tight feedback loops dizajnu. Pametan agent koji verifikuje svoj rad u realnom vremenu može da nadomesti desetine milijardi parametara.
Lokalni MoE modeli, uz pravu podršku agentic loop-a, transformišu način na koji razvijamo softver. Ušteda je ogromna, kontrola je potpuna, a performanse su tu.
Da li smo prebrzo otpisali manje, lokalne modele u trci za sirovom snagom parametara?
Izvor: reddit
Komentari
Zanimiljivo bi bilo odraditi koliko MoE kvantitizovan na q6 ili q8 radi bolje/losije po pitanju performansa, TPS TTT i rezonovanja i tacnih odgovora umesto Qwen3.5-4B koji je dense sa 4b parametara i sa fp16 staje na malo jeftinije grafike od 5090 :)
Svaka cast za clanak, pogotovo tacka 4. Never trust benchmarks, moja pretpostavka je da svi imaju vec training podatke i tad izlaze sa fine tunovanim modelima na to.