Oči koje misle: Kako Gemini 3 Flash pretvara pasivno posmatranje u aktivno istraživanje
Kraj "statičnog" pogleda veštačke inteligencije. Kada ljudi posmatraju svet, mi to ne činimo pasivno. Naš vid je dinamičan proces: mi neprestano fokusiramo pogled, približavamo se da bismo pročitali sitna slova, okrećemo glavu da bismo promenili perspektivu ili žmirimo kako bismo uočili detalj u daljini. Ljudski vid je, u suštini, aktivno istraživanje.
Nasuprot tome, tradicionalni modeli veštačke inteligencije svet posmatraju kroz "statičan pogled". Oni dobiju sliku, obrade je u jednom dahu i — ako u tom trenutku propuste ključni detalj poput serijskog broja na mikročipu ili udaljenog znaka — primorani su da nagađaju. Taj problem rešava Agentic Vision unutar Gemini 3 Flash modela. Ova tehnologija transformiše razumevanje slika iz pasivnog čina u aktivnu istragu, omogućavajući AI modelu da ne samo "gleda", već i da svesno istražuje vizuelne podatke.
1. Think, Act, Observe: Revolucionarna petlja razmišljanja
U srcu ove promene nalazi se iterativna petlja koja omogućava modelu da koristi alate dok analizira sliku. Proces se odvija kroz tri ključne faze:
- Think (Razmisli): Model analizira korisnički upit i početnu sliku, a zatim formuliše višestepeni plan za rešavanje zadatka.
- Act (Deluj): Umesto da odmah ponudi odgovor, model generiše i izvršava Python kod kako bi manipulisao slikom. To uključuje isecanje (cropping), rotiranje ili označavanje specifičnih delova.
- Observe (Posmatraj): Nova, transformisana slika (na primer, uvećani detalj) dodaje se u kontekstni prozor modela. Ovo omogućava sistemu da pregleda nove podatke sa boljim fokusom pre nego što donese konačan zaključak.
Ovakva petlja pomera AI sa jednostavnog prepoznavanja obrazaca (pattern matching) ka testiranju hipoteza. Gemini 3 Flash se sada ponaša kao istraživač koji koristi lupu da bi potvrdio svoje pretpostavke, umesto da se oslanja isključivo na prvi utisak.
2. Merljiva preciznost: Skok u kvalitetu od 5-10%
Uvođenje izvršavanja koda u vizuelne zadatke nije samo zanimljiv eksperiment; rezultati su konkretni i dokazivi. Aktivacija ove funkcije donosi konstantno povećanje kvaliteta od 5-10% na većini standardnih testova za vizuelno razumevanje.
"Gemini 3 Flash formuliše planove za zumiranje, inspekciju i manipulaciju slikama korak po korak, usidrujući zaključke u samim pikselima slike."
Ovaj prelazak sa probabilističkog nagađanja na odgovore zasnovane na vizuelnim dokazima ključan je za industrije gde je preciznost apsolutni imperativ.
3. Moć zumiranja: Studija slučaja PlanCheckSolver
Jedna od najmoćnijih primena Agentic Vision tehnologije je rešavanje problema "izgubljenih piksela" kod slika visoke rezolucije. Platforma PlanCheckSolver.com, koja se bavi validacijom građevinskih planova, zabeležila je porast preciznosti od 5% koristeći Gemini 3 Flash.
Problem kod kompleksnih inženjerskih planova je što su detalji često toliko sitni da se gube pri standardnom AI procesuiranju. Gemini 3 Flash ovaj jaz u rezoluciji rešava tako što identifikuje kritične zone (poput ivica krovova ili spojeva elemenata) i automatski generiše Python kod da iseče te specifične "isečke" (patches). Ovi uvećani delovi se vraćaju modelu na ponovnu analizu, čime se omogućava potvrda usklađenosti sa građevinskim propisima na nivou koji je ranije bio nedostupan automatizovanim sistemima.
4. Vizuelni "Scratchpad": Kako AI crta da bi razumela
Gemini 3 Flash sada koristi sliku kao svoj "vizuelni scratchpad" (radni prostor). Umesto da samo opisuje šta vidi, model izvršava kod koji direktno crta po samoj slici kako bi verifikovao svoje zaključke.
Uzmimo primer brojanja prstiju na ruci — zadatak koji je godinama bio kamen spoticanja za AI. Da bi izbegao greške, Gemini 3 Flash koristi Python da nacrta okvire (bounding boxes) i numeričke oznake iznad svakog identifikovanog prsta. Pošto je ovaj proces vidljiv korisniku ili programeru, on postaje potpuno proverljiv. Ovakva provera osigurava da je finalni odgovor zasnovan na preciznom razumevanju svakog pojedinačnog dela slike.
5. Kraj halucinacijama u matematici: Od nagađanja do izvršavanja
Standardni LLM modeli često "haluciniraju" kada rešavaju složene vizuelne matematičke zadatke ili analiziraju grafikone. Gemini 3 Flash to rešava tako što proračune delegira determinističkom Python okruženju.
Kada model dobije tabelu sa gustim podacima, on ne pokušava da nasluti trendove. Umesto toga, on ekstrahuje sirove podatke, piše kod za njihovu obradu i generiše profesionalni grafikon koristeći biblioteku poput Matplotlib-a. Model je čak sposoban da normalizuje prethodne SOTA (State-of-the-Art) rezultate na vrednost 1.0, pružajući preciznu uporednu vizuelizaciju umesto tekstualne procene.
"Ovo zamenjuje probabilističko nagađanje sa proverljivim izvršavanjem."
6. Budućnost: Šta je sledeće za Gemini?
Agentic Vision je tek na početku svog razvoja, a Google već trasira put ka daljim inovacijama:
- Potpuno implicitna ponašanja: Trenutno Gemini 3 Flash automatski ("implicitno") odlučuje kada treba zumirati detalje. Međutim, operacije poput rotacije slike ili kompleksne vizuelne matematike trenutno zahtevaju mali podsticaj korisnika (prompt nudge). Cilj je da u budućim verzijama sva ova ponašanja postanu potpuno samostalna.
- Prošireni arsenal alata: Planira se integracija sa alatima kao što su pretraga veba i obrnuta pretraga slika (reverse image search) direktno unutar vizuelne petlje.
- Skaliranje na veće modele: Iako je Flash model prvi dobio ove funkcije zbog svoje brzine, one će uskoro postati standard i za veće modele iz Gemini porodice.
Programeri mogu isprobati ove funkcije već danas putem Google AI Studio (uključivanjem "Code Execution" opcije) ili preko Vertex AI platforme.
7. Zaključak: Da li je ovo početak AI agenata koji zaista "vide"?
Vizuelna percepcija kod veštačke inteligencije više nije samo pasivni ulazni podatak — ona postaje alat. Agentic Vision nam pokazuje da budućnost AI-ja nije u jednostavnom posmatranju, već u aktivnom delovanju unutar vizuelnog prostora.
Kada AI prestane da samo posmatra i počne aktivno da istražuje svet oko nas, koje su granice onoga što može da reši? Trenutni napredak sugeriše da smo tek zagrebali površinu mogućnosti koje donosi vizuelno utemeljena inteligencija.
Izvor: https://blog.google/innovation-and-ai/technology/developers-tools/agentic-vision-gemini-3-flash/
Komentari
Nema komentara. Šta vi mislite o ovome?