Šta su tokeni?
Subota, 29. novembar 2025. 14:00
Autor: Dragan Tanaskoski
Tagovi: Grok, tokeni
Tokeni su osnovne gradivne jedinice teksta koje veštačka inteligencija čita i razume. Veliki jezički modeli "seckaju" tekst na manje delove — te delove zovemo tokeni.
- Jedan token može biti cela reč (npr. "sto").
- Jedan token može biti deo reči (npr. "pod" + "metnuti").
- Jedan token može biti čak i samo jedno slovo ili znak interpunkcije.
🧱 Analogija: LEGO kocke
Rečenica je jedan LEGO dvorac.
Da bi taj dvorac (rečenicu) model obradio, mora se razložiti na kocke.
- Standardne kocke (cele reči): Neke reči su vrlo česte i jednostavne, kao osnovne kocke 2x4. Na primer, reč "i", "da", "ne". One ulaze kao jedan komad.
- Složene konstrukcije (Dugačke reči): Reč "nepredvidljivost" je previše komplikovana da bi postojala kao jedna izlivena kocka. Zato se mora sastaviti od tri manje kocke: ne - predvidljiv - ost.
- Prostor: Čak je i prazan prostor između reči jedna vrsta "nevidljive" pločice koja spaja konstrukciju.
Zašto je ovo bitno? Kada se kaže da AI model ima limit od "4.000 tokena", to znači da u svoju "kutiju" može da primi tačno toliko LEGO kockica odjednom. Ako pokušaš da ubaciš preveliki dvorac (predugačak tekst), on neće stati u kutiju i višak kockica će ispasti (AI će zaboraviti početak razgovora).
Primer u praksi
Evo konkretnog prikaza kako većina današnjih najpopularnijih modela "vidi" reč Astronomija.
Za model, to nije jedna reč, već niz od 3 tokena:
Astr + onom + ija
Evo šta se dešava "ispod haube":
Astr(prvi token): Model prepoznaje ovaj koren reči koji se često javlja u mnogim jezicima (Astro...).onom(drugi token): Ovaj deo povezuje koren sa krajem.ija(treći token): Ovo je tipičan sufiks (nastavak) za imenice u srpskom jeziku (kao u rečima: geografija, hemija).
Poređenje: srpski vs. engleski
Ovo je dobar primer zašto je korišćenje AI modela na srpskom "skuplje" (troši više tokena iz raspoložive kvote).
- 🇺🇸 Engleski: Astronomy = 1 token (model je naučio celu reč napamet).
- 🇷🇸 Srpski: Astronomija = 3 tokena (model mora da je sklapa od delova).
Matematika: Ako napišeš tekst od 1.000 reči o astronomiji:
- Na engleskom ćeš potrošiti oko 1.200 tokena.
- Na srpskom ćeš za isti tekst potrošiti oko 1.800 do 2.000 tokena.
To znači da srpski jezik zauzima više mesta u onoj "kutiji" (kontekst prozoru) o kojoj smo pričali.
Pogledajmo ovu sliku koja je juče objavljena.
Vidmo imena nekih modela i brojeve tokena desno. Brojke na ovoj slici NE označavaju "pamet" modela niti njegovu memoriju (kontekst). Ove brojke označavaju PROMET (Popularnost).
Tačnije, ova slika sa sajta OpenRouter prikazuje koliko su ukupno tokena korisnici potrošili koristeći te modele u određenom periodu (verovatno u poslednjih nedelju dana).
Evo šta tačno znače te oznake:
1. Jedinice mere (Koliko je to mnogo?)
- B (eng. billion) = Milijarda.
- T (eng. trillion) = Bilion (odnosno hiljadu milijardi).
Dakle, za prvoplasirani model Grok 4.1 Fast:
- Piše 1,16T tokens.
- To znači da je kroz taj model prošlo 1.160.000.000.000 tokena (slova, reči, delova reči). To je ogromna količina teksta koju su ljudi poslali modelu i koju je model vratio nazad.
2. Šta nam ovo govori? (Analiza liste)
Ovo je zapravo Top lista najkorišćenijih modela na toj platformi.
-
- mesto (Grok 4.1 Fast): Ima ogroman promet (1,16T) prvenstveno zato što pored njega piše (free). Ljudi najviše koriste ono što je besplatno i brzo.
- Trendovi (Strelice):
- Grok Code Fast 1 ima ↓27%. To znači da mu je popularnost pala za 27% u odnosu na prošli period.
- MiniMax M2 ima ↑12%. To znači da sve više ljudi počinje da ga koristi (rast popularnosti).
Zaključak: Ova slika nam govori šta ljudi trenutno najviše koriste, a ne koji model je najpametniji ili koji ima najveću memoriju.
Komentari
Nema komentara. Šta vi mislite o ovome?