Praktični vodič za kreiranje stripova uz pomoć AI
Ovaj tekst detaljno opisuje metodologiju za kreiranje kompletnog stripa korišćenjem generativnih AI alata. U cilju testiranja praktične primenljivosti ovog procesa, sproveden je eksperiment u kojem su se direktno uporedili Google Gemini i ChatGPT, uz minimalnu ljudsku intervenciju. Ciljna publika ovog vodiča su kreativni profesionalci koji traže praktične i primenljive radne tokove za integraciju veštačke inteligencije u svoje projekte. Uspeh svakog projekta ovog tipa zavisi od temelja na kojima je postavljen, a ti temelji su jasno definisan početni koncept i struktura naredbi koje se daju veštačkoj inteligenciji.
1. Postavljanje okvira: Koncept i početna naredba
Strateški značaj uspostavljanja jasne i dosledne polazne tačke ne može se preceniti. Početna podešavanja diktiraju ton, likove i narativni pravac celokupnog projekta, služeći kao kreativni temelj na kojem će veštačka inteligencija graditi priču i vizuelni identitet.
1.1. Definisanje osnovnog koncepta i lika
Kao polazna tačka za eksperiment, definisan je horor koncept. Glavni lik je Mej (May), 24-godišnja Amerikanka azijskog porekla. Početna scena je precizno postavljena: Mej se noću vozi kako bi stigla kod bake za Božić. Na putu nailazi na oboreno drvo koje blokira prolaz, primoravajući je da krene zaobilaznim putem. Dok pada noć i atmosfera postaje napeta, nailazi na izolovani motel.
1.2. Kreiranje glavne naredbe za scenario
Da bi se veštačkoj inteligenciji dao jasan zadatak za pisanje scenarija, korišćena je glavna naredba (master prompt). Naredba je uključivala gore detaljizovanu ideju za priču, nakon čega su sledile ključne instrukcije:
You are a talented comic book writer who can make your own decisions not an AI. Write me a script for a horror comic book with multiple pages and each page having multiple panels. The story should revolve around a main character named May, a 24-year-old Asian-American woman.
Don't worry about the page limit focus on getting a good story written.
Ključne instrukcije unutar ove naredbe bile su da se kreira strip sa više stranica i panela, kao i da se AI fokusira na pisanje kvalitetne priče, a ne na ispunjavanje određenog broja stranica. Nakon postavljanja ovih temelja, naredni korak bio je prosleđivanje naredbe AI modelima i analiza njihovih sposobnosti pisanja scenarija.
2. Prva Faza: Generisanje i analiza AI scenarija
Prvi aktivni korak u ovom radnom toku je generisanje kompletnog narativnog scenarija. Kvalitet i potpunost scenarija u ovoj fazi direktno utiču na svaki sledeći korak vizuelne produkcije, čineći je kritičnom za uspeh celog projekta.
2.1. Pristup generisanju: Korišćeni slati
Za testiranje su korišćeni sledeći AI modeli, dostupni u besplatnim verzijama:
- Google Gemini sa uključenom "pro version" opcijom.
- ChatGPT sa odabranom "thinking option" opcijom.
2.2. Komparativna analiza rezultata scenarija
Rezultati generisanja scenarija značajno su se razlikovali između dva modela, kao što je prikazano u tabeli ispod:
Uprkos različitim rezultatima, pravila projekta su nalagala da se scenariji koriste tačno onako kako su generisani, bez ikakvih ljudskih izmena. Ova razlika u inicijalnom generisanju sugeriše da ChatGPT-jev jezički model može biti pogodniji za generisanje kompletnih narativnih lukova u jednom prolazu, dok Gemini može zahtevati iterativniji pristup za duže formate. Sa gotovim scenarijima, proces prelazi sa tekstualne osnove na ključni sledeći korak: definisanje vizuelnog sveta stripa.
3. Druga faza: Uspostavljanje vizuelnog identiteta
Kreiranje referentne slike je nezaobilazan korak u mitigaciji "odstupanja stila" (style drift), čestog problema u generativnim AI procesima. Ovaj korak služi za stvaranje "vizuelnog sidra" koje će voditi veštačku inteligenciju u svim kasnijim generisanjima slika i panela, osiguravajući umetničku doslednost.
3.1. Naredba za definisanje umetničkog stila
Doneta je strateška odluka da se svakom AI modelu dozvoli da koristi svoj podrazumevani (default) umetnički stil. Veštačka inteligencija je dobila zadatak da kreira referentnu sliku zasnovanu na početnoj sceni, prikazujući Mej pored automobila blizu oborenog drveta. Specifična naredba je strukturirana na sledeći način:
now think you need to give a first impression to the people who want to read your comic. best way to do it is by making a drawing that showcased the art style you are going to be used in the book.
make sure to use your default art style with more detailed drawings and coloring suitable for modern audience. do not include comic bubbles or comic title on this image.
3.2. Evaluacija generisanih umetničkih stilova
Svaki AI model, koristeći svoj integrisani model za generisanje slika, proizveo je jedinstven vizuelni potpis:
- Nano Banana Pro (Gemini): Pristupljeno preko menija "Tools", ovaj model je kreirao "stilizovan" i "gotovo crtani" izgled.
- GPT 1.5 (ChatGPT): Pristupljeno preko opcije "Create Image", ovaj model je generisao stil koji je bio "znatno grublji i detaljniji".
Ovi različiti stilovi poslužili su kao vizuelni temelj za ostatak produkcije, koja sada prelazi u glavnu fazu: generisanje pojedinačnih stranica stripa.
4. Treća faza: Motor produkcije – sekvencijalno generisanje stranica
Ova faza predstavlja srž proizvodnog procesa. Glavni tehnički izazov – dnevna ograničenja u broju generisanih slika – prevaziđen je korišćenjem specijalizovane platforme, što je ovu metodologiju učinilo ponovljivom i izvodljivom u kratkom roku.
4.1. Prevazilaženje Tehničkih Prepreka: Platforma Higsfield
Besplatne verzije Gemini i ChatGPT modela imaju stroga dnevna ograničenja, što bi produkciju stripa produžilo na više nedelja. Rešenje je pronađeno u platformi Higsfield. Ova platforma funkcioniše kao API agregator, omogućavajući neograničen pristup vrhunskim modelima kao što su Nano Banana Pro i GPT 1.5, i eliminišući potrebu za upravljanjem pojedinačnim nalozima i njihovim ograničenjima direktno na matičnim platformama. Time je omogućen završetak celog projekta u jednom danu.
4.2. Metoda 'daisy-chain' za generisanje stranicu po stranicu
Za održavanje vizuelne doslednosti korišćena je tehnika "daisy-chain" (ulančavanje). Ovaj metod AI modelu pruža trenutnu, kratkoročnu vizuelnu memoriju. Proces je jednostavan: da bi se generisala druga stranica, konačna generisana slika prve stranice se ponovo postavlja (upload) u naredbu, zajedno sa delom scenarija za drugu stranicu. Ovaj proces prenosi vizuelni kontekst sa neposredno prethodnog panela na sledeći, čime se suzbija nedoslednost. Opciono, može se dodati fraza poput "the previous page is also uploaded for reference only" kako bi se AI dodatno usmerio.
4.3. Glavna naredba za generisanje stranica
Struktura naredbe za generisanje svake pojedinačne stranice bila je sledeća:
generate me a comic book page using the uploaded image art style. make sure the characters environment and style stay consistent. script is given here
Nakon ovog teksta, u naredbu bi se ubacio odgovarajući deo scenarija za stranicu koja se generiše. Kada su sve unutrašnje stranice bile završene, preostao je još jedan korak pre finalizacije – dizajn naslovne strane.
5. Četvrta faza: Dizajn naslovne strane
Kao finalni kreativni korak, nakon što su sve unutrašnje stranice za oba stripa generisane, oba AI modela su dobila instrukciju da dizajniraju naslovnu stranu koja "oslikava suštinu njihove specifične priče".
6. Studija slučaja: Uporedni prikaz finalnih stripova
U ovoj sekciji sledi detaljna, uporedna evaluacija dva završena stripa. Analiza se fokusira na koherentnost priče, umetničku doslednost, stopu grešaka i opštu čitljivost, kako bi se utvrdilo koji je AI model uspešnije izvršio zadatak.
6.1. Gemini (Nano Banana Pro): Koherentna priča sa manjim nedostacima
Analiza stripa generisanog pomoću Gemini/Nano Banana Pro modela otkrila je sledeće:
- Pozitivni Aspekti: Prva stranica demonstrira visok nivo vizuelne koherentnosti i kompozicije, efektivno uspostavljajući ton priče. Font korišćen na naslovnici je bio estetski privlačan. Tekstualni opisi (captions) zvučali su prirodno, a odeća glavnog lika je bila konzistentna sa referentnom slikom. Dijalozi su bili tačno pozicionirani u skladu sa scenarijem. Model je pokazao izuzetno razumevanje konteksta, generišući čak i sliku Google Maps aplikacije koja prikazuje alternativnu rutu. Takođe je uspešno generisao kompleksnu stranicu sa osam panela.
- Manje Greške: Primećene su manje vizuelne nelogičnosti, kao što je neobična strelica na instrument tabli automobila, loše povezan oblačić sa dijalogom i nedosledno prikazivanje rukavica na rukama lika.
- Tekstualne Greške: AI je u panele direktno unosio tekst koji nije deo dijaloga, kao što je oznaka za zvučni efekat "SFX" ili ime lika ("May") unutar oblačića za dijalog.
- Ukupna Ocena: Strip je bio čitljiv i koherentan. Paneli su bili u ispravnom redosledu, a greške su bile minorne i lako ispravljive u fazi post-produkcije.
6.2. ChatGPT (GPT 1.5): Obećavajuća priča ometena tehničkim problemima
Strip generisan pomoću ChatGPT/GPT 1.5 modela suočio se sa značajnim tehničkim poteškoćama:
- Početni Utisak: Umetnički stil naslovne strane je bio vizuelno privlačan.
- Strukturni Problemi: Pojavili su se krupni nedostaci koji su narušavali tok priče, uključujući pogrešno postavljene dijaloge, duplirane ili nepotrebne panele, kao i ponovljene dijaloge.
- Konceptualni Propusti: AI nije uspeo da razume instrukciju za trepćući znak motela. Generisao je sliku GPS-a koja nije bila jasna kao Geminijeva verzija, a takođe je napravio nelogičnu grešku prikazujući sneg kako pada unutar zgrade.
- Gubitak Konzistentnosti Stila: Najkritičnija greška bio je potpuni gubitak umetničke doslednosti. Već na petoj i šestoj stranici, stil je postao "potpuno drugačiji" od onog definisanog na prvoj stranici.
- Ukupna Ocena: Zbog navedenih problema, priču je postalo "veoma teško pratiti", a finalni proizvod nije dostigao standard kvaliteta koji je postigao Gemini.
Detaljna analiza oba slučaja vodi nas ka finalnom zaključku i ključnim uvidima za kreatore.
7. Zaključak i ključni uvidi za kreatore
Rezultati ovog eksperimenta jasno pokazuju da je kombinacija Gemini/Nano Banana Pro proizvela značajno koherentniji i upotrebljiviji strip. Na osnovu celokupnog procesa, mogu se izvući sledeći ključni uvidi za kreativne profesionalce koji žele da koriste slične metodologije:
- Važnost Početnog Scenarija: Kompletnost i struktura AI-generisanog scenarija su fundamentalni (oblast u kojoj je ChatGPT inicijalno pokazao prednost), ali sami po sebi nisu dovoljni bez snažne vizuelne egzekucije.
- Doslednost Vizuelnog Stila je Ključna: Metoda "daisy-chain" se pokazala kao održiva tehnika za održavanje vizuelne doslednosti. Međutim, njen uspeh zavisi od sposobnosti modela da održi stil, što je demonstrirano uspehom Gemini modela i neuspehom GPT 1.5, koji je podlegao "odstupanju stila" (style drift).
- Tehnička Rešenja su Neophodna: Uloga platformi kao što je Higsfield je kritična, jer omogućavaju prevazilaženje tehničkih ograničenja standardnih besplatnih alata i čine ovakve projekte praktično izvodljivim u realnom vremenskom okviru.
- Planirajte Fazu Ljudske Korekcije: Neophodno je planirati fazu post-produkcije za ljudsku korekciju. Čak i najnapredniji modeli generišu minorne vizuelne artefakte i tekstualne greške, što ukazuje da je faza ljudskog uređivanja i dalje neophodna za postizanje profesionalnog finalnog proizvoda.
Komentari
Nema komentara. Šta vi mislite o ovome?