A A+ A++

Wirtualny asystent Google Gemini został zintegrowany z technologią Imagen 3, która pozwala generować obrazy na podstawie słownych opisów. Jak wypada na tle konkurencji?

Imagen 3 to model Google’a, który stanowi bezpośrednią konkurencję dla Dall-E 3. Dotychczas jego dostępność była ograniczona, ale tak jak OpenAI zintegrowało swój model z ChatGPT, tak i Google postawił na integrację generatora obrazów z Gemini. 

Funkcja Imagen 3 dostępna jest już u wszystkich użytkowników Gemini i obsługuje język polski. A jak ta sztuczna inteligencja radzi sobie w praktyce? 

Uruchom wideo

Imagen 3 (Gemini) kontra DALL-E 3 (ChatGPT) – porównanie generatorów obrazów

W ramach porównania wprowadziłem do obu generatorów te same prompty. Niestety Imagen 3 na chwilę obecną nie potrafi tworzyć grafik przedstawiających ludzi, dlatego musiałem się ograniczyć do przedmiotów, miejsc, zwierząt i fikcyjnych postaci. 

Po lewej Imagen 3 (Gemini), a po prawej DALL-E 3 (ChatGPT). 

“Niebieski smok origami na szczycie Pałacu Kultury i Nauki w Warszawie, nocne niebo pełne gwiazd, styl komiksowy”:

Gemini (po lewej) i ChatGPT (po prawej)

“Robotyczny barista serwujący kawę w futurystycznej kawiarni, neonowe światła, styl animacji komputerowej”:

Gemini (po lewej) i ChatGPT (po prawej)

“Szary pies rasy yorkshire terrier jedzie na różowej deskorolce, ucieka przed stadem kangurów, ulice Miami, w tle płonący budynek, na niebie helikopter, realizm”:

Gemini (po lewej) i ChatGPT (po prawej)

“Mario kontra Sonic, styl gry Mortal Kombat, klimat retro, widoczny interfejs bijatyki” (ChatGPT wyświetlił informację, że – z uwagi na prawa autorskie – wygeneruje jedynie “podobne postacie”):

Gemini (po lewej) i ChatGPT (po prawej)

“Miniaturowy astronauta eksplorujący gigantyczną pizzę, kosmos w tle, styl retro plakatu filmowego”:

Gemini (po lewej) i ChatGPT (po prawej)

“Indyjska restauracja, widok z zewnątrz, czarny kot patrzący na szyld z polską nazwą Najwyższy wymiar Curry”:

Gemini (po lewej) i ChatGPT (po prawej)

“Samuraj-panda walczący z ninja-krabem, tło tradycyjnego japońskiego ogrodu, styl kreskówki The Simpsons”:

Gemini (po lewej) i ChatGPT (po prawej)

“Ludzik LEGO w kształcie Kaczora Donalda, trzymany w dłoni, efekt bokeh, w tle bar ze stołem bilardowym” (ChatGPT wygenerował zwykłego kaczora z uwagi na prawa autorskie):

Gemini (po lewej) i ChatGPT (po prawej)

Wnioski? Sama jakość generowanych grafik stoi w obu przypadkach na wysokim poziomie. Oba modele mają też podobne problemy z generowaniem napisów, zwłaszcza polskich. Podczas testowania obu narzędzi rzuciły mi się jednak w oczy istotne różnice użytkowe. 

Imagen 3 w Gemini generuje obrazy w wyższej rozdzielczości (2048p zamiast 1024p), dzięki czemu są one znaczne bardziej szczegółowe. Narzędzie ma też bardziej swobodne podejście do praw autorskich, bo bez zająknięcia generuje postaci z gier czy filmów. 

Dall-E w ChatGPT w mojej ocenie działa jednak bardziej inteligentnie. Lepiej rozumie intencje i nieprecyzyjne prompty (przykład z restauracją), wzbogaca obrazy o elementy, których w poleceniu zabrakło (przykład ze smokiem czy baristą) czy lepiej odzwierciedla konkretne style graficzne (przykład z The Simpsons). Dodatkowo ChatGPT po wpisaniu odpowiedniego polecenia potrafi tworzyć obrazy o innych proporcjach, podczas gdy Gemini radzi sobie tylko z grafikami kwadratowymi. W darmowej wersji ChatGPT pozwala jednak na wygenerowanie raptem dwóch grafik dziennie. 

Ciężko wskazać zdecydowanego faworyta, bo – w zależności od scenariusza użycia – raz lepiej radzi sobie DALL-E 3, a raz Imagen 3.

Oryginalne źródło: ZOBACZ
0
Udostępnij na fb
Udostępnij na twitter
Udostępnij na WhatsApp

Oryginalne źródło ZOBACZ

Subskrybuj
Powiadom o

Dodaj kanał RSS

Musisz być zalogowanym aby zaproponować nowy kanal RSS

Dodaj kanał RSS
0 komentarzy
Informacje zwrotne w treści
Wyświetl wszystkie komentarze
Poprzedni artykułПод Киевом спасатели потушили масштабный пожар в ресторанном комплексе – видео, фото
Następny artykułHistoria Polski w komiksie |Recenzja