Imagen 3 против DALL-E 3: 11 подсказок для тестирования каждого ИИ-художника

11

Несколько месяцев назад Google представил Imagen 3, свой генератор текста в изображения следующего поколения, на стадии бета-тестирования на платформе ImageFX. Теперь он доступен каждому как часть Google Gemini. Google утверждает, что новая модель может создавать очень подробные и реалистичные изображения и более точно следовать подсказкам. Итак, мы протестировали Imagen 3, сравнив его с DALL-E 3 от OpenAI, искусственным интеллектом, генерирующим изображения в ChatGPT.

Мы дали одинаковые подсказки Imagen 3 и Dall-E 3, чтобы протестировать их по различным показателям, включая возможности рендеринга текста, стили анимации, ракурсы камеры и даже их способность следовать подсказкам. Вот результаты нашего сравнения, показывающие, какая модель ИИ в целом показала лучшие результаты.

Программы для Windows, мобильные приложения, игры - ВСЁ БЕСПЛАТНО, в нашем закрытом телеграмм канале - Подписывайтесь:)

Примечание. Во всех примерах ниже Imagen 3 находится слева, а DALL-E 3 — справа.

1. Реалистичный городской уличный тест

Мы начали с создания реалистичной сцены городской улицы, чтобы оценить, как модели справляются с освещением и отражениями. Вот приглашение, которое мы предоставили обеим моделям:

Создайте реалистичную фотографию шумной городской улицы на закате с отражениями на мокром тротуаре, реалистичным освещением и тенями.

И вот результаты.

Сразу видно, что DALL-E 3 от ChatGPT с трудом создает реалистичные изображения. Хотя ему удается генерировать отражения, изображение по-прежнему кажется анимированным. Это справедливо и для всех последующих подсказок. DALL-E 3 имеет тенденцию создавать изображения, которые кажутся более анимированными по сравнению с Imagen 3 или MidJourney.

2. Тест угла камеры и композиции кадра

Далее мы хотели оценить, насколько хорошо каждый ИИ может отслеживать ракурсы камеры и предлагать варианты кадров. Мы предоставили следующую подсказку для обеих моделей:

Создайте изображение собаки, играющей в мяч в парке, сверхширокий снимок под низким углом с мячом в воздухе.

Хотя мне нравится качество результата Gemini, DALL-E 3 от ChatGPT более точно следовал рекомендациям, захватывая перспективу камеры под низким углом и сверхширокоугольный снимок. Gemini также последовали предложению по ракурсу камеры, но в целом ChatGPT работал лучше, сохраняя указанные ракурсы и композиции кадров.

3. Тест на тон кожи человека

Получить правильные оттенки кожи человека непросто, даже для MidJourney, которая известна тем, что создает реалистичные изображения людей, но часто испытывает трудности со снимками крупным планом. Чтобы протестировать возможности Imagen 3 и Dall-E 3, мы предоставили следующую подсказку:

Создайте крупным планом портрет пожилой женщины с морщинами и в очках при естественном освещении и размытом фоне.

Как и ожидалось, DALL-E 3 ChatGPT создал изображение, которое выглядит анимированным. Хотя результат Gemini был сравнительно лучше, все же было легко понять, что изображение было создано искусственным интеллектом.

4. Тест на стиль рисования

Все три предыдущих примера были направлены на создание реалистичных изображений, что не учитывало сильные стороны DALL-E 3. Чтобы оценить, насколько хорошо оба генератора изображений AI могут создавать изображения в стиле рисования, мы предоставили следующую подсказку:

Создайте парящий остров в небе с водопадами, ниспадающими в облака, в стиле сюрреалистической картины.

Обе модели хорошо справились с этой подсказкой. DALL-E 3 от ChatGPT создал изображение с более сложными деталями и ярким блеском, тогда как Gemini добился мягкого результата в более сплоченном художественном стиле. Хотя у обоих были свои сильные стороны, выбор между ними может сводиться к предпочтению либо детальных, резких образов (DALL-E 3), либо более смешанной, сказочной эстетики (Близнецы).

Но Gemini на самом деле лучше последовали подсказке, создав изображение, больше похожее на картину, и удачно изобразило водопады, ниспадающие в облака. В то время как создается впечатление, что у ChatGPT есть свой стиль, и по какой-то причине ему нравится его придерживаться.

5. Понимание абстрактных концепций

Затем мы проверили, насколько хорошо модели могут интерпретировать абстрактные концепции. Вот один из примеров приглашения, которое мы предоставили:

Создайте изображение, показывающее чувство счастья, представленное в виде абстрактного взрыва разноцветных завитков и форм.

Очень сложно объявить победителя в этой категории, но лично мне больше нравится результат ChatGPT Dall-E 3. В большинстве случаев результат Gemini Imagen 3 на самом деле кажется противоположным тому, который я предоставил, но у вас может быть другое мнение.

6. Стиль 2D-анимации и создание мультяшного изображения

Мы также протестировали способность моделей создавать изображения в стиле 2D-анимации и в мультяшном стиле. Вот пример запроса из наших тестов:

Создайте изображение панды в стиле 2D-анимации, держащей зонтик во время ливня, при этом капли дождя отскакивают от зонтика.

Хотя я ожидал, что ChatGPT преуспеет в этой области, я сразу же столкнулся с трудностями при создании 2D-изображений с помощью ChatGPT. Первоначально он создавал изображения в стиле 3D-анимации, и только после повторного запроса он создавал 2D-изображения. Эта проблема возникала несколько раз в разных примерах, поэтому мы рассматриваем изображение 2D-анимации, которое оно в конечном итоге сгенерировало после нескольких запросов.

Gemini часто генерирует 2D-изображения с большей детализацией, в то время как ChatGPT имеет тенденцию преобразовывать 2D-изображения в более мультяшные изображения. В конце концов, выбор между ними зависит от ваших личных предпочтений и стиля, который вы ищете. Мы предпочитаем ChatGPT, поскольку он выглядит в 2D, как мы и подсказали.

7. Создание реальных людей

Мы также проверили, могут ли Imagen-3 и Dall-E 3 создавать изображения с участием реальных людей, таких как Илон Маск или Дональд Трамп. Однако обе модели не способны генерировать изображения реальных людей. В то время как Gemini сразу заявляет, что не может создавать изображения с реальными людьми, ChatGPT сначала пытается создавать изображения в различных настройках, а затем в конечном итоге заявляет, что не может создавать изображения реальных людей.

8. Тест исторических личностей

Ранее генератор изображений Gemini столкнулся с противоречиями за то, что не создавал изображения белых людей. Он создавал изображения цветных людей, даже когда давались подсказки типа «Отцы-основатели Америки». Чтобы увидеть, как работает новая модель, мы использовали ту же подсказку:

Создайте портрет отца-основателя Америки.

Похоже, что эта проблема решена, поскольку обе модели во время наших тестов воспроизводили изображения, которые были точными и соответствовали историческим изображениям.

9. Тест рендеринга текста

Затем мы протестировали возможности рендеринга текста, поскольку многие модели часто создают трудночитаемый или бессмысленный текст. И Google, и OpenAI утверждают, что их модели улучшились в этой области, поэтому мы использовали следующую подсказку:

Создайте изображение кирпичной стены, покрытой граффити, со словом «TechWiser» в ярких цветах и ​​шероховатом стиле.

В этом примере обе модели правильно отобразили текст. Однако, если в подсказке не указан точный текст, обе модели по-прежнему испытывают трудности. Например, с помощью этой подсказки:

Открытая книга лежит на деревянном столе, ее страницы хорошо видны и хорошо освещены. Слова должны быть достаточно ясными для чтения.

DALL-E 3 ChatGPT не смог точно отобразить текст, создав неразборчивые слова, в то время как Gemini отклонились от подсказки, сделав текст на страницах менее видимым, часто скрывая или размывая его.

10. Подробный быстрый тест

Наконец, мы проверили, насколько хорошо оба генератора изображений AI следуют подсказкам, содержащим множество конкретных деталей. Вот пример подробного приглашения, которое мы использовали:

Создайте образ молодой женщины-воина с короткими серебристыми волосами и пронзительными голубыми глазами, одетой в замысловатые доспехи из темного металла с красными вставками. Она держит обоюдоострый меч с выгравированными на лезвии рунами. По левой щеке проходит небольшой шрам. Позади нее сумеречное небо меняет цвет с темно-фиолетового на оранжевый, вдалеке виднеется силуэт разрушенного замка. Она стоит на скалистом утесе рядом с черным волком, его глаза светятся в тусклом свете.

Обе модели хорошо справились с этой сложной подсказкой, но были заметные различия в том, как они обрабатывали детали. В DALL-E 3 от ChatGPT не хватает нескольких элементов, таких как шрам на левой щеке и красные акценты на броне. Кроме того, персонаж не был изображен держащим меч, как указано.

Близнецы уловили каждую деталь, включая шрам, красные акценты и точный градиент сумеречного неба от фиолетового до оранжевого, что привело к более точной интерпретации подсказки.

11. Редактирование в Paint

ChatGPT может генерировать изображения, но с его помощью вы также можете редактировать изображения. Чтобы отредактировать изображение, выберите сгенерированное изображение, нажмите кнопку рисования и выберите часть, которую вы хотите изменить или отредактировать. Затем вы можете предоставить подсказку, и изменения появятся только в этой конкретной части. Например, вот изображение линии горизонта, которое я создал с помощью ChatGPT.

Но теперь, если я предпочитаю оранжевое и яркое небо, я могу выбрать часть неба и предоставить подсказку, чтобы сделать небо ярким. Вот отредактированное изображение.

Редактирование подобных изображений пока невозможно в Google Gemini. Кроме того, Imagen 3 генерирует изображения намного медленнее, чем DALL-E 3.

Imagen 3 превосходит DALL-E 3

Imagen 3 отлично справляется с созданием более реалистичных изображений и может настраивать стиль анимации в соответствии с подсказками. Напротив, DALL-E 3 ChatGPT имеет тенденцию придерживаться своего собственного стиля, даже когда запрашиваются разные стили. Однако у ChatGPT есть свои преимущества — он лучше отслеживает ракурсы и перспективы камеры, а также может редактировать сгенерированные изображения.

Оба инструмента искусственного интеллекта могут генерировать изображения даже в бесплатной версии, но с такими ограничениями, как:

  • не может создавать изображения с реальными людьми
  • дневной лимит на количество изображений, которые они могут создать

Прошли те времена, когда изображения, созданные с помощью ИИ, имели бросающиеся в глаза проблемы, например, у персонажей с 10 пальцами на одной руке. Большинство изображений, создаваемых этими моделями, теперь точны, что делает их ценными инструментами для создателей контента.

Программы для Windows, мобильные приложения, игры - ВСЁ БЕСПЛАТНО, в нашем закрытом телеграмм канале - Подписывайтесь:)

Похожие записи

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *