OpenAI o1 на самом деле лучше, чем ChatGPT-4o? Давайте сравним

32

Недавно OpenAI выпустила свою новую модель o1 (также известную как Strawberry), которая фокусируется на рассуждениях и логике. В некоторых областях, таких как математика, наука и кодирование, она значительно превосходит GPT-4o. Однако GPT-4o все еще имеет свои преимущества и сильные стороны по сравнению с новой моделью o1. Обе модели ChatGPT требуют подписки ChatGPT plus для доступа. В этой статье модели ChatGPT 4o и o1 проходят через различные подсказки для решения различных проблем, чтобы определить, какая модель лучше подходит для конкретных задач. Итак, начнем.

1. Кодирование

Давайте начнем наши тесты с кодирования. В качестве примера я предоставил скрипт Python с несколькими ошибками, неэффективными методами решения задачи и проблемами, не позволяющими ему генерировать вывод. Я передал этот код и o1 Strawberry, и GPT-4o, используя следующую подсказку.

Программы для Windows, мобильные приложения, игры - ВСЁ БЕСПЛАТНО, в нашем закрытом телеграмм канале - Подписывайтесь:)

Просмотрите код и исправьте любые ошибки или упущения. Оптимизируйте все функции для большей эффективности, используя комментарии для понимания и реализации любой недостающей функциональности. Убедитесь, что цель функции {main} ясна и полностью реализована. Сосредоточьтесь исключительно на улучшениях кода, не добавляя дополнительную документацию и не отклоняясь от изначального замысла кода.

Результаты оказались весьма неожиданными. Код, сгенерированный GPT 4o, не смог выдать выходных данных, но ему удалось исправить 90% ошибок. Напротив, модель o1 сгенерировала идеально работающее решение. Кроме того, код из модели o1 был более лаконичным, используя списочные включения и расширенные назначения.

Примечательно, что он также автоматически добавил основную функцию, которую не сделала версия GPT 4o. Однако интересный момент заключается в том, что в то время как GPT 4o импортировала только необходимые компоненты, модель o1 импортировала весь модуль heapq. Хотя этот подход по-прежнему эффективен, он менее элегантен.

Модель o1

Модель GPT 4o

Это могло произойти из-за того, что мы изначально тестировали модели ИИ с помощью простой программы для корзины покупок. Чтобы еще раз оценить их возможности, мы снова протестировали их с более сложным кодом, включающим многопоточность, машинное обучение и сложные структуры данных, такие как графы и деревья. Этот код содержал еще больше ошибок и был крайне неэффективен.

Вот где модель o1 действительно проявила себя. В то время как GPT 4o удалось исправить около 40-50% ошибок, модель o1 снова исправила их все. Кроме того, GPT 4o никак не повысила эффективность; сгенерированный код по-прежнему использовал неэффективные методы потоковой обработки, полагался на базовую модель, такую ​​как MLPClassifier, для обнаружения мошенничества и не настраивал никакие модели машинного обучения. Напротив, модель o1 реализовала все эти аспекты идеально.

Модель GPT 4o

У нас есть несколько интересных советов по ChatGPT для программистов, которые помогут вам эффективнее использовать подсказки ИИ.

2. Создание электронных писем, заданий, статей и т. д.

На втором этапе тестирования мы сосредоточились на создании различных текстов, от простых писем до статей на 2000 слов. В этом случае обе модели выдали схожие результаты, что затрудняет ранжирование одной из них. Причина проста: модель o1 отлично справляется с задачами, требующими высокоуровневого рассуждения, тогда как создание писем и заданий может быть эффективно выполнено стандартными языковыми моделями. Например, вы можете увидеть результаты теста на снимке экрана ниже.

Модель o1

Модель GPT 4o

Хотя вывод был схожим, GPT 4o сгенерировал текст в три раза быстрее, чем модель o1. Модель o1 могла бы провести цепочку мыслей внутренне, потратив больше времени на размышления и анализ, но для таких задач, как генерация текста, GPT 4o является лучшим выбором с точки зрения скорости. Кроме того, поскольку в модели o1 доступно всего 30 сообщений в неделю, ее практичнее зарезервировать для более сложных задач, а не для рутинной генерации текста.

3. Создание сценария, постов в социальных сетях и идей

Хотя создание простых писем и статей может не требовать сложных рассуждений, можно предположить, что креативный контент от этого выиграет. Однако это не обязательно так. Например, при создании случайного сценария или поста в социальной сети модель o1 не показывает никаких существенных преимуществ, кроме того, что она медленнее. Однако, если ваши требования точны и включают длинный список инструкций, модель o1 работает немного лучше.

Например, я предоставил обеим моделям статью на 2000 слов и попросил их создать ветку Twitter. Я также попросил ее соблюдать ограничение по количеству символов, использовать краткие формы Twitter и придерживаться разговорного и дружелюбного тона, чтобы генерировать больше кликов по ссылке. Было также несколько других мелких инструкций.

Модель o1

Модель GPT 4o

Как вы видите, модель GPT 4o полностью проигнорировала ограничение Twitter на количество символов. Я также указал не включать никаких хэштегов, но модель GPT 4o также не следовала этой инструкции. Кроме того, версия o1 добавила необходимые теги изображений, чтобы поддерживать интерес аудитории. Хотя это может показаться не связанными с рассуждениями проблемами, модели o1 требуется время, чтобы провести цепочку мыслей в фоновом режиме, придавая больший вес всем вашим инструкциям в своем ответе.

Если просмотреть цепочку его мыслей, то можно увидеть, что он обдумывал, как писать так, чтобы генерировать больше кликов. Так что, даже если вы генерируете текст, но у вас длинный список инструкций, которые версия GPT 4o не полностью выполняет, модель o1 определенно может прийти на помощь.

4. Документы, PDF-файлы, изображения и другие файлы

GPT 4o может идентифицировать объекты и элементы на изображениях, обобщать документы и PDF-файлы и легко обрабатывать различные типы загрузок файлов. Однако в настоящее время модель o1 не имеет возможности загружать файлы. Как только вы переключаетесь на модель o1, возможность загружать файлы исчезает. Это ограничение означает, что задачи, включающие визуальное распознавание или анализ документов, не могут быть выполнены напрямую с помощью модели o1. В этом аспекте GPT 4o является явным победителем.

5. Решайте математические задачи

Я протестировал обе модели с помощью некоторых базовых математических вопросов, и GPT 4o ответил на несколько из них неправильно. GPT 4o, похоже, больше сосредоточен на извлечении информации из своих обучающих данных. Всякий раз, когда я задавал сложный вопрос, который не был напрямую доступен в Интернете, был как минимум 30% шанс (ограниченный размер выборки), что он сделает ошибку.

Модель o1 также допустила ошибку в вопросе, связанном с графом. Но в целом я задал обеим моделям около 12 математических вопросов, и навыки решения математических задач у o1 были впечатляющими — значительное улучшение по сравнению с моделью 4o. В тест олимпиады по математикемодель o1 набрала около 83%, а модель 4o — всего 13%.

6. Сложный финансовый раскол

Если модель o1 преуспевает в математике, она, скорее всего, будет хорошо справляться и с задачами, связанными с финансами. Чтобы проверить это, я представил сценарий, в котором мы с двумя друзьями снимали новую комнату и неравномерно тратили деньги на различные расходы, такие как авансовый платеж, арендная плата, брокерские сборы и другие покупки.

Я предоставил все детали обеим моделям и попросил их рассчитать, сколько каждому человеку нужно будет заплатить, чтобы обеспечить справедливое разделение всех потраченных денег. В этой ситуации модель должна была понимать как математические расчеты, так и контекст, чтобы предоставить точный ответ.

Три друга, Элис, Боб и Чарли, вместе снимают новую комнату и внесли несколько платежей на разные расходы. Элис заплатила 800 долларов аванса, Боб заплатил 500 долларов за аренду, а Чарли заплатил 200 долларов за брокерские услуги. Кроме того, Элис потратила 150 долларов на продукты, Боб купил мебель за 300 долларов, а Чарли потратил 100 долларов на кухонные принадлежности. Я хочу убедиться, что общие расходы равномерно распределены между тремя друзьями. Рассчитайте, сколько каждый человек должен заплатить или получить возмещение, чтобы добиться справедливого распределения всех расходов. Предоставьте разбивку суммы, которую каждый человек должен или должен получить

Обе модели GPT 4o и o1 дают правильный ответ, поскольку математика достаточно проста. Обе модели ИИ имеют одинаковый уровень понимания контекста, и рассуждения модели o1 здесь не имеют большого преимущества. Однако нам нравится ответ модели o1, поскольку она лучше объясняет решение с помощью таблицы. Но вы можете легко получить их в модели 4o с помощью подсказки. Так что в этом раунде ничья.

Модель o1

Модель OpenAI GPT 4o против o1

Мы сравнили обе модели в различных тестах, таких как составление расписания, создание финансового плана для бизнеса и решение загадок. Модель o1 преуспела, особенно в задачах, требующих рассуждений. Однако для задач, не требующих большого рассуждения, таких как создание текста или поиск информации, обе модели показали схожие результаты, с основным отличием в том, что o1 была намного медленнее.

Программы для Windows, мобильные приложения, игры - ВСЁ БЕСПЛАТНО, в нашем закрытом телеграмм канале - Подписывайтесь:)

Похожие записи

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *