Сравнение OpenAI ChatGPT o1 с GPT 4o, Gemini 1.5 Pro и Claude 3.5 Sonnet

33

Новая модель ChatGPT o1 от OpenAI фокусируется на рассуждениях для решения сложных задач кодирования и математики — областей, в которых предыдущие модели OpenAI испытывали трудности. OpenAI утверждает, что модель o1 (также называемая Strawberry) разработана так, чтобы тратить больше времени на размышления перед ответом. В этой статье мы рассмотрим, что предлагает новая модель o1, как она может быть полезна для нас и, что самое важное, как она сравнивается с другими моделями высшего уровня, такими как GPT-4o, Gemini 1.5 Pro и Claude 3.5 Sonnet. Давайте начнем.

Что такое модель OpenAI o1

До сих пор языковые модели OpenAI были частью серии GPT, такой как GPT-3.5, GPT-4 и GPT-4o. Новая модель o1 знаменует начало новой серии «o», разработанной для улучшения рассуждений и комплексного мышления перед генерацией ответа. В отличие от предыдущих моделей, o1 использует подход «цепочки мыслей», внутренне разбивая проблемы шаг за шагом, чтобы предоставить более точные ответы на гораздо более сложные проблемы. OpenAI предоставляет аспирантам целевую пользовательскую базу.

Программы для Windows, мобильные приложения, игры - ВСЁ БЕСПЛАТНО, в нашем закрытом телеграмм канале - Подписывайтесь:)

Ниже представлен график, представленный OpenAI, сравнивающий модель o1 Strawberry с предыдущей моделью GPT4o, в которой первой задавались вопросы по науке уровня доктора наук.

Сложные проблемы требуют многошагового решения. По мере увеличения количества шагов предыдущие модели выдавали неточные ответы, если пользователи не проводили их через каждый шаг с помощью серии подсказок. Напротив, модель o1 утверждает, что сама справляется с этой цепочкой мыслей, как будто она ведет внутренний диалог, чтобы прийти к правильному ответу.

Однако, поскольку Strawberry тратит больше времени на обработку и размышления, он гораздо медленнее других. Во многих случаях он даже не начинает отвечать на подсказки, в то время как модели вроде GPT-4o уже заканчивают свой ответ.

Основные моменты модели OpenAI o1

Рассуждение

Улучшение рассуждений и сложных задач делает новую модель o1 хорошей в математике, науке, кодировании и нескольких других высокоуровневых сложных задачах. OpenAI протестировала эти модели вместе с GPT 4o на разнообразном наборе экзаменов и бенчмарков ML, таких как Math, Code и Science.

Если GPT 4o смогла решить задачу с точностью всего 13%, то более новая модель o1 смогла решить задачу с точностью 83%, а точность o1-preview составила около 56%.

Цепочка мыслей

Модель o1 использует подход цепочки мыслей. Вы можете просмотреть весь мыслительный процесс, нажав на опцию «Мысль» вверху. Хотя вы не можете видеть конкретные входные данные, которые привели к мысли, вы можете просмотреть направление рассуждений и то, что ChatGPT рассмотрел перед ответом.

Как получить доступ к модели ChatGPT o1

Новая линейка моделей o1 включает OpenAI o1, OpenAI o1-preview и OpenAI o1-mini. Начиная с сегодняшнего дня, модели preview и mini доступны платным пользователям ChatGPT Plus с лимитами использования 30 сообщений в неделю для o1-preview и 50 сообщений в неделю для o1-mini.

Чтобы максимально использовать эти модели, используйте их только при необходимости. Чтобы получить доступ к моделям o1-preview и o1-mini, откройте ChatGPT, нажмите на номер модели выше и выберите либо o1-preview, либо o1-mini, чтобы начать их использовать.

Сравнение ChatGPT o1 с GPT 4o, Claude 3.5 Sonnet и Gemini 1.5 Pro

Поскольку модель ChatGPT o1 ориентирована на математику и кодирование, мы протестировали ее производительность в реальных сценариях по сравнению с другими языковыми моделями, включая GPT-4o, Claude 3.5 Sonnet и Gemini 1.5 Pro.

1. Математический вопрос

Я начал тест, задав всем моделям ИИ этот математический вопрос.

Рассмотрим сетку размером n×n, где n≥2. Вы начинаете с нижнего левого угла сетки и хотите достичь верхнего правого угла. Вы можете двигаться только вправо или вверх. Однако вам не разрешено проходить через любую точку на диагонали y=x. Определите количество различных путей из нижнего левого в верхний правый угол, которые не пересекают и не касаются диагонали y=x.

Выходные данные, предоставляемые моделью o1, более подробны и верны, как показано ниже.

GPT-4o не учел инструкцию избегать касания или пересечения диагональной точки, что привело к получению неверного ответа.

Однако, когда я разобрал шаги, GPT-4o смог сгенерировать правильный ответ. Удивительно, но Gemini 1.5 Pro выдал вывод, который было трудно понять. Он необъяснимым образом ввел Python в обсуждение, хотя в вопросе он вообще не упоминался.

Однако GPT-4o, Gemini 1.5 Pro и Claude 3.5 Sonnet смогли правильно решить проблему, когда я вручную провел их по всем шагам.

2. Вопрос по кодированию

Что касается кодирования, я провел несколько тестов, с которыми я знаком, и все модели показали схожие результаты. Вот один из примеров, которые я попробовал:

Напишите функцию Python, которая принимает строку, представляющую собой ряд задач и их зависимости в формате «A->B, B->C, C->D», и возвращает порядок, в котором задачи должны быть выполнены.

Все модели, а не только ChatGPT o1, предоставили правильный код. Фактически, мы попробовали пример, предоставленный OpenAI на их сайте, и результаты были похожими. GPT-4o обычно испытывает трудности с кодированием на основе пользовательского интерфейса, и это также касается ChatGPT o1. Когда дело доходит до разработки front-end, Claude 3.5 Sonnet занимает первое место. Однако все модели работают одинаково, когда дело доходит до back-end и кодирования на основе логики.

Однако при столкновении с уникальными проблемами ChatGPT o1 может превзойти другие модели — чего нам еще предстоит наблюдать.

Модель ChatGPT o1 – как она полезна в реальном мире

ChatGPT o1 особенно эффективен в задачах, требующих продвинутого мышления, таких как математика на уровне доктора философии, наука и кодирование, которые могут быть неактуальны для повседневного использования или обычных людей. Однако, если вы ищете помощь в бизнес-планировании, управлении финансами или составлении расписания — задачи, требующие сильных навыков мышления и принятия решений, — мы обнаружили, что модель ChatGPT o1 работает исключительно хорошо по сравнению с другими моделями. Кроме того, поскольку она включена в подписку ChatGPT Plus без дополнительной платы, она предлагает дополнительную ценность для пользователей Plus.

Программы для Windows, мобильные приложения, игры - ВСЁ БЕСПЛАТНО, в нашем закрытом телеграмм канале - Подписывайтесь:)

Похожие записи

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *