Что такое ChatGPT-4o (omni): обзор и тест всех возможностей

GPT-4o — новейшая флагманская модель от OpenAi, вышедшая 13 мая, которая, как заявляют разработчики обеспечивает интеллектуальные возможности GPT-4, но работает намного быстрее и улучшает свои возможности в области текста, голоса и изображения.

В этой статье обсудим и протестируем обновления нейросети!

Что нового?

В OpenAI заявили, что GPT-4o (Omni) — это ещё один большой шаг к более естественному, эффективному взаимодействию человека и компьютера и это обновление включает в себя интеллект уровня GPT-4, при этом:

Работает в 2 раза быстрее
Запоминает больше деталей из диалога
GPT-4o - омнимодель, это значит, что она может работать одновременно с текстом, голосом и фото.

Новинкой уже можно пользоваться в веб-версии ChatGPT на подписке Plus и Team. Приложение (где есть аудиовзаимодействие) доступно для скачивания на iPhone и Macbook. Чтобы установить его, нужно сменить регион в самом App Store (получится только после отмены всех подписок).

Помимо этого, OpenAi обещает установить ограничения на использование ChatGPT Free. У пользователей Plus лимит сообщений будет в 5 раз больше, чем у бесплатной версии, а на тарифах Team и Enterprise лимиты будут еще выше.

Основные обновления

ChatGPT-4o теперь может выходить в интернет и давать ответы на основе данных с веб-сайтов
Улучшенные возможности анализа данных и их визуализации
Общение на тему фотографий: к примеру, вы можете загрузить в диалоговое окно фото неизвестного растения и нейросеть расскажет, что это.
Новые возможности в работе с файлами:

1. Объединение или анализ информации из документов для создания чего-то нового, например:

Преобразование таблиц, например CSV, со смесью качественной и количественной информации, очистка и визуализация данных.
Сравнение двух документов в реальном времени и поиск отличий.
Применение правил, структуры или рубрик из одного документа к содержимому другого.

2. Изменение формы информации из документов не влияя на её суть, к примеру:

Преобразование сложных научных статей в простое резюме.
Резюмирование документов в простых терминах.
Превращение презентации, например PowerPoint в Word.

3. Извлечение данных: сбор определенной информации из файлов, например:

Сбор ссылок на определенную тему из документа.
Извлечение соответствующих какой либо теме цитат или данных из документа.
Поиск любого упоминания определенной темы в документе или таблице.
Подсчет количества строк в таблицах, содержащих определенную деталь.
Извлечение определенных разделов документа (например, всех заголовков или списков пустых cтрочек).

Нейросеть разговаривает с вами и обладает чувством юмора?

Одна из новых функций GPT-4 Omni - аудиообщение, позволяющая пользователям взаимодействовать с ИИ не только через текст, но и голосом. Теперь вы можете задавать вопросы, получать ответы и обсуждать различные темы, используя только значок микрофона в чате и свой голос.

По данным компании, время отклика аудиовхода составляет 320 миллисекунд, что соответствует времени отклика человека.

Обновлённая модель сделала значительный шаг к пониманию человеческой коммуникации: теперь с ней можно разговаривать в манере, приближенной к естественной. В комплекте все особенности реального общения: перебивание, понимание тона и даже осознание ошибки со стороны пользователя и её исправления.

Во время первой демонстрации Omni, которая прошла 13 мая ведущий попросил оценить его технику дыхания. Он тяжело дышал в телефон, и ChatGPT ответил остроумным замечанием: «Вы не пылесос». Он посоветовал использовать более медленную технику, продемонстрировав свою усовершенствованную способность понимать и реагировать.

Приложение ChatGPT для ПК: личный помощник 24/7

Новая модель доступна в виде десктопного приложения, которое позволяет вашему личному ассистенту-нейросети видеть весь экран или его часть и выполнять команды.

Наблюдая за вашим экраном, ChatGPT теперь может быстро отвечать на связанные c происходящим на нём вопросы, начиная от «Что происходит в этом программном коде?» до «Рубашку какого бренда носит этот человек?» и пр.

Пока что приложение доступно только для пользователей Mac OS. OpenAi сообщили, что версия для Windows также находится в разработке, а релиз начался с Mac, потому что там больше пользователей.

Демонстрация этой возможности на сайте OpenAi.

Помимо этого, улучшенная версия чата джпт запоминает намного больше информации в ходе диалога и меньше упускает детали, что было достаточно ощутимым минусом при работе, теперь же стало проще выполнять последовательные задачи с бо́льшим кол-вом вводных и нюансов.

О мероприятии OpenAi

Презентация, на которой OpenAI представили обновлённую нейросеть прошла за день до ежегодной конференции разработчиков Googlе, на которой ожидается анонс обновлений модели искусственного интеллекта Gemini.

Как и новый GPT, Gemini от Google также может анализировать и генерировать текст, изображения и аудио. Обновление OpenAI также опередило ожидаемый анонс от Apple на Всемирной конференции в июне, который может включать новые способы использования технологий ИИ в следующих версиях iPhone или iOS.

Между тем, последняя версия нейросети может стать благом для Microsoft, которая инвестировала миллиарды долларов в OpenAI, чтобы внедрить ее технологию искусственного интеллекта в собственные продукты.

Тестирование новых возможностей

Далее мы попробуем выполнить некоторые задачи из вышеописанного нами списка возможностей обновлённой нейросети.

1. Выход в интернет и просмотр информации на сайте:

Предположим, нам необходимо собрать информацию о содержимом сайта. В таком случае, мы попросим нейросеть вывести, к примеру 5 выводов с какого то определенного ресурса.

Модель джпт-4o справилась с этой задачей.

Как видно на фото, нейросеть нашла наш сайт через поисковую систему Bing от Microsoft через стандартный поисковый оператор "site:domain".

2. Работа с Excel

Мы загрузили в нейросеть таблицу из 5 столбцов и 27 строк и попросили её продемонстрировать свои возможности.

Без нашего участия, GPT-4o выбрал себе задачи анализа стоимости, создания сводной таблицы и визуализации данных.

Пример получившейся визуализации данных. Вся информация на графиках совпадает с исходными из таблицы.

Сводная таблица, также с верными данными.

В конечном итоге, с поставленными самой себе задачами нейросеть справилась, хоть они были и не настолько сложными.

Кроме всего прочего, усовершенствованная нейросеть предпочитает показывать свои возможности на примере, нежели рассказывать о них в текстовом виде, как это было раньше.

Первый вопрос, который мы задали в чате - может ли он составить отчет с нуля и какие данные ему для этого нужны:

Вот такой простой пример он составил в качестве демонстрации.

Заключение

Обновление вышло совсем недавно и прежде чем делать подробный обзор, необходимо протестировать его более сложными задачами и дождаться возможности загрузки приложения, которое пока ещё недоступно.

В процессе появления новых функций и тестирования, статья регулярно обновляется и скоро выйдет полный обзор возможностей новой нейросети, следите за обновлениями!

Что такое GPT-4o (Оmni): обзор возможностей и тестирование нейросети