Что такое GPT-4o (Оmni): обзор возможностей и тестирование нейросети

GPT-4o — новейшая флагманская модель от OpenAi, вышедшая 13 мая, которая, как заявляют разработчики обеспечивает интеллектуальные возможности GPT-4, но работает намного быстрее и улучшает свои возможности в области текста, голоса и изображения.

В этой статье обсудим и протестируем обновления нейросети!

Что нового?

В OpenAI заявили, что GPT-4o (Omni) — это ещё один большой шаг к более естественному, эффективному взаимодействию человека и компьютера и это обновление включает в себя интеллект уровня GPT-4, при этом:
  • Работает в 2 раза быстрее
  • Запоминает больше деталей из диалога 
  • GPT-4o - омнимодель, это значит, что она может работать одновременно с текстом, голосом и фото. 

Новинкой уже можно пользоваться в веб-версии ChatGPT на подписке Plus и Team. Приложение (где есть аудиовзаимодействие) доступно для скачивания на iPhone и Macbook. Чтобы установить его, нужно сменить регион в самом App Store (получится только после отмены всех подписок).

Помимо этого, OpenAi обещает установить ограничения на использование ChatGPT Free. У пользователей Plus лимит сообщений будет в 5 раз больше, чем у бесплатной версии, а на тарифах Team и Enterprise лимиты будут еще выше.

Основные обновления

  • ChatGPT-4o теперь может выходить в интернет и давать ответы на основе данных с веб-сайтов 
  • Улучшенные возможности анализа данных и их визуализации
  • Общение на тему фотографий: к примеру, вы можете загрузить в диалоговое окно фото неизвестного растения и нейросеть расскажет, что это.
  • Новые возможности в работе с файлами:

1. Объединение или анализ информации из документов для создания чего-то нового, например:

  • Преобразование таблиц, например CSV, со смесью качественной и количественной информации, очистка и визуализация данных.
  • Сравнение двух документов в реальном времени и поиск отличий.
  • Применение правил, структуры или рубрик из одного документа к содержимому другого.

2. Изменение формы информации из документов не влияя на её суть, к примеру:

  • Преобразование сложных научных статей в простое резюме.
  • Резюмирование документов в простых терминах.
  • Превращение презентации, например PowerPoint в Word.

3. Извлечение данных: сбор определенной информации из файлов, например:

  • Сбор ссылок на определенную тему из документа.
  • Извлечение соответствующих какой либо теме цитат или данных из документа.
  • Поиск любого упоминания определенной темы в документе или таблице.
  • Подсчет количества строк в таблицах, содержащих определенную деталь.
  • Извлечение определенных разделов документа (например, всех заголовков или списков пустых cтрочек).

Нейросеть разговаривает с вами и обладает чувством юмора?

Одна из новых функций GPT-4 Omni - аудиообщение, позволяющая пользователям взаимодействовать с ИИ не только через текст, но и голосом. Теперь вы можете задавать вопросы, получать ответы и обсуждать различные темы, используя только значок микрофона в чате и свой голос.  

По данным компании, время отклика аудиовхода составляет 320 миллисекунд, что соответствует времени отклика человека.

Обновлённая модель сделала значительный шаг к пониманию человеческой коммуникации: теперь с ней можно разговаривать в манере, приближенной к естественной. В комплекте все особенности реального общения: перебивание, понимание тона и даже осознание ошибки со стороны пользователя и её исправления.

Во время первой демонстрации Omni, которая прошла 13 мая ведущий попросил оценить его технику дыхания. Он тяжело дышал в телефон, и ChatGPT ответил остроумным замечанием: «Вы не пылесос». Он посоветовал использовать более медленную технику, продемонстрировав свою усовершенствованную способность понимать и реагировать.

Приложение ChatGPT для ПК: личный помощник 24/7

Новая модель доступна в виде десктопного приложения, которое позволяет вашему личному ассистенту-нейросети видеть весь экран или его часть и выполнять команды.

Наблюдая за вашим экраном, ChatGPT теперь может быстро отвечать на связанные c происходящим на нём вопросы, начиная от «Что происходит в этом программном коде?» до «Рубашку какого бренда носит этот человек?» и пр.

Пока что приложение доступно только для пользователей Mac OS. OpenAi сообщили, что версия для Windows также находится в разработке, а релиз начался с Mac, потому что там больше пользователей. 

Демонстрация этой возможности на сайте OpenAi.  

Помимо этого, улучшенная версия чата джпт запоминает намного больше информации в ходе диалога и меньше упускает детали, что было достаточно ощутимым минусом при работе, теперь же стало проще выполнять последовательные задачи с бо́льшим кол-вом вводных и нюансов.

О мероприятии OpenAi

Презентация, на которой OpenAI представили обновлённую нейросеть прошла за день до ежегодной конференции разработчиков Googlе, на которой ожидается анонс обновлений модели искусственного интеллекта Gemini.

Как и новый GPT, Gemini от Google также может анализировать и генерировать текст, изображения и аудио. Обновление OpenAI также опередило ожидаемый анонс от Apple на Всемирной конференции в июне, который может включать новые способы использования технологий ИИ в следующих версиях iPhone или iOS.

Между тем, последняя версия нейросети может стать благом для Microsoft, которая инвестировала миллиарды долларов в OpenAI, чтобы внедрить ее технологию искусственного интеллекта в собственные продукты.

Тестирование новых возможностей 

Далее мы попробуем выполнить некоторые задачи из вышеописанного нами списка возможностей обновлённой нейросети.

1. Выход в интернет и просмотр информации на сайте:

Предположим, нам необходимо собрать информацию о содержимом сайта. В таком случае, мы попросим нейросеть вывести, к примеру 5 выводов с какого то определенного ресурса. 

Модель джпт-4o справилась с этой задачей. 

Как видно на фото, нейросеть нашла наш сайт через поисковую систему Bing от Microsoft через стандартный поисковый оператор "site:domain". 

2. Работа с Excel

Мы загрузили в нейросеть таблицу из 5 столбцов и 27 строк и попросили её продемонстрировать свои возможности. 

Без нашего участия, GPT-4o выбрал себе задачи анализа стоимости, создания сводной таблицы и визуализации данных. 

Пример получившейся визуализации данных. Вся информация на графиках совпадает с исходными из таблицы.

Сводная таблица, также с верными данными. 

В конечном итоге, с поставленными самой себе задачами нейросеть справилась, хоть они были и не настолько сложными. 

Кроме всего прочего, усовершенствованная нейросеть предпочитает показывать свои возможности на примере, нежели рассказывать о них в текстовом виде, как это было раньше. 

Первый вопрос, который мы задали в чате - может ли он составить отчет с нуля и какие данные ему для этого нужны:

Вот такой простой пример он составил в качестве демонстрации.

Заключение

Обновление вышло совсем недавно и прежде чем делать подробный обзор, необходимо протестировать его более сложными задачами и дождаться возможности загрузки приложения, которое пока ещё недоступно. 

В процессе появления новых функций и тестирования, статья регулярно обновляется и скоро выйдет полный обзор возможностей новой нейросети, следите за обновлениями!