Google представила Gemini, главного конкурента GPT-4, который помимо текста понимает изображения, видео и аудио

7 декабря, 2023  12:19

Google запустил новую модель искусственного интеллекта (ИИ) Gemini, которая усилит возможности ИИ компании и бросит вызов конкурентам, включая ChatGPT OpenAI. Генеральный директор Google Сундар Пичаи заявил, что появление нового алгоритма знаменует собой начало новой эры искусственного интеллекта в компании.

«Одним из замечательных моментов в этом является то, что вы можете работать над одной базовой технологией и улучшать ее, и она немедленно распространится на все наши продукты», — сказал Пичаи, добавив, что эта модель искусственного интеллекта в конечном итоге будет интегрирована в поисковую систему Google. рекламные продукты компании, браузер Chrome и другие сервисы.

Gemini model types .jpg (93 KB)

Gemini — это больше, чем просто языковая модель. Есть Gemini Nano, более легкая версия, предназначенная для автономной работы на устройствах Android. Кроме того, существует Gemini Pro — более мощная версия, которая в будущем станет основой многих сервисов Google, а с момента запуска — основой чат-бота Bard. Кроме того, Google создала модель Gemini Ultra, которая является самой мощной языковой моделью компании и в первую очередь предназначена для использования в центрах обработки данных и интеграции с корпоративными приложениями.

Компания выводит свою новую модель AI на потребительский рынок несколькими способами. Чат-бот Bard уже работает с Gemini Pro, а пользователи Pixel 8 Pro получат доступ к нескольким новым функциям благодаря интеграции с Gemini Nano. Gemini Ultra поступит в продажу в следующем году. Gemini будет доступен разработчикам и корпоративным клиентам с 13 декабря через Pro Google Generative AI Studio или Vertex AI в Google Cloud. На данный момент Gemini может обрабатывать запросы только на английском языке, но очевидно, что в будущем будет поддержка и других языков.

Во время презентации Gemini генеральный директор Google DeepMind Демис Хассабис заявил, что Google подробно сравнил свою языковую модель с GPT-4, современной нейронной сетью, лежащей в основе ChatGPT. «Мы провели очень тщательный сравнительный анализ систем. Я думаю, что мы значительно продвинулись по 30 из 32 показателей", - сказал Хассабис. Он также отметил, что в некоторых испытаниях преимущество Gemini над GPR-4 минимально, а в других оно более заметно.

Самым очевидным преимуществом Gemini в этих тестах была его способность понимать визуальный и аудиоконтент и взаимодействовать с ним. По большому счету, это именно то, что планировал Google, поскольку компания не создавала отдельные модели ИИ для обработки видео и звука, как это сделала OpenAI с DALL-E и Whisper. С самого начала Google работала над созданием единой модели, способной распознавать изображения и звуки. В настоящее время базовые версии Gemini имеют поддержку ввода и вывода текста, но более мощные версии алгоритма, такие как Gemini Ultra, могут работать с изображениями, видео и аудио материалами. Конечно, эти модели все еще имеют галлюцинации и не лишены предвзятости и других проблем, но со временем Google планирует их улучшить.

Несмотря на проводимые разработчиками тесты, основной тест Gemini проведут обычные пользователи, желающие использовать алгоритм для поиска информации, создания контента, написания программного кода и многих других целей. Что касается генерации кода, алгоритм Google использует новую систему AlphaCode 2, которая, по утверждению компании, работает лучше, чем 85% конкурентов и на 50% лучше, чем исходный алгоритм AlphaCode.

Не менее важно для Google то, что Gemini, возможно, является самой эффективной моделью. Он был обучен с использованием тензорных процессоров Google, что позволило ему работать быстрее и эффективнее, чем предыдущие алгоритмы компании, такие как PaLM. Наряду с новой языковой моделью Google представила ускорители TPU v5p, предназначенные для использования в центрах обработки данных для обучения и запуска больших языковых моделей.


 
 
 
 
  • Архив