Качественных данных со всей сети недостаточно для обучения GPT-5 ИИ: Kак решат проблему?

2 апреля, 2024  18:23

Разработчики передовых моделей искусственного интеллекта (ИИ) столкнулись с неожиданной проблемой: не хватает качественного материала для обучения моделей ИИ. Ситуация усугубляется тем, что некоторые ресурсы блокируют доступ ИИ к своим данным. По мнению исследователей, попытки обучения ИИ с использованием материалов других моделей и другого «синтетического контента» могут привести к «большим проблемам».

Ученые и разработчики ИИ обеспокоены тем, что в ближайшие два года может не хватить высококачественных текстов для продолжения обучения большим языковым моделям, что замедляет прогресс в этой области. OpenAI, компания, создавшая чат-бота ChatGPT, уже рассматривает возможность обучения GPT-5 транскрипции общедоступных видео на YouTube.

Интернет-данные

Языковые модели ИИ собирают текст из Интернета — научные исследования, новости, статьи в Википедии — и разбивают его на отдельные слова или части слов, используя их, чтобы научиться реагировать как человек. Чем больше данных будет введено, тем лучше результат. именно на этом построен OpenAI, что помогло компании стать одним из лидеров отрасли.

По словам Пабло Вильялобоса, исследователя искусственного интеллекта из исследовательского института Epoch, GPT-4 был обучен на 12 триллионах токенов данных, в то время как ИИ, подобный GPT-5, требует 60–100 триллионов токенов. Если бы были собраны все качественные текстовые и графические данные, доступные в сети, для обучения GPT-5 потребовалось бы еще от 10 до 20 триллионов токенов, а возможно и больше, и пока неясно, где их взять. Два года назад Вильялобос и другие исследователи уже предупреждали, что к середине 2024 года существует 50%-ная вероятность того, что у ИИ больше не будет достаточно данных для обучения, а к 2026 году эта вероятность достигнет 90%.

По мнению ученых, большая часть данных в сети не подходит для обучения ИИ, поскольку содержит нерелевантный текст или не добавляет новой информации к существующим данным. Для этой цели подходит лишь небольшая часть материала, около одной десятой, собранная некоммерческой организацией Common Crawl, веб-архив которой широко используется разработчиками AB.

В то же время крупные платформы, такие как социальные сети и СМИ, блокируют доступ к своим данным, а общественность не желает предоставлять доступ к своей частной переписке для обучения языковых моделей. Марк Цукерберг видит огромное преимущество в разработке AB в том, что AB имеет доступ к данным, доступным на мета-платформах, включая текст, изображения и видео, хотя сложно сказать, насколько этот материал можно считать качественным.

Методы обучения и рынок данных

Стартап DatologyAI пытается бороться с нехваткой контента, используя технику «учебной программы», при которой ИИ «подает» данные в определенном порядке, что помогает установить связи между ними. В статье 2022 года Ари Моркоса, бывшего сотрудника Meta Platform и Google DeepMind, а ныне основателя DatologyAI, говорится, что этот подход может достичь сопоставимых результатов в обучении ИИ, сокращая при этом входные данные вдвое. Однако другие исследования не подтвердили эти данные.

Сэм Альтман также заявил, что OpenAI разрабатывает новые методы обучения ИИ. По имеющимся данным, компания обсуждает возможность создания рынка данных, на котором будет определяться стоимость конкретных материалов для каждой модели и выплачиваться за них справедливая цена. Эту же идею обсуждают в Google, но конкретного прогресса в этом направлении пока нет, поэтому компании-разработчики AB стараются получить все, что можно, включая аудиовизуальные материалы. По словам источников OpenAI, они собираются декодировать их с помощью инструмента распознавания речи Whisper.

Синтетические данные высокого качества

Исследователи из OpenAI и Anthropic экспериментируют с так называемыми «высококачественными синтетическими данными». В недавнем интервью Джаред Каплан, главный научный сотрудник Anthropic, сказал, что «данные такого рода, генерируемые внутри компании», могут быть полезны и использованы в последних версиях Claude. Представитель OpenAI также подтвердил, что такие разработки ведутся.

Многие исследователи, изучающие проблему пробелов в данных, не верят, что смогут ее решить, но Вильялобос настроен оптимистично и считает, что впереди еще много открытий. «Самая большая неопределенность заключается в том, что мы не знаем, какие революционные открытия еще впереди», — сказал он.

По словам Ари Моркоса, «недостаток данных — одна из важнейших проблем отрасли». Однако не только отсутствие данных сдерживает его развитие. существует также нехватка чипов, необходимых для запуска больших языковых моделей, а лидеры отрасли также обеспокоены нехваткой центров обработки данных и электропитания.


 
 
 
 
  • Архив