Как сообщают эксперты, у компаний, осуществляющих разработку искусственного интеллекта, заканчиваются обучающие текстовые данные для последующего развития языковых моделей.
Качественный скачок последних версий искусственного интеллекта от таких компаний, как OpenAI, Google, Meta* и других, связан с тем, что языковые модели обучали огромными массивами текстовых данных. Однако базы знаний, созданные за многие десятки лет человеком, заканчиваются. Миллиарды слов, миллиарды web-страниц практически исчерпаны, что делает последующее развитие ИИ практически невозможным мероприятием.
Исследователь ИИ Тамай Бесироглу в интервью Associated Press отметил:
Все дело в том, что использовать абсолютно всю информацию, в том числе из веб-архивов, у компаний, разрабатывающих ИИ, нет возможности. Ведь авторы могут подать на них в суд, как это было с издателями газеты New York Times — они судились с OpenAI из-за нарушений авторских прав. По этой причине исследователи из аналитического центра Epoch AI считают, что уже в 2026 году ChatGPT и Llama 3 попросту нечем будет «кормить».
Однако некоторое решение у проблемы есть. Специалисты считают, что дальнейшее обучение языковых моделей возможно уже за счет сгенерированного ими же материала. При этом OpenAI и Google уже практикуют данную стратегию. Минусом такого подхода является то, что качество обучения за счет контента, созданного ИИ, снизится. По итогу может закрутиться «воронка самообмана» и языковые модели будут выдавать ответы на основе ранее ложных данных, созданных ИИ.