Grok 1.5V научился понимать картинки. По некоторым тестам модель опережает даже GPT-4V.
Конкурирующий с OpenAI стартап Илона Маска в сфере искусственных технологий xAI представил новую версию нейросети Grok. После обновления она получила название Grok-1.5 Vision или Grok-1.5V. Компания-разработчик позиционирует Grok-1.5V как свою первую мультимодальную модель, соединяющую цифровой и физический миры.
«Помимо мощных текстовых возможностей, Grok теперь может обрабатывать широкий спектр визуальной информации, включая документы, диаграммы, снимки экрана и фотографии. Grok-1.5V скоро будет доступен нашим первым тестерам и существующим пользователям Grok», — говорится на сайте проекта.
Разработчики из xAI проверили возможности новинки в тесте RealWorldQA, который дает оценку пространственного мышления. Оказалось, что по этому параметру Grok-1.5V опережает всех конкурентов, в том числе GPT-4V.
«Первоначальный выпуск RealWorldQA состоит из более чем 700 изображений с вопросом и легко проверяемым ответом для каждого изображения. Набор данных включает анонимные изображения, снятые с транспортных средств, а также другие картинки из реального мира», — объяснили принцип тестирования в xAI.
Осталось дождаться, когда доступ к Grok-1.5V откроют всем пользователям, чтобы самостоятельно проверить возможности нейронки. Судя по заявлению разработчика, ждать осталось недолго. Точная дата не раскрывается.