Искусственный интеллект становится судьей: новые методы проверки фактов и программного кода

Категория: AI Технологии
Дата: 24 июля 2025 г. в 05:20
Просмотров: 110

Обложка

В мире искусственного интеллекта (ИИ) всё чаще используют большие языковые модели (LLM) для оценки ответов, сгенерированных другими LLM. Этот процесс получил название "LLM в качестве судьи". Однако, когда дело доходит до сложных задач, таких как проверка фактов в длинных текстах, экспертное программирование или математические вычисления, качество таких оценок оставляет желать лучшего.

Новое исследование, проведенное учеными из Кембриджского университета и Apple, предлагает решение: новую систему, которая расширяет возможности ИИ-судей, подключая внешние инструменты проверки. Это позволяет значительно повысить точность и надежность их "суждений".

Проблема: Как обеспечить беспристрастность и точность оценок, выдаваемых искусственным интеллектом?

Решение: Использовать внешние инструменты для проверки фактов и кода.

Как это работает?

Система, разработанная исследователями, представляет собой самообучающегося "агента оценки". Он анализирует ответы и определяет, когда необходимо подключить внешние инструменты для проверки. Процесс оценки состоит из трех основных этапов:

Первоначальная оценка: Агент анализирует задачу и ответ.
Использование инструментов: При необходимости агент задействует специализированные инструменты:
- Инструмент проверки фактов: Использует веб-поиск для проверки утверждений в тексте. Это как если бы у вас был под рукой Google, чтобы убедиться, что каждое предложение соответствует действительности.
- Инструмент выполнения кода: Использует интерпретатор кода OpenAI для запуска и анализа программного кода. Это позволяет проверить, правильно ли работает программа и нет ли в ней ошибок.
- Инструмент проверки математических операций: Специализированная версия инструмента выполнения кода, предназначенная для проверки математических расчетов.
Принятие окончательного решения: Агент выносит окончательное суждение на основе первоначальной оценки и результатов проверки с помощью инструментов.

Важно отметить, что если задача простая и не требует использования внешних инструментов, агент ограничивается базовой LLM-аннотацией. Это позволяет избежать лишней обработки и сохранить производительность системы.

Что показали результаты?

Новая система показала впечатляющие результаты в задачах, требующих проверки фактов в длинных текстах. Она значительно лучше справлялась с этой задачей, чем предыдущие системы, и демонстрировала высокую согласованность с эталонными аннотациями (то есть, с оценками, сделанными экспертами).

В задачах кодирования подход на основе агентов также показал значительное улучшение производительности. В сложных математических задачах результаты были смешанными: агент превзошел некоторые базовые показатели, но общая согласованность оставалась на относительно невысоком уровне (около 56%).

Интересно, что в ответах с большим количеством фактических данных согласованность агента с эталоном была даже выше, чем у людей-аннотаторов. Это говорит о том, что ИИ может быть более объективным и точным при проверке больших объемов информации.

Самое главное, что эта система легко расширяется. В будущем можно будет добавлять новые инструменты для дальнейшего улучшения процесса оценки LLM.

Разработчики планируют выложить код системы в открытый доступ на GitHub Apple.

Мнение редакции MSReview:

Разработка Apple и Кембриджского университета – важный шаг вперед на пути к созданию надежных и точных систем на основе искусственного интеллекта. Интеграция внешних инструментов проверки в процесс оценки LLM позволяет значительно повысить качество "суждений", особенно в таких сложных областях, как проверка фактов и кодирование. Открытый исходный код этой системы будет способствовать дальнейшим исследованиям и инновациям в области оценки LLM, что в конечном итоге приведет к созданию более надежных и заслуживающих доверия ИИ-систем.

MSReview Источник:
www.neowin.net

Похожие новости

Сундар Пичаи (Google): Риск гибели от ИИ "довольно высок", но человечество может объединиться

Битва за таланты в мире ИИ: OpenAI против Meta и баснословные бонусы

"Анти-будильник" сломался: Grok отключает генерацию текста после прославления Гитлера

Replit и Microsoft объединяются: что это значит для будущего разработки с ИИ?

Как Google спасает языки от исчезновения с помощью ИИ

Битва титанов в мире ИИ: сможет ли DeepSeek AI пошатнуть позиции OpenAI?

Наши спонсоры

Фриланс-биржа с характером

TipTop.org — это удобный сервис для заработка, где заказчики размещают оплачиваемые проекты и задания. Система позволяет начать работу с выполнения простых заказов как новичкам, так и продвинутые возможности по публикации услуги для профессиональных фрилансеров

Комментарии

Информация

Посетители, находящиеся в группе Гости, не могут оставлять комментарии к данной публикации.