Искусственный интеллект становится судьей: новые методы проверки фактов и программного кода

Обложка

В мире искусственного интеллекта (ИИ) всё чаще используют большие языковые модели (LLM) для оценки ответов, сгенерированных другими LLM. Этот процесс получил название "LLM в качестве судьи". Однако, когда дело доходит до сложных задач, таких как проверка фактов в длинных текстах, экспертное программирование или математические вычисления, качество таких оценок оставляет желать лучшего.

Новое исследование, проведенное учеными из Кембриджского университета и Apple, предлагает решение: новую систему, которая расширяет возможности ИИ-судей, подключая внешние инструменты проверки. Это позволяет значительно повысить точность и надежность их "суждений".

Проблема: Как обеспечить беспристрастность и точность оценок, выдаваемых искусственным интеллектом?

Решение: Использовать внешние инструменты для проверки фактов и кода.

Как это работает?

Система, разработанная исследователями, представляет собой самообучающегося "агента оценки". Он анализирует ответы и определяет, когда необходимо подключить внешние инструменты для проверки. Процесс оценки состоит из трех основных этапов:

  1. Первоначальная оценка: Агент анализирует задачу и ответ.
  2. Использование инструментов: При необходимости агент задействует специализированные инструменты:
    • Инструмент проверки фактов: Использует веб-поиск для проверки утверждений в тексте. Это как если бы у вас был под рукой Google, чтобы убедиться, что каждое предложение соответствует действительности.
    • Инструмент выполнения кода: Использует интерпретатор кода OpenAI для запуска и анализа программного кода. Это позволяет проверить, правильно ли работает программа и нет ли в ней ошибок.
    • Инструмент проверки математических операций: Специализированная версия инструмента выполнения кода, предназначенная для проверки математических расчетов.
  3. Принятие окончательного решения: Агент выносит окончательное суждение на основе первоначальной оценки и результатов проверки с помощью инструментов.

Важно отметить, что если задача простая и не требует использования внешних инструментов, агент ограничивается базовой LLM-аннотацией. Это позволяет избежать лишней обработки и сохранить производительность системы.

Что показали результаты?

Новая система показала впечатляющие результаты в задачах, требующих проверки фактов в длинных текстах. Она значительно лучше справлялась с этой задачей, чем предыдущие системы, и демонстрировала высокую согласованность с эталонными аннотациями (то есть, с оценками, сделанными экспертами).

В задачах кодирования подход на основе агентов также показал значительное улучшение производительности. В сложных математических задачах результаты были смешанными: агент превзошел некоторые базовые показатели, но общая согласованность оставалась на относительно невысоком уровне (около 56%).

Интересно, что в ответах с большим количеством фактических данных согласованность агента с эталоном была даже выше, чем у людей-аннотаторов. Это говорит о том, что ИИ может быть более объективным и точным при проверке больших объемов информации.

Самое главное, что эта система легко расширяется. В будущем можно будет добавлять новые инструменты для дальнейшего улучшения процесса оценки LLM.

Разработчики планируют выложить код системы в открытый доступ на GitHub Apple.

Мнение редакции MSReview:

Разработка Apple и Кембриджского университета – важный шаг вперед на пути к созданию надежных и точных систем на основе искусственного интеллекта. Интеграция внешних инструментов проверки в процесс оценки LLM позволяет значительно повысить качество "суждений", особенно в таких сложных областях, как проверка фактов и кодирование. Открытый исходный код этой системы будет способствовать дальнейшим исследованиям и инновациям в области оценки LLM, что в конечном итоге приведет к созданию более надежных и заслуживающих доверия ИИ-систем.

MSReview Источник:
www.neowin.net
  • 0




  • Комментарии
Информация
Посетители, находящиеся в группе Гости, не могут оставлять комментарии к данной публикации.