Microsoft Copilot: не стоит судить об ИИ по одним лишь тестам

Категория: AI Технологии
Дата: 14 июля 2025 г. в 22:35
Просмотров: 26

Обложка

Не все искусственные интеллекты одинаково хороши, как и люди.

В то время как крупные технологические компании, от Apple до Meta, лихорадочно ищут способы заработать на буме искусственного интеллекта, Microsoft относительно спокойно занимается своим делом.

Пока Meta, по слухам, тратит десятки миллионов на бонусы, чтобы переманить исследователей из OpenAI, а Apple беспокоит акционеров отсутствием четкой стратегии в области ИИ, Microsoft, похоже, вполне довольна тем, что обеспечивает "железо" для многих ИИ-сервисов.

Недавние масштабные увольнения в Microsoft, затронувшие более 15 000 сотрудников, по сообщениям, были сделаны для финансирования масштабных инвестиций в новые центры обработки данных, ориентированные на ИИ для Azure. Microsoft делает ставку на то, чтобы обеспечивать работу ИИ для других компаний.

Конечно, у Microsoft есть и собственные разработки в области ИИ. Microsoft Copilot, например, — это ответ компании на ChatGPT и другие подобные приложения-ассистенты. Microsoft также встроила функции ИИ в приложение "Фотографии", Microsoft Paint и даже "Блокнот". Но пока что, кажется, мало кто обращает на это внимание. Возможно, причина кроется в его не самых впечатляющих результатах.

Недавно я наткнулся на сайт под названием TrackingAI, который сравнивает различные ИИ-модели в задачах, оценивающих их "интеллект" (IQ). Сайт прогоняет большие языковые модели (LLM) через известные тесты Mensa Norway, а также через полностью автономные тесты, разработанные для того, чтобы ИИ не мог искать ответы в интернете. И как же справился Microsoft Copilot? Скажем так, не блестяще (по крайней мере, на бумаге).

Copilot IQ tests

Кажется, Copilot отстает от других моделей, но так ли это плохо? (Изображение: TrackingAI)

В автономных тестах Microsoft Copilot оказался в самом низу списка, набрав всего 67 баллов. Для сравнения, OpenAI o3 Pro лидирует с 117 баллами. В тесте Mensa Norway Copilot показал себя немного лучше, набрав 84 балла. Здесь победил Grok-4 от Илона Маска, набрав 136 баллов, а OpenAI o3 Pro был совсем рядом с 135 баллами.

Так ли важны эти баллы?

Важно понимать, что Microsoft Copilot основан на GPT-4o, который делает упор на универсальность, скорость и экономичность, а не на способность к рассуждению. Модели o3 от OpenAI, как правило, недоступны широкой публике, потому что их использование обходится в разы дороже, чем GPT-4o. Большинство моделей, которые превзошли Microsoft Copilot, являются "профессиональными" и более дорогими в использовании. Copilot же бесплатен, и его производительность соответствует его цене.

Microsoft ищет баланс между мощностью и стоимостью

Одно из главных направлений исследований Microsoft — это поиск способов сделать более мощные модели более экономичными. Компания сообщила о резком увеличении выбросов углекислого газа, связанном почти исключительно с использованием энергии для работы ИИ. Собственные модели Phi от Microsoft, которые также не очень широко распространены, ориентированы на производительность и относятся к так называемым малым языковым моделям (Small Language Models). Они предназначены для работы на устройствах с минимальными затратами. К сожалению, модели Phi пока не представлены на TrackingAI, насколько я могу судить.

Реальность такова, что каждая языковая модель, по крайней мере на сегодняшний день, предназначена для решения определенных задач. GPT-4o и Copilot созданы для того, чтобы быть более удобными и, смею сказать, "интересными" в использовании, даже если это идет в ущерб их "интеллекту" в строгом смысле этого слова. У Copilot есть специальные режимы исследования, которые повышают его точность, если вы готовы их использовать.

Сейчас вокруг ИИ много шума, и такие игроки, как Google Gemini, Grok от X и ChatGPT от OpenAI, часто соревнуются друг с другом по различным параметрам. Возможно, немного обидно, что сама Microsoft, несмотря на все свои инвестиции, редко появляется в этих разговорах — разве что в негативном ключе, в связи с провалом Copilot+ PC и критикой функции конфиденциальности Windows Recall.

Возможно, Microsoft просто довольна тем, что остается в тени, обеспечивая будущее с помощью Azure, вместо того, чтобы быть в центре внимания.

Мнение редакции MSReview: Copilot — это развивающийся инструмент, и его результаты в IQ-тестах не отражают всей картины его полезности. Важно помнить о целях, для которых он был разработан, и о его ценовой доступности. Microsoft, вероятно, продолжит совершенствовать Copilot, и, возможно, в будущем мы увидим его более высокие результаты в подобных тестах.

MSReview Источник:
www.windowscentral.com