Новая эра искусственного интеллекта: Google представляет Gemma 3n для ваших устройств

Обложка

Google выпустила Gemma 3n – новое поколение открытых AI-моделей, и это серьезный шаг вперед по сравнению с предыдущими разработками. После анонса в прошлом месяце на Google I/O, полная версия модели теперь доступна и готова работать прямо на вашем устройстве.

Что такое Gemma? Это семейство открытых AI-моделей, которые отличаются от Gemini тем, что Gemma можно скачивать и модифицировать, в то время как Gemini – это закрытая разработка Google.

Gemma 3n logo

Gemma 3n умеет обрабатывать изображения, аудио и видео для генерации текста, что делает ее намного функциональнее, чем просто текстовая модель. Она может работать на устройствах с объемом памяти всего 2 ГБ и, как утверждается, лучше справляется с задачами кодирования и логического мышления.

Главные особенности Gemma 3n

  • Многомодальность: Gemma 3n изначально поддерживает ввод данных разных типов – изображения, аудио, видео и текст – и выдает текст.
  • Оптимизация для устройств: Модели Gemma 3n разработаны с акцентом на эффективность и доступны в двух вариантах: E2B и E4B. Несмотря на то, что они содержат 5 и 8 миллиардов параметров соответственно, благодаря архитектурным инновациям они требуют всего 2 ГБ (E2B) и 3 ГБ (E4B) оперативной памяти.
  • Новаторская архитектура: В основе Gemma 3n лежат новые компоненты, такие как архитектура MatFormer для вычислительной гибкости, Per Layer Embeddings (PLE) для экономии памяти, а также новые кодировщики аудио и видео на базе MobileNet-v5, оптимизированные для использования на устройствах.
  • Улучшенное качество: Gemma 3n обеспечивает улучшенное качество в отношении многоязычия (поддержка 140 языков для текста и многомодальное понимание 35 языков), математики, кодирования и рассуждений.

Архитектура MatFormer

Ключ к эффективности Gemma 3n – это новая архитектура MatFormer. Google сравнивает её с русской матрешкой: большая модель содержит внутри себя меньшую, но полностью функциональную версию.

Это позволяет одной модели работать в разных масштабах для разных задач. В тестах большая модель E4B стала первой моделью с менее чем 10 миллиардами параметров, преодолевшей оценку LMArena в 1300.

Возможности работы с аудио и видео

Модель теперь поддерживает преобразование речи в текст и перевод непосредственно на устройстве, используя кодировщик, который детально обрабатывает речь. За обработку визуальной информации отвечает новый кодировщик MobileNet-V5, который намного быстрее и эффективнее своего предшественника. Он может обрабатывать видео со скоростью до 60 кадров в секунду на Google Pixel.

Доступность

Вы можете начать экспериментировать с Gemma 3n уже сейчас. Модели доступны через платформы Hugging Face и Kaggle, а также в Google AI Studio.

Подробности можно найти в официальном анонсе.

Мнение редакции MSReview: Выпуск Gemma 3n – важный шаг в развитии искусственного интеллекта, делающий сложные модели доступными для широкого круга устройств. Оптимизация для мобильных платформ открывает новые возможности для инноваций и интеграции AI в повседневную жизнь. Это не только технический прорыв, но и шаг к демократизации доступа к передовым технологиям.

MSReview Источник:
www.neowin.net
  • 0




  • Комментарии
Информация
Посетители, находящиеся в группе Гости, не могут оставлять комментарии к данной публикации.