Новая эра искусственного интеллекта: Google представляет Gemma 3n для ваших устройств
- Категория: AI Технологии
- Дата: 26 июня 2025 г. в 22:55
- Просмотров: 29
Google выпустила Gemma 3n – новое поколение открытых AI-моделей, и это серьезный шаг вперед по сравнению с предыдущими разработками. После анонса в прошлом месяце на Google I/O, полная версия модели теперь доступна и готова работать прямо на вашем устройстве.
Что такое Gemma? Это семейство открытых AI-моделей, которые отличаются от Gemini тем, что Gemma можно скачивать и модифицировать, в то время как Gemini – это закрытая разработка Google.
Gemma 3n умеет обрабатывать изображения, аудио и видео для генерации текста, что делает ее намного функциональнее, чем просто текстовая модель. Она может работать на устройствах с объемом памяти всего 2 ГБ и, как утверждается, лучше справляется с задачами кодирования и логического мышления.
Главные особенности Gemma 3n
- Многомодальность: Gemma 3n изначально поддерживает ввод данных разных типов – изображения, аудио, видео и текст – и выдает текст.
- Оптимизация для устройств: Модели Gemma 3n разработаны с акцентом на эффективность и доступны в двух вариантах: E2B и E4B. Несмотря на то, что они содержат 5 и 8 миллиардов параметров соответственно, благодаря архитектурным инновациям они требуют всего 2 ГБ (E2B) и 3 ГБ (E4B) оперативной памяти.
- Новаторская архитектура: В основе Gemma 3n лежат новые компоненты, такие как архитектура MatFormer для вычислительной гибкости, Per Layer Embeddings (PLE) для экономии памяти, а также новые кодировщики аудио и видео на базе MobileNet-v5, оптимизированные для использования на устройствах.
- Улучшенное качество: Gemma 3n обеспечивает улучшенное качество в отношении многоязычия (поддержка 140 языков для текста и многомодальное понимание 35 языков), математики, кодирования и рассуждений.
Архитектура MatFormer
Ключ к эффективности Gemma 3n – это новая архитектура MatFormer. Google сравнивает её с русской матрешкой: большая модель содержит внутри себя меньшую, но полностью функциональную версию.
Это позволяет одной модели работать в разных масштабах для разных задач. В тестах большая модель E4B стала первой моделью с менее чем 10 миллиардами параметров, преодолевшей оценку LMArena в 1300.
Возможности работы с аудио и видео
Модель теперь поддерживает преобразование речи в текст и перевод непосредственно на устройстве, используя кодировщик, который детально обрабатывает речь. За обработку визуальной информации отвечает новый кодировщик MobileNet-V5, который намного быстрее и эффективнее своего предшественника. Он может обрабатывать видео со скоростью до 60 кадров в секунду на Google Pixel.
Доступность
Вы можете начать экспериментировать с Gemma 3n уже сейчас. Модели доступны через платформы Hugging Face и Kaggle, а также в Google AI Studio.
Подробности можно найти в официальном анонсе.
Мнение редакции MSReview: Выпуск Gemma 3n – важный шаг в развитии искусственного интеллекта, делающий сложные модели доступными для широкого круга устройств. Оптимизация для мобильных платформ открывает новые возможности для инноваций и интеграции AI в повседневную жизнь. Это не только технический прорыв, но и шаг к демократизации доступа к передовым технологиям.
- Комментарии