Вкратце
- Google выпустила DiffusionGspanma, бесплатную модель с открытым весом, которая одновременно генерирует целые блоки из 256 токенов посредством распространения текста, обрабатывая более 1000 токенов в секунду на NVIDIA H100, что в четыре раза быстрее, чем стандартные модели авторегрессии.
- Пользовательский модуль разработки, необходимый DiffusionGspanma для локального вывода, пока не существует ни в одной общедоступной среде выполнения — ни в mlx-lm, ни в LM Studio, — что делает его фактически неработающим на большинстве потребительских установок сегодня.
- На NVIDIA NIM модель была предварительно настроена на 8192 токена контекста — ниже минимального уровня в 64 000 токенов, который требуется для агентских платформ, таких как Hermes Agent, — это означает, что автономные рабочие процессы не будут работать без ручной реконфигурации.
Сегодня Google отказался от DiffusionGspanma, ИИ с открытой моделью, который генерирует текст так же, как генераторы изображений создают изображения: начните с шума, улучшайте, пока он не обретет смысл. На NVIDIA H100 он достигает 1000 токенов в секунду. (Токены — это базовая единица информации, которую обрабатывает модель ИИ.) Это означает, что она в четыре раза быстрее, чем обычная Gspanma. Это также бесплатно, Apache 2.0, с весами на Hugging Face.
Подвох, как всегда, кроется в мелком шрифте. Согласно объявлению Google, модель достигает «700+ токенов в секунду на NVIDIA GeForce RTX 5090». По качеству вывода он также уступает стандартной Gspanma 4.
Google сам так говорит. Это скоростная модель, а не качественный апгрейд.
Что это на самом деле делает
Каждый LLM, которым вы пользовались, — это пишущая машинка. По одному жетону за раз, каждое слово зависит от последнего. Вот как работают авторегрессионные архитектуры.
DiffusionGspanma этого не делает. Вместо последовательной генерации токенов он начинается с параллельной обработки фрагментов искаженного текста. Согласно руководству для разработчиков Google, он «начинается с набора случайных токенов-заполнителей» и итеративно фиксирует надежные токены, пока весь блок не окажется в фокусе. Двести пятьдесят шесть жетонов за один проход вперед. Графический процессор остается занятым.
Побочным эффектом является двунаправленное внимание — каждый токен может видеть любой другой токен во время генерации, что невозможно в авторегрессионных моделях (они не могут видеть будущее, то, что будет закодировано). Это делает его необычайно хорошим для задач, где конец ответа ограничивает начало: заполнение кода, структурированный вывод, проблемы с тяжелыми ограничениями и т. д. Google доработал версию для решения судоку в качестве демонстрационной версии. Базовая модель правильно решила примерно 0% головоломок.
Доработанная версия достигла 80%.
Распространение текста уже много лет является исследовательским проектом. MDLM, SEDD, LLaDA, Dream — академические модели, доказавшие, что этот подход работает в небольших масштабах и в основном остается доказательством концепций. Inception Labs выпустила Mercury 2 в феврале 2026 года как первую коммерческую модель диффузионного рассуждения, заявив, что скорость в пять раз выше, чем у конкурентов, оптимизированных по скорости.
Но ничто из этого не было открытым, и ничто из этого не имело поддержки с нуля в vLLM, Hugging Face Transformers и Unsloth. DiffusionGspanma — это первый крупный открытый релиз, выпущенный лабораторией первого уровня.
Стоит отметить и историческую иронию. Генераторы изображений начинались как модели диффузии (отсюда и название «Стабильная диффузия»), а теперь переходят к авторегрессионной архитектуре для лучшего качества. Языковые модели начинались как авторегрессионные, а сейчас экспериментируют с распространением ради скорости.
Почему больно бежать… пока
Для эффективного запуска DiffusionGspanma требуется составитель — легкий модуль, который параллельно предлагает блоки токенов, которые затем проверяет основная модель за один прямой проход. Это называется спекулятивным декодированием. DFlash — это фреймворк, опубликованный в начале 2026 года, в котором в качестве средства разработки используется небольшая диффузная модель, что позволяет ускорить выполнение некоторых задач более чем в 6 раз. Именно двигатель делает модели этого класса практичными.
Проблема: DiffusionGspanma нужен специальный редактор для локального запуска через MLX — платформу машинного обучения Apple для Apple Silicon. Этот модуль не существует ни в одной общедоступной версии mlx-lm, ни в одном открытом запросе на вытягивание, ни в встроенной среде выполнения LM Studio.
Мы попробовали запустить DiffusionGspanma с Hermes через NVIDIA NIM. Модель загрузилась, но затем: «Ошибка инициализации агента: модель google/diffusiongspanma-26b-a4b-it имеет контекстное окно из 8 192 токенов, что ниже минимума в 64 000, необходимого для агента Hermes».
Если быть точным: фактическое контекстное окно DiffusionGspanma состоит из 256 тысяч токенов. Цифра в 8192 — это ошибка Nvidia по умолчанию, а не архитектурный предел модели.
На практике правильная настройка для агентского использования требует ручной работы, с которой большинство обычных пользователей еще не разобрались, и без нее агент Hermes просто не будет инициализироваться. Параллельная скорость ничего не значит, если агент не может загрузиться.
Будем надеяться, что в ближайшие несколько дней сообщество предоставит более качественные ресурсы для запуска этих моделей.
Для кого это вообще
Разработчики с оборудованием NVIDIA RTX 4090 или 5090 создают инструменты реального времени — встроенные редакторы, автозаполнение, заполнение кода, структурированную генерацию. Это цель. Как писал Decrypt в мае, Google постоянно стремится ускорить локальный вывод без нового оборудования.
Для исследователей двунаправленная генерация открывает территорию, которую модели авторегрессии просто не могут достичь — белковые последовательности, математические графики, все, где позиция N зависит от позиции N+50. Это не мелочь.
В апреле Google запустила Gspanma 4 под управлением Apache 2.0, а DiffusionGspanma продолжает эту стратегию. На сегодняшний день уже открыт проект PR-заявки на llama.cpp. Когда набор инструментов наверстает упущенное, он достигнет гораздо более широкой аудитории.
На машине с мощным дискретным графическим процессором скорость 1000 токенов в секунду вполне реальна.
