Moebius: компактная модель для inpainting

23.06.2026 · 5 мин

Я тут недавно наткнулся на модель, которая меня реально зацепила. Представьте: 0.2 миллиарда параметров — это меньше двух процентов от FLUX.1-Fill-Dev — а качество, по заверениям авторов, на том же уровне. Звучит как очередной хайп, но давайте разберёмся, что там под капотом.

Что такое moebius и зачем она нужна

Moebius — это модель для заливки изображений, или, как говорят в индустрии, image inpainting. Представьте: вы удалили объект с фотографии, и нужно как-то заполнить пустое место. Именно этим она и занимается — дорисовывает недостающие части изображения.

Обычно за качественный inpainting приходится платить двумя вещами: либо огромной моделью, либо долгим временем генерации. FLUX.1-Fill-Dev, например, весит 11.9 миллиарда параметров. Это серьёзная машина, которая работает неплохо, но накладывает серьёзные ограничения — нужны мощные GPU, много памяти, время на инференс летит.

Moebius предлагает другой подход. Это специализированная модель, которая заточена именно под задачу заливки. Не универсальный комбайн, а узкий специалист. При этом авторы утверждают, что он работает на уровне 10B-класса, имея всего 0.22B параметров.

Как они это провернули

Вот тут начинается самое интересное. Архитектура построена на Latent Diffusion Model — это стандартный подход для генеративных моделей изображений. Но авторы вводят несколько новых элементов.

Первый — блок LλMI (Local-λ Mix Interaction). Если упростить: они переформулировали механизмы внимания так, чтобы работать с фиксированными матрицами вместо квадратичной сложности. Это позволяет резко сократить количество параметров без потери способности модели понимать контекст.

Второй — адаптивная стратегия дистилляции. Модель учится у более крупного учителя (PixelHacker), но обучение идёт строго в латентном пространстве. Это важно: если бы они пытались дистиллировать в пиксельное пространство, потери были бы огромные. А так — удаётся сохранить качество.

СЖАТИЕ МОДЕЛИ: ОТ УЧИТЕЛЯ К УЧЕНИКУ
─────────────────────────────────────
Учитель (PixelHacker)          Ученик (Moebius)
┌──────────────────┐          ┌──────────────────┐
│  Параметры: 10B+ │          │  Параметры: 0.2B │
│  Много памяти    │   ──▶   │  Один GPU        │
│  Медленный       │  дистил. │  26ms/step       │
└──────────────────┘          └──────────────────┘
     Качество: 10B-level  ──▶  Качество: 10B-level
Схема дистилляции: крупный учитель передаёт знания компактному ученику

Что на практике

Цифры выглядят впечатляюще:

Для продакшена это означает несколько вещей. Во-первых, можно запускать на железе, которое раньше не тянуло качественную заливку. Во-вторых, стоимость инференса падает драматически. В-третьих, скорость отклика позволяет использовать это в интерактивных сценариях.

СРАВНЕНИЕ: FLUX vs MOEBIUS
──────────────────────────
FLUX.1-Fill-Dev          Moebius
═══════════════          ══════
Параметры: 11.9B    ──▶  0.22B
Память GPU: ~24GB        ~4GB
Скорость: базовая   ──▶  15× быстрее
Качество: SOTA          SOTA (заявлено)
─────────────────────────────────────────
Вывод: те же результаты, меньше ресурсов
Сравнительная таблица показывает выигрыш в эффективности при сопоставимом качестве

Оговорки

Тут я должен быть честным. Это исследовательская работа, и заявления авторов стоит воспринимать с осторожностью. На своих бенчмарках они показывают отличные результаты, но в реальном мире всегда есть нюансы. Кроме того, 10B-level performance — это их формулировка, основанная на метриках. Реальное восприятие качества может отличаться.

Также стоит отметить: Moebius — это специализированная модель. Она заточена под inpainting и object removal. Если вам нужна генерация чего-то с нуля или другие задачи — придётся искать другие решения.

Стоит ли смотреть

Лично мне кажется, что это направление — правильное. Вместо того чтобы гнаться за размером моделей, имеет смысл делать специализированные решения, которые закрывают конкретные задачи. Moebius показывает, что при грамотной архитектуре и дистилляции можно сохранить качество при драматическом сокращении размера.

Если вы работаете с inpainting и вам важна скорость или ресурсы — однозначно стоит попробовать. Код и веса должны быть доступны на странице проекта.

Главный вопрос, который остаётся: насколько эти результаты воспроизводятся на реальных данных, а не только на бенчмарках. Но это уже другая история.

Выводы

Moebius выглядит как сильный пример того, как узкая специализация и грамотная дистилляция могут дать почти «большую» модель в очень компактном виде. Если нужны скорость и экономия ресурсов для inpainting, это точно стоит внимания.

Но к заявленному качеству всё равно стоит относиться как к исследовательскому результату, который ещё нужно проверить в реальных сценариях.

Ссылки

Дмитрий Полухин — продуктовый дизайнер. Пишу про разработку, AI и дизайн интерфейсов. Обо мне, контакты и профили.