Ltx-2 easy prompt — нода для comfyui, которая структурирует промпты автоматически
Давайте представим: вы хотите сгенерировать крутое видео через LTX-2 (модель для генерации видео от Lightricks). Открываете документацию, читаете про структуру промпта (текстовый запрос к нейросети) — там порядок такой: стиль → камера → персонаж → сцена → действие → движение → аудио. Потом пытаетесь вручную написать промпт, который учтёт все эти компоненты и при этом уложится в нужное количество кадров. И понимаете, что проще просто забить и сделать что-то попроще.
Знакомо? Мне — да. И именно поэтому эта кастомная нода для ComfyUI меня зацепила.
Что это за зверь
Автор (он же LoRa-Daddy, судя по названию) сделал ноду под названием LTX-2 Easy Prompt. Это инструмент, который превращает вашу кривую мысль на английском языке в идеально структурированный промпт для LTX-2 — причём автоматически подгоняет его под количество кадров, которое вы укажете.
РАБОТА НОДЫ LTX-2 EASY PROMPT
═════════════════════════════
"мужик бежит NeuralDaredevil 8B
от монстра" ──▶ или Llama 3.2 3B ──▶ СТРУКТУРИРОВАННЫЙ
(локальная LLM) ПРОМПТ
│
FRAMES = 120 ──────────────────────────────────────┘
+ АУДИО + ДИАЛОГ
Нода работает на локальных LLM (Large Language Model — большая языковая модель, типа ChatGPT) — NeuralDaredevil 8B (локальная LLM-модель на 8 миллиардов параметров) или Llama 3.2 3B (облегчённая LLM-модель от Meta на 3 миллиарда параметров). Между ними можно переключаться прямо из интерфейса, нода сама выгрузит одну модель и загрузит другую — перезапускать ComfyUI не нужно.
Главная фишка — полный оффлайн
Самое интересное здесь — это то, что после первого запуска нода может работать вообще без интернета. Автор написал модуль, который блокирует сетевые вызовы на уровне ещё до загрузки библиотеки Python. Звучит дико, но работает: после того как вы скачали модели один раз и указали путь к папке со снапшотом (конкретная версия модели), нода не будет обращаться к HuggingFace ни при старте ComfyUI, ни при генерации.
Это решает несколько проблем сразу:
- Работает за корпоративным файрволом
- Никаких WinError 10013 (это ошибка, которая возникает, когда система блокирует сетевые соединения)
- Никаких MaxRetryError при проблемах с сетью
Пути к моделям выглядят примерно так (для Windows):
C:\Users\ВАШ_ЮЗЕР\.cache\huggingface\hub\models--mlabonne--NeuralDaredevil-8B-abliterated\snapshots\ХЕШ_ПАПКИ\
Чтобы их найти, нужно зайти в папку .cache\huggingface\hub, открыть папку модели, потом snapshots и скопировать путь до хеш-папки внутри. Звучит как геморрой, но делается один раз.
Без цензуры — и вот почему это важно
Автор честно предупреждает: обе модели используют abliterated weights (веса модели без цензуры — фильтры сняты на уровне обучения). Это означает, что фильтры безопасности сняты на уровне весов модели, а не просто обходятся через промпт. Результат — нода генерирует контент без эвфемизмов и замыливания.
Лично я не буду тут разбирать этическую сторону — это отдельный разговор. Но технически это означает, что вы получаете честный результат без неожиданного «fading out» посреди сцены. Если вам нужна модель без цензуры — она здесь. Если нет — ну, есть много других инструментов.
Аудио и диалоги — автоматом
Фишка, которую я не ожидал увидеть: нода сама генерирует аудиоописание и диалоги для каждой сцены. То есть помимо текстового промпта вы получаете:
- Описание звуков окружения (ветер, шаги, дождь)
- Диалог персонажей, который соответствует настроению сцены
При этом автор уверяет, что система специально спроектирована так, чтобы не перегружать аудиодвижок LTX-2. Если диалог не нужен — просто напишите «no dialogue» в input, и нода сгенерирует тишину.
Диалог подбирается под энергетику: может быть шёпотом, приказом или признанием — зависит от контекста вашей сцены.
Умный подсчёт кадров
Раньше была постоянная головная боль: написал промпт на 60 кадров, а LTX-2 ожидает 120 — приходилось переписывать или сокращать. Здесь эта проблема решена.
Вы задаёте количество кадров один раз и нода автоматически адаптирует плотность промпта. Сцена на 30 кадров получит компактное описание, а на 240 — развёрнутое и детальное. При этом FRAMES-пин передаёт реальное число кадров прямиком в ноду Set_frames в LTX-пайплайне — ничего не нужно синхронизировать вручную.
ПАЙПЛАЙН ПОДКЛЮЧЕНИЯ
════════════════════
LTX Easy PROMPT ──▶ Text Input
Prompt ──▶ FRAMES ──▶ Set Frames
│
└─▶ Preview Text
(опционально)
Чистота на выходе
Автор столкнулся с проблемой, которая часто возникает при работе с LLM: модель иногда начинает писать что-то вроде assistant или user прямо в промпте — это называется role delimiters — служебные слова типа assistant или user, которые ломают пайплайн.
Здесь решению две степени защиты:
- Hard tokenID stopping — блокировка генерации определённых токенов по их внутреннему ID — модель физически не может сгенерировать эти токены
- Regex cleaner как резервная сетка — на всякий случай прогоняет вывод через регулярные выражения
Ссылки
- LTX-2 Easy Prompt на GitHub — репозиторий с нодой
- Официальный сайт LTX-2 — информация о модели генерации видео