Gpt-5.5 галлюцинирует чаще, чем открытая модель вдвое меньше

22.06.2026 · 5 мин

Размер имеет значение? В мире больших языковых моделей давно считалось аксиомой: чем больше модель, тем лучше результат. Но сравнение GPT-5.5 и открытой GLM-5.2 показывает, что большая модель может чаще галлюцинировать, чем заметно меньшая.

Что сравнивали

В статье на ArrowTSX модели проверяли на бенчмарке AA-Omniscience — наборе вопросов, где идеальный результат означает либо точный ответ, либо честное признание, что модель не знает. Чем ниже галлюцинации, тем лучше.

Модель Параметры Галлюцинации
DeepSeek V4 Pro ~49 млрд активных 94%
GPT-5.5 ~1-2 триллиона 86%
Claude Fable 5 ~1-2 триллиона 48%
Opus 4.8 ~1-2 триллиона 36%
GLM-5.2 ~40 миллиардов 28%

Самый заметный вывод: крупные проприетарные модели, включая GPT-5.5 и Claude Fable 5, показали худшую калибровку, чем открытая GLM-5.2 с лицензией MIT.

Практический тест

На практике автор дал моделям задачу написать кастомный asyncio event loop policy с логической ошибкой в условиях. Это проверка не только знаний, но и умения остановиться там, где задача технически невыполнима.

DeepSeek V4 Pro потратил почти 4 минуты и около 7700 токенов, но выдал уверенно неправильный код. GLM-5.2 справилась за 12 секунд и сразу указала на невозможность решения.

РЕЗУЛЬТАТЫ ТЕСТА НА КОД
─────────────────────────
Модель            │ Время    │ Токены   │ Результат
──────────────────┼──────────┼──────────┼────────────────────
DeepSeek V4 Pro   │ ~4 мин   │ ~7 700   │ ❌ Неверно
GLM-5.2           │ ~12 сек  │ ~800     │ ✓ Корректно отказал

Ключевой вывод:
Большая модель дольше убеждала себя в невозможном,
маленькая — быстрее признала ограничения.
Сравнение времени и качества ответа на задачу с подвохом

Трилемма современных LLM

Автор формулирует это как трилемму: одновременно оптимизировать можно только два из трёх параметров — сырую мощность, калибровку неопределённости и вычислительную эффективность.

ТРИЛЕММА LLM
────────────

         ┌─────────────────────────────────────┐
         │                                     │
         │          СЫРАЯ МОЩНОСТЬ             │
         │      (бенчмарки, параметры)        │
         │               ▲                    │
         │              ╱ ╲                   │
         │             ╱   ╲                  │
         │            ╱     ╲                 │
         │           ╱       ╲                │
         │          ╱         ╲               │
         │         ▼           ▼              │
         │   КАЛИБРОВКА    ЭФФЕКТИВНОСТЬ      │
         │   НЕОПРЕДЕЛЁННОСТИ ВЫЧИСЛЕНИЙ      │
         │   (меньше галлюцинаций) (меньше GPU│
         │   (графический процессор —         │
         │    микросхема для быстрых          │
         │    вычислений, используется        │
         │    для работы нейросетей))         │
         │                                     │
         └─────────────────────────────────────┘

Выберите любые два.
Третий пострадает.
Нельзя получить максимум по всем трём параметрам одновременно

Почему это важно

Главный вывод для разработчиков и продакт-менеджеров простой: модель нельзя выбирать только по размеру или узнаваемости бренда. Дорогая и крупная LLM может чаще уверенно ошибаться, чем меньшая, но лучше калиброванная модель.

Практический совет: проверяйте модель на задачах своего домена до покупки или интеграции. Иначе вы рискуете получить красивый, но неверный ответ там, где нужна осторожность.

Ограничения

Результаты основаны на одном бенчмарке и одном практическом тесте, поэтому их нельзя механически переносить на все сценарии. Бенчмарки измеряют знание фактов, но не обязательно творческое мышление или сложное рассуждение.

Выводы

Ссылки

Дмитрий Полухин — продуктовый дизайнер. Пишу про разработку, AI и дизайн интерфейсов. Обо мне, контакты и профили.