Gpt-5.5 галлюцинирует чаще, чем открытая модель вдвое меньше

22.06.2026 · 5 мин

Размер имеет значение? В мире больших языковых моделей давно считалось аксиомой: чем больше модель, тем лучше результат. Но сравнение GPT-5.5 и открытой GLM-5.2 показывает, что большая модель может чаще галлюцинировать, чем заметно меньшая.

Что сравнивали

В статье на ArrowTSX модели проверяли на бенчмарке AA-Omniscience — наборе вопросов, где идеальный результат означает либо точный ответ, либо честное признание, что модель не знает. Чем ниже галлюцинации, тем лучше.

Модель	Параметры	Галлюцинации
DeepSeek V4 Pro	~49 млрд активных	94%
GPT-5.5	~1-2 триллиона	86%
Claude Fable 5	~1-2 триллиона	48%
Opus 4.8	~1-2 триллиона	36%
GLM-5.2	~40 миллиардов	28%

Самый заметный вывод: крупные проприетарные модели, включая GPT-5.5 и Claude Fable 5, показали худшую калибровку, чем открытая GLM-5.2 с лицензией MIT.

Практический тест

На практике автор дал моделям задачу написать кастомный asyncio event loop policy с логической ошибкой в условиях. Это проверка не только знаний, но и умения остановиться там, где задача технически невыполнима.

DeepSeek V4 Pro потратил почти 4 минуты и около 7700 токенов, но выдал уверенно неправильный код. GLM-5.2 справилась за 12 секунд и сразу указала на невозможность решения.

РЕЗУЛЬТАТЫ ТЕСТА НА КОД
─────────────────────────
Модель            │ Время    │ Токены   │ Результат
──────────────────┼──────────┼──────────┼────────────────────
DeepSeek V4 Pro   │ ~4 мин   │ ~7 700   │ ❌ Неверно
GLM-5.2           │ ~12 сек  │ ~800     │ ✓ Корректно отказал

Ключевой вывод:
Большая модель дольше убеждала себя в невозможном,
маленькая — быстрее признала ограничения.

Сравнение времени и качества ответа на задачу с подвохом

Трилемма современных LLM

Автор формулирует это как трилемму: одновременно оптимизировать можно только два из трёх параметров — сырую мощность, калибровку неопределённости и вычислительную эффективность.

ТРИЛЕММА LLM
────────────

         ┌─────────────────────────────────────┐
         │                                     │
         │          СЫРАЯ МОЩНОСТЬ             │
         │      (бенчмарки, параметры)        │
         │               ▲                    │
         │              ╱ ╲                   │
         │             ╱   ╲                  │
         │            ╱     ╲                 │
         │           ╱       ╲                │
         │          ╱         ╲               │
         │         ▼           ▼              │
         │   КАЛИБРОВКА    ЭФФЕКТИВНОСТЬ      │
         │   НЕОПРЕДЕЛЁННОСТИ ВЫЧИСЛЕНИЙ      │
         │   (меньше галлюцинаций) (меньше GPU│
         │   (графический процессор —         │
         │    микросхема для быстрых          │
         │    вычислений, используется        │
         │    для работы нейросетей))         │
         │                                     │
         └─────────────────────────────────────┘

Выберите любые два.
Третий пострадает.

Нельзя получить максимум по всем трём параметрам одновременно

Почему это важно

Главный вывод для разработчиков и продакт-менеджеров простой: модель нельзя выбирать только по размеру или узнаваемости бренда. Дорогая и крупная LLM может чаще уверенно ошибаться, чем меньшая, но лучше калиброванная модель.

Практический совет: проверяйте модель на задачах своего домена до покупки или интеграции. Иначе вы рискуете получить красивый, но неверный ответ там, где нужна осторожность.

Ограничения

Результаты основаны на одном бенчмарке и одном практическом тесте, поэтому их нельзя механически переносить на все сценарии. Бенчмарки измеряют знание фактов, но не обязательно творческое мышление или сложное рассуждение.

Выводы

Размер модели сам по себе не гарантирует качество.
Открытая меньшая модель может быть честнее и полезнее крупной закрытой.
Для прикладных задач важнее калибровка, чем уверенный тон ответа.

Ссылки

ArrowTSX — Bigger models are not the way — статья с сравнением моделей и бенчмарком
GLM-4 на GitHub (THUDM) — репозиторий проекта GLM

Дмитрий Полухин — продуктовый дизайнер. Пишу про разработку, AI и дизайн интерфейсов. Обо мне, контакты и профили.

Что сравнивали

Практический тест

Трилемма современных LLM

Почему это важно

Ограничения

Выводы

Ссылки

Что почитать дальше