Gpt-5.5 галлюцинирует чаще, чем открытая модель вдвое меньше
Размер имеет значение? В мире больших языковых моделей давно считалось аксиомой: чем больше модель, тем лучше результат. Но сравнение GPT-5.5 и открытой GLM-5.2 показывает, что большая модель может чаще галлюцинировать, чем заметно меньшая.
Что сравнивали
В статье на ArrowTSX модели проверяли на бенчмарке AA-Omniscience — наборе вопросов, где идеальный результат означает либо точный ответ, либо честное признание, что модель не знает. Чем ниже галлюцинации, тем лучше.
| Модель | Параметры | Галлюцинации |
|---|---|---|
| DeepSeek V4 Pro | ~49 млрд активных | 94% |
| GPT-5.5 | ~1-2 триллиона | 86% |
| Claude Fable 5 | ~1-2 триллиона | 48% |
| Opus 4.8 | ~1-2 триллиона | 36% |
| GLM-5.2 | ~40 миллиардов | 28% |
Самый заметный вывод: крупные проприетарные модели, включая GPT-5.5 и Claude Fable 5, показали худшую калибровку, чем открытая GLM-5.2 с лицензией MIT.
Практический тест
На практике автор дал моделям задачу написать кастомный asyncio event loop policy с логической ошибкой в условиях. Это проверка не только знаний, но и умения остановиться там, где задача технически невыполнима.
DeepSeek V4 Pro потратил почти 4 минуты и около 7700 токенов, но выдал уверенно неправильный код. GLM-5.2 справилась за 12 секунд и сразу указала на невозможность решения.
РЕЗУЛЬТАТЫ ТЕСТА НА КОД ───────────────────────── Модель │ Время │ Токены │ Результат ──────────────────┼──────────┼──────────┼──────────────────── DeepSeek V4 Pro │ ~4 мин │ ~7 700 │ ❌ Неверно GLM-5.2 │ ~12 сек │ ~800 │ ✓ Корректно отказал Ключевой вывод: Большая модель дольше убеждала себя в невозможном, маленькая — быстрее признала ограничения.
Трилемма современных LLM
Автор формулирует это как трилемму: одновременно оптимизировать можно только два из трёх параметров — сырую мощность, калибровку неопределённости и вычислительную эффективность.
ТРИЛЕММА LLM
────────────
┌─────────────────────────────────────┐
│ │
│ СЫРАЯ МОЩНОСТЬ │
│ (бенчмарки, параметры) │
│ ▲ │
│ ╱ ╲ │
│ ╱ ╲ │
│ ╱ ╲ │
│ ╱ ╲ │
│ ╱ ╲ │
│ ▼ ▼ │
│ КАЛИБРОВКА ЭФФЕКТИВНОСТЬ │
│ НЕОПРЕДЕЛЁННОСТИ ВЫЧИСЛЕНИЙ │
│ (меньше галлюцинаций) (меньше GPU│
│ (графический процессор — │
│ микросхема для быстрых │
│ вычислений, используется │
│ для работы нейросетей)) │
│ │
└─────────────────────────────────────┘
Выберите любые два.
Третий пострадает.
Почему это важно
Главный вывод для разработчиков и продакт-менеджеров простой: модель нельзя выбирать только по размеру или узнаваемости бренда. Дорогая и крупная LLM может чаще уверенно ошибаться, чем меньшая, но лучше калиброванная модель.
Практический совет: проверяйте модель на задачах своего домена до покупки или интеграции. Иначе вы рискуете получить красивый, но неверный ответ там, где нужна осторожность.
Ограничения
Результаты основаны на одном бенчмарке и одном практическом тесте, поэтому их нельзя механически переносить на все сценарии. Бенчмарки измеряют знание фактов, но не обязательно творческое мышление или сложное рассуждение.
Выводы
- Размер модели сам по себе не гарантирует качество.
- Открытая меньшая модель может быть честнее и полезнее крупной закрытой.
- Для прикладных задач важнее калибровка, чем уверенный тон ответа.
Ссылки
- ArrowTSX — Bigger models are not the way — статья с сравнением моделей и бенчмарком
- GLM-4 на GitHub (THUDM) — репозиторий проекта GLM
Дмитрий Полухин — продуктовый дизайнер. Пишу про разработку, AI и дизайн интерфейсов. Обо мне, контакты и профили.