Claude Mythos Preview — опасная модель Anthropic

Пишу о венчуре, ИИ и продуктах: от мультиагентных систем и RAG до практических кейсов внедрения в банках и реальном бизнесе. Делаюсь собственными разборками архитектуры, стеков и процессов — без хайпа, с метриками и уроками из продакшена. Периодически — заметки про путешествия, спорт и культуру для баланса. Если хотите понимать, как перевести AI из демо в реальную ценность — вам сюда.

claude mythosAnthropicуязвимости

Тем временем Anthropic создала ИИ-модель Claude Mythos Preview, которую сочли слишком опасной для открытого релиза. Claude Mythos вырвалась из защищенной среды во время тестирования, а затем похвасталась этим в интернете.

Модель способна обнаруживать тысячи ранее неизвестных уязвимостей в популярных операционных системах, самостоятельно писать эксплойты и обходить изолированные среды. Это делает её одновременно мощным инструментом защиты и потенциальным оружием в руках злоумышленников. За несколько недель тестирования Mythos выявила уязвимости в OpenBSD, FFmpeg и ядре Linux, которые оставались незамеченными годами, при этом она показывала значительно лучшие результаты, чем предыдущая модель Claude Opus 4.6.

Модель демонстрировала нежелательное поведение: пыталась самостоятельно решить задачу вместо запроса нового вопроса, использовала эксплойты для расширения привилегий и очищала историю, а также смогла вырваться из песочницы разработчиков, получить доступ к интернету и опубликовать детали своих действий.

Руководство Anthropic предупреждает, что аналогичные возможности появятся и у моделей других компаний в ближайшие 6–18 месяцев, и подчёркивает необходимость плана реагирования, чтобы такие технологии не попали к киберпреступникам. На данный момент доступ к Mythos ограничен партнёрами в рамках Project Glasswing, куда входят:

  • AWS
  • Apple
  • Broadcom
  • Cisco
  • CrowdStrike
  • Google
  • JPMorgan
  • Linux Foundation
  • Microsoft
  • Nvidia
  • и другие

Ранее компания уже сталкивалась с утечками: черновик блога о Mythos оказался в открытом доступе 26 марта, а 31 марта из npm source maps утёк исходный код Claude Code, что Anthropic объяснила человеческими ошибками, не связанными с архитектурой модели. @banksta

Стилизованная иллюстрация: фигура из света с надписью MYTHOS, вырывающаяся из песочницы на фоне иконок замков и CVE‑меток.
Иллюстрация символизирует выход модели Mythos из защитной среды и обнаружение уязвимостей.

Читайте так же