Обновлённый Grok на подходе: Sherlock с 1,84 млн токенов
OpenRouter тестирует Sherlock Dash Alpha и Sherlock Think Alpha с контекстом 1,84 млн токенов; вероятно это обновлённый Grok 4, релиз — конец ноября–начало декабря.
OpenRouter тестирует Sherlock Dash Alpha и Sherlock Think Alpha с контекстом 1,84 млн токенов; вероятно это обновлённый Grok 4, релиз — конец ноября–начало декабря.
Обновление Gemini CLI добавило PTY‑оболочку: интерактивный терминал с поддержкой vim, top, git rebase и корректными цветами терминала.
Google запустил Gemini CLI Extensions — фреймворк для подключения внешних инструментов к Gemini CLI; интеграции с Dynatrace, Figma, Cloud Run и публичный каталог.
Gemini 2.5 Computer Use — модель Google, которая управляет UI: клики, ввод, скриншоты в цикле; превью через Gemini API, Google AI Studio и Vertex AI.
Дайджест с ключевыми ссылками недели: GPT-5-Codex, Grok 4 Fast, обсуждение AI и подростков, безопасность AI-ассистентов.
Anthropic опубликовали тестовое задание по оптимизации производительности виртуальной машины: старт 147 734 такта, лучшие результаты Opus 4.5 около 1363 тактов.
Краткий разбор внутреннего исследования Anthropic: 132 инженера, 53 интервью и 200 000 сессий Claude Code — выводы по продуктивности, навыкам и ролям.
Короткий разбор подхода Anthropic: разделение ролей (Initializer, Coding Agent), строгие JSON‑требования и E2E‑тесты через Puppeteer для стабильной длительной работы агентов.
Короткий обзор TOON — компактная запись JSON, дающая ~30–60% экономии токенов и улучшенную предсказуемость LLM; есть CLI и TypeScript‑библиотека.
Кейс реверса Codex CLI и трюки Саймона Уиллиссона: как в Codex CLI через codex prompt вызвать GPT-5‑Codex‑Mini и получить SVG‑пеликана.
GLM-4.6 от Z.ai: контекст до 200k токенов, улучшения в кодинге и агентности, ~15% экономии по токенам; ссылки на HuggingFace и ModelScope.
Перевод статьи о том, как LLM сравнивают с компиляторами и как меняется роль разработчиков; ссылка на разбор на Хабр.
Перевод статьи о модели Instinct от Continue — открытая Next Edit‑модель для предсказания правок кода; результат — изменения в 6,4 раза быстрее. Хабр.
Короткий анонс перевода OpenAI о природе галлюцинаций LLM: почему модели выдумывают факты, связь с предсказанием следующего слова и роль метрик.
Краткий анонс Agentic RAG: агенты берут на себя поиск и уточнение контекста; ссылка на статью на Хабр.
Model Context Protocol (MCP) для ресерча: как связать arXiv, GitHub и Hugging Face и перейти от ручного поиска и скриптов к интеграции через natural language.
GPT-5.1‑Codex‑Max выходит в лидеры на SWE‑Lancer и SWE‑Bench Verified; компактность позволяет оперировать миллионами токенов, доступ в Codex уже открыт.
Opus 4.5 лидирует в SWE‑bench, опережая Sonnet 4.5 в большинстве языков; улучшены reasoning, зрение и защита от prompt‑injection; введён параметр effort.
GitHub описал кастомный стек для Copilot: +20% сохранённых символов, +12% acceptance, 3× пропускная способность; обучение на 10 млн репозиториев.
Крупное обновление OpenAI: GPT-5.1 Instant и GPT-5.1 Thinking, новая система тонов и персонализация; первые впечатления от AI for Devs.