Ваш ИИ-ассистент — новое поколение компиляторов
Перевод статьи о том, как LLM сравнивают с компиляторами и как меняется роль разработчиков; ссылка на разбор на Хабр.
Перевод статьи о том, как LLM сравнивают с компиляторами и как меняется роль разработчиков; ссылка на разбор на Хабр.
Перевод статьи о модели Instinct от Continue — открытая Next Edit‑модель для предсказания правок кода; результат — изменения в 6,4 раза быстрее. Хабр.
Короткий анонс перевода OpenAI о природе галлюцинаций LLM: почему модели выдумывают факты, связь с предсказанием следующего слова и роль метрик.
Model Context Protocol (MCP) для ресерча: как связать arXiv, GitHub и Hugging Face и перейти от ручного поиска и скриптов к интеграции через natural language.
GPT-5.1‑Codex‑Max выходит в лидеры на SWE‑Lancer и SWE‑Bench Verified; компактность позволяет оперировать миллионами токенов, доступ в Codex уже открыт.
Opus 4.5 лидирует в SWE‑bench, опережая Sonnet 4.5 в большинстве языков; улучшены reasoning, зрение и защита от prompt‑injection; введён параметр effort.
GitHub описал кастомный стек для Copilot: +20% сохранённых символов, +12% acceptance, 3× пропускная способность; обучение на 10 млн репозиториев.
Крупное обновление OpenAI: GPT-5.1 Instant и GPT-5.1 Thinking, новая система тонов и персонализация; первые впечатления от AI for Devs.
Коротко о релизе Gemini 2.5 Flash и Flash-Lite: Flash-Lite снизил выходные токены на 50%, Flash улучшил работу с инструментами и бенчмарки.
Краткий разбор работы 2020 года о scaling laws: качество LLM растёт при синхронном масштабировании модели, данных и вычислений; есть практические ограничения.
Краткий разбор исследования Anthropic «The Assistant Axis»: пространство персон в Gemma 2, Qwen 3 и Llama 3 и как ось ассистентности влияет на поведение моделей.
Короткий обзор: Grok 4.1 Fast лидирует в τ²-bench и Berkeley Function Calling v4; xAI анонсировали Agent Tools API. Доступно бесплатно до 3 декабря.
Анализ материала о том, почему громоздкие MCP‑сервера часто уступают минималистичным CLI/Bash и скриптам; пример скрапинга Hacker News.
xAI представила Grok 4.1: точнее, эмоциональнее и творчески гибче; лидерство в бенчмарках (Thinking/EQ‑Bench) и проблемы с доступом в API.
Короткий разбор Claude Skills от Anthropic: как «папки с навыками» меняют подход к интеграции ИИ и чем они отличаются от MCP.
Claude Agent (Claude 4.5 Sonnet) встроен в AI‑чат IDE JetBrains и доступен в подписке JetBrains AI; поддерживает диффы, Plan, Brave mode и работу с файлами.
По данным SemiAnalysis, Claude Code генерирует 4% публичных коммитов на GitHub; обсуждение качества и заметки о проблемах с компиляцией.
Бесплатный вебинар Veai о проблемах AI‑ассистентов на больших кодовых базах; трансляция 12 февраля в 14:30 МСК. Ссылка на регистрацию в посте.
MiniMax представили M2.5: SOTA в программировании (SWE‑Bench 80,2%), +37% скорости и бесплатный 7‑дневный доступ в OpenCode.
Запись вебинара Veai «Обзор AI-ассистентов для кодинга в 2026» доступна на Rutube; промокод veai_for_devs даёт 5000 Flex‑кредитов до 28 февраля.