Эра «пошаговых» чатов завершается: Thinking Machines представила ИИ с мгновенной реакцией

Эра «пошаговых» чатов завершается: Thinking Machines представила ИИ с мгновенной реакцией

Современные модели искусственного интеллекта работают по принципу очередности: пользователь отправляет запрос, ждет завершения обработки и получает ответ. Однако для полноценной интеграции ИИ в профессиональную среду требуется более естественное взаимодействие. Стартап Thinking Machines, основанный бывшими топ-менеджерами OpenAI Мирой Мурати и Джоном Шульманом, представил решение этой проблемы — новый класс нативных мультимодальных систем, где интерактивность является фундаментальной частью архитектуры, а не внешней программной надстройкой.

Полнодуплексная архитектура: общение без пауз

В основе разработки лежит фундаментальное изменение восприятия времени нейросетью. Традиционные модели обрабатывают реальность в один поток: они ждут, пока пользователь закончит ввод, и «замирают» в процессе генерации ответа. Разработчики Thinking Machines называют это «узким местом взаимодействия», которое заставляет людей подстраиваться под интерфейс, формулируя мысли короткими порциями, как в электронной почте.

Для решения этой проблемы компания отказалась от стандартной последовательности токенов в пользу многопоточной микроцикловой архитектуры. Система обрабатывает входящие и исходящие данные одновременно сегментами по 200 мс. Такая «полнодуплексная» связь позволяет модели слушать, говорить и видеть в режиме реального времени. ИИ способен давать краткие подтверждения во время речи собеседника (поддакивать) или прерывать его, если заметит важное визуальное событие, например, ошибку в коде на экране или появление нового человека в кадре.

Технически система использует метод раннего слияния данных без отдельных энкодеров. Вместо использования сторонних решений для обработки звука, модель воспринимает необработанные аудиосигналы и фрагменты изображений размером 40x40 пикселей через облегченный слой эмбеддингов, обучаясь на всех типах данных одновременно внутри трансформера.

Двухуровневая система моделей

Представленная исследовательская версия TML-Interaction-Small является моделью типа Mixture-of-Experts (MoE) с общим объемом 276 миллиардов параметров, из которых активными являются 12 миллиардов. Поскольку работа в реальном времени требует мгновенного отклика, что часто вступает в конфликт с глубокими размышлениями, архитектура была разделена на две части:

  • Интерактивная модель: находится в постоянном обмене данными с пользователем, отвечает за ведение диалога и немедленные реакции.
  • Фоновая модель: асинхронный агент, который выполняет сложные логические задачи, ищет информацию в сети или обращается к внешним инструментам, передавая результаты основной модели для естественного вплетения в разговор.

Такая конфигурация позволяет ИИ, например, выполнять синхронный перевод или строить графики, продолжая при этом слушать инструкции пользователя.

Превосходство в скорости и качестве взаимодействия

Для оценки эффективности системы использовался тест FD-bench, измеряющий качество взаимодействия, а не просто «интеллект» модели. Результаты TML-Interaction-Small превзошли показатели ведущих лабораторий:

  • Задержка при смене реплик составила 0,40 секунды (для сравнения: у Gemini-3.1-flash-live — 0,57 с, у GPT-realtime-2.0 — 1,18 с).
  • Качество взаимодействия по шкале FD-bench V1.5 достигло 77,8 балла, что почти вдвое выше показателей конкурентов.
  • В тестах на визуальную проактивность модель успешно реагировала на изменения в видеопотоке в моменты, когда другие системы хранили молчание или давали неверные ответы.

Перспективы внедрения в бизнес-процессы

Внедрение интерактивных моделей может радикально изменить корпоративные рабочие процессы. В обзоре выделяются ключевые направления использования технологии:

  • Проактивный аудит: в промышленном производстве или лабораториях ИИ может следить за видеопотоком и мгновенно вмешиваться при обнаружении нарушений протокола безопасности, не дожидаясь вопроса от сотрудника.
  • Клиентский сервис нового уровня: задержка в 0,40 секунды соответствует скорости естественного человеческого общения. Голосовой бот может слушать клиента, выражать понимание короткими репликами и обеспечивать плавный перевод без пауз.
  • Нативная работа со временем: в отличие от обычных языковых моделей, новинка обладает внутренним ощущением времени. Это позволяет ей управлять чувствительными к срокам процессами, например, напоминать о проверке температуры каждые 4 минуты или сигнализировать о задержке производственного цикла.

О компании Thinking Machines

Стартап громко заявил о себе в начале 2025 года. В июле компания привлекла около 2 миллиардов долларов при оценке в 12 миллиардов долларов в раунде под руководством Andreessen Horowitz при участии Nvidia, AMD и других технологических гигантов. Это стало крупнейшим посевным раундом в истории по версии издания WIRED.

В августе 2025 года сообщалось, что Марк Цукерберг, глава Meta*, пытался приобрести Thinking Machines, но получил отказ от Миры Мурати. После этого корпорация Meta* наняла более десятка сотрудников стартапа. Несмотря на агрессивный хантинг со стороны конкурентов, Thinking Machines удалось привлечь таких экспертов, как создатель PyTorch Сумит Чинтала, занявший пост технического директора.

Смотрите также:

Евросоюз рассматривает ограничение облачных сервисов для чувствительных данных http://kupidonchik.org/evrosoyuz-rassmatrivaet-ogranichenie-oblachnyih-servisov-dlya-chuvstvitelnyih-dannyih/.

Интересности на тему: Samsung пересматривает стратегию выпуска смартфонов: ставка на флагманы и бюджетный сегмент

Классные советы в статье "Apple ужесточает правила для букмекерских приложений в Бразилии" здесь.

В ближайшие месяцы компания планирует открыть ограниченный доступ к новой модели для сбора отзывов, а полноценный релиз намечен на конец текущего года.

* — деятельность компании запрещена на территории РФ