THINKINGOS
A I L a b o r a t o r y
Материалы блога отражают наш практический опыт и R&D-гипотезы. Там, где приведены эффекты, они зависят от контекста проекта, качества данных, архитектуры и процессов внедрения.
Вернуться в блог
R&D Лаборатория
18 марта 2026 8 мин
R&D Computer Vision VSL Architecture

Зрение для LLM: Почему это до сих пор нерешенный вопрос?

В мире искусственного интеллекта визуальное восприятие и большие языковые модели долгое время развивались параллельно. Сегодня мы видим попытки их объединения, но остается фундаментальный вопрос: как LLM «понимает» то, что видит?

Проблема «черного ящика» визуального восприятия

Большинство современных мультимодальных моделей обучаются на парах «изображение-текст», пытаясь выучить прямые ассоциации. Но это не понимание сцены. Это, скорее, статистическое предсказание подписи к картинке.

Основные барьеры:

  • Отсутствие структуры: Изображение — это набор пикселей, а не логических объектов.
  • Сложность динамики: Понимание видеопотока в реальном времени требует не только анализа кадров, но и временной памяти.
  • Низкая интерпретируемость: Мы не можем «подсмотреть» в голову модели и понять, почему она решила, что на картинке именно этот объект.

Концепция VSL — Visual Scene Language (v0.1)

МЖ
Максим Жадобин LinkedIn
Основатель THINKING•OS

Мы в лаборатории THINKING•OS работаем над созданием универсального языка представления визуальных сцен — VSL. Наша цель — дать LLM структурированное описание мира, которое она сможет «читать» так же легко, как текст.

Семантическая трансляция: От пикселей к графу объектов

Проблема современных мультимодальных моделей заключается в обработке неструктурированных визуальных данных. LLM (Large Language Models) оперируют дискретными токенами, в то время как изображения представляют собой непрерывные массивы сигналов высокой размерности. VSL выполняет роль семантического транслятора, преобразуя визуальную информацию в детерминированный структурированный код.

{
  "canvas": {
    "width": 500,
    "height": 500,
    "unit": "px",
    "origin": "top-left",
    "background": "white"
  },
  "objects": [
    {
      "id": "rect1",
      "type": "rectangle",
      "size": { "width": 100, "height": 100 },
      "position": { "x": 200, "y": 200, "reference_point": "top-left" },
      "anchor": "top-left",
      "fill": "red",
      "stroke": null
    }
  ]
}

В представленном примере визуальная сцена декомпозируется на объекты с четко определенными атрибутами: геометрические параметры, векторные координаты и контекстные метаданные. Это превращает процесс «распознавания» в процесс логического вывода. Теперь модель способна выполнять пространственные вычисления (spatial reasoning): анализировать топологию объектов, их иерархию и взаимное расположение с математической точностью. Это фундаментальный переход от вероятностного угадывания к алгоритмическому пониманию сцены.


Архитектура для Анализа Видеопотоков в THINKING•OS

Оптимизация визуально-временных данных

Современные системы компьютерного зрения сталкиваются с проблемой критической избыточности данных (data redundancy) при обработке видеопотоков. Традиционный покадровый анализ требует колоссальных вычислительных мощностей и создает избыточную нагрузку на контекстное окно LLM.

Наша архитектура в THINKING•OS базируется на принципе событийного сжатия (event-driven compression). Вместо передачи сырых визуальных данных, система генерирует Temporal Video JSON — абстракцию высшего порядка, описывающую динамику сцены.

Это позволяет:

  1. Снизить размерность данных: Вместо последовательности из сотен кадров модель оперирует вектором состояний и событий. Это снижает энтропию входных данных в тысячи раз.
  2. Повысить семантическую плотность: ИИ-агент Тао получает не пиксели, а структурированную хронологию (narrative timeline), что критически важно для понимания причинно-следственных связей в реальном времени.
  3. Минимизировать задержки (latency): Обработка происходит на уровне метаданных, что позволяет системе реагировать на изменения в потоке практически мгновенно.

Будущее визуального интеллекта

Мы верим, что будущее не в бесконечном увеличении количества параметров моделей, а в создании более совершенных способов «перевода» визуального мира в понятные для интеллекта структуры. VSL и наша архитектура видеоанализа — это шаги в сторону настоящего, глубокого понимания мира искусственным интеллектом.

Открытые спецификации

Концепции VSL и VDL развиваются как открытые спецификации, цель которых — создать стандарт для пространственного и временного мышления ИИ-систем. Вы можете следить за развитием и внести свой вклад на GitHub:

Хотите обсудить применение этих технологий в вашем бизнесе?

Мы помогаем компаниям внедрять сложные AI-системы на базе глубокой проработки бизнес-пайплайнов.

Обсудить в Telegram