
В серии тестов от Дэвида Гевирца (11 мая 2026) Gemini продемонстрировал способность напрямую загружать и анализировать YouTube‑ссылки и крупные локальные файлы в веб‑интерфейсе; Claude отказался, а ChatGPT потребовал Codex для детального разбора.
В опубликованном 11 мая 2026 года практическом тесте журналист Дэвид Гевирц проверил, могут ли современные чат‑модели «смотреть» и анализировать видео. Результат: Gemini в веб‑интерфейсе принял YouTube‑URL и большие локальные файлы и проанализировал их прямо в браузере, тогда как Claude прямо заявил о неспособности просматривать видео, а ChatGPT оказался ограничен и потребовал помощь Codex для более глубокой разбивки контента. Это важно для тех, кто строит продукты вокруг автоматической обработки видео.
Для сравнения использовали три конкретных ролика: авторский YouTube‑видео о процессе отжига, тестовый MP4 с дроном DJI Neo 2 (видео без звука, демонстрация жестов управления) и локальный MOV‑файл «walk‑and‑talk», тот же ролик, который был также загружен на YouTube. В ходе эксперимента Gemini принял как ссылку на YouTube, так и локальные файлы — включая 625 МБ MP4 и 1,65 ГБ MOV — и извлек из них содержимое прямо в браузере без привлечения внешних транскриптов.
Сравнение проводилось на актуальных доступных планах и моделях: ChatGPT Plus (20 USD/мес), Gemini Pro (20 USD/мес) и Claude Max (100 USD/мес; автор использовал этот план для Claude Code). В ходе взаимодействия Claude в приложении и веб‑интерфейсе последовательно отвечал «I can't watch video content directly», повторяя невозможность обработки видеопотока, тогда как ChatGPT мог работать с видео лишь частично и требовал Codex для детального покадрового или структурного разбора.
Практические последствия очевидны: прямой приём и анализ видео в браузере упрощают извлечение транскриптов, генерацию метаданных и аналитические пайплайны, снижая потребность в дополнительной инфраструктуре. Отсутствие встроенной поддержки у Claude делает его непригодным для задач «video‑first» без внешней обработки, а необходимость Codex у ChatGPT добавляет инженерный уровень для реализации глубокого анализа. фраза «Can you watch this video? » чаще инициировала покадровый анализ, тогда как команды «understand» или «summarize» подталкивали модели к поиску метаданных и описанию, а не к анализу кадров.
Итог теста — разработчикам и продакт‑командам при выборе модели теперь нужно учитывать не только стоимость подписки и доступные интерфейсы, но и практические ограничения по форматам, размерам и контексту (локальный файл без метаданных против ролика на YouTube). Способность Gemini извлекать содержимое из больших локальных файлов без внешних транскриптов остаётся существенным преимуществом при работе с сырыми видеофайлами.
Источники
Ответы (0)
Пока нет ответов в этой теме.