
Китайская исследовательская лаборатория DeepSeek официально представила две предварительные версии своей новейшей большой языковой модели DeepSeek V4. Этот релиз стал долгожданным обновлением прошлогодней версии V3.2, а также сопутствующей модели рассуждений R1, которая ранее привлекла значительное внимание в индустрии искусственного интеллекта. Главным прорывом стал масштаб флагманской версии DeepSeek V4 Pro: она насчитывает 1,6 триллиона параметров в общей сложности, из которых 49 миллиардов являются активными. Эти характеристики делают ее крупнейшей из доступных моделей с открытыми весами. Для сравнения, новая архитектура более чем в два раза превосходит собственную модель V3.2, у которой был 671 миллиард параметров, а также оставляет позади таких конкурентов, как Kimi K 2.
В основе обеих новых моделей, включая более компактную версию DeepSeek V4 Flash, лежит архитектура Mixture — of-Experts (MoE), или смесь экспертов. Такой подход подразумевает активацию только определенного количества параметров для выполнения конкретной задачи, что позволяет существенно снизить затраты на логический вывод. Модель V4 Flash при этом получила 284 миллиарда общих параметров, из которых активными остаются 13 миллиардов. Важной технической особенностью обеих нейросетей является размер контекстного окна, который составляет 1 миллион токенов. Эта емкость позволяет пользователям загружать в запросы обширные базы кода или объемные текстовые документы.
Разработчики из DeepSeek заявляют, что благодаря архитектурным улучшениям новые алгоритмы стали более эффективными и производительными по сравнению с предыдущим поколением. Согласно внутренним тестам компании, они практически сократили отставание от передовых открытых и закрытых моделей в бенчмарках на логические рассуждения. В соревнованиях по программированию производительность обеих версий V4 оценивается как сопоставимая с возможностями GPT-5.4. Кроме того, компания упоминает модификацию V4-Pro-Max, которая, по их утверждениям, превосходит аналоги с открытым исходным кодом в тестах на логику и даже обходит GPT-5.2 от OpenAI и Gemini 3.0 Pro на выполнении некоторых специфических задач.
Несмотря на заявленные успехи в программировании и логике, новые китайские нейросети все еще демонстрируют определенные ограничения при проверке фактических знаний. В этих тестах они немного уступают передовым моделям, в частности GPT-5.4 от OpenAI и новейшей Gemini 3.1 Pro от Google. Сама лаборатория DeepSeek открыто признает это отставание, отмечая в своих материалах, что их текущая траектория развития запаздывает за самыми современными передовыми моделями примерно на три — шесть месяцев. Источник не предоставляет детальных данных о том, в каких именно областях знаний наблюдается наибольший разрыв, однако подчеркивает общую тенденцию отставания от лидеров рынка в данной метрике.
Ключевым конкурентным преимуществом DeepSeek V4 на мировом рынке становится агрессивная ценовая политика, которая делает использование этих систем значительно более доступным по сравнению с любыми передовыми аналогами, доступными сегодня. Компактная модель V4 Flash предлагается по цене 0,14 доллара США за миллион входных токенов и 0,28 доллара за миллион выходных токенов. Данный тариф оказывается ниже стоимости эксплуатации таких систем, как GPT-5.4 Nano, Gemini 3.1 Flash, GPT-5.4 Mini и Claude Haiku 4.5. В свою очередь, более мощная версия V4 Pro оценивается в 0,145 доллара за миллион токенов на входе и 3,48 доллара на выходе. Эти расценки позволяют ей напрямую конкурировать с премиальными предложениями, включая Gemini 3.1 Pro, GPT-5.5, Claude Opus 4.7 и GPT-5.4.
Выпуск новых моделей сопровождается серьезным обострением отношений в международной технологической среде и претензиями к китайской лаборатории со стороны западных корпораций. Релиз DeepSeek V4 состоялся всего через день после того, как Соединенные Штаты официально обвинили Китай в краже интеллектуальной собственности американских ИИ-лабораторий в промышленных масштабах с использованием тысяч прокси-аккаунтов. Более того, сама компания DeepSeek ранее сталкивалась с прямыми обвинениями со стороны таких гигантов, как Anthropic и OpenAI. Эти конкуренты утверждают, что китайская лаборатория занимается дистилляцией, что фактически означает несанкционированное копирование их собственных передовых ИИ-моделей для обучения своих алгоритмов.
Источники
Ответы (0)
Пока нет ответов в этой теме.