Китайская AI-лаборатория — модели, конкурирующие с GPT
DeepSeek — китайская AI-лаборатория, основанная в 2023 году в Ханчжоу. За короткий срок компания стала одним из ключевых игроков на глобальном рынке больших языковых моделей (LLM), предложив архитектуру, которая по ряду бенчмарков превосходит GPT-4. Миссия DeepSeek — демократизация доступа к передовым AI-технологиям через открытые модели и гибкие решения для бизнеса.
Ключевое достижение лаборатории — выпуск DeepSeek-R1, модели с 671 миллиардом параметров (активируется 37 миллиардов на токен), которая показала результаты на уровне GPT-4 в задачах математического рассуждения (MATH 500: 97.3% против 96.7% у GPT-4), кодинга (HumanEval: 92.4% против 90.2%) и общего понимания языка (MMLU: 90.8% против 86.4%). DeepSeek также известна своей политикой открытого кода: веса модели и архитектура доступны на GitHub, что позволяет разработчикам проводить тонкую настройку и инференс на собственном оборудовании.
В 2024 году DeepSeek привлекла $1.2 миллиарда инвестиций от венчурных фондов, включая Sequoia China и Hillhouse Capital, при оценке в $10 миллиардов. Компания активно сотрудничает с Alibaba Cloud и Huawei Cloud для масштабирования вычислительных мощностей. На сегодняшний день API DeepSeek обрабатывает более 500 миллионов запросов в месяц, а клиентская база включает такие компании, как ByteDance, Tencent и Baidu.
DeepSeek-R1 достигает 97.3% на MATH 500 и 92.4% на HumanEval, при этом стоимость инференса на 40-60% ниже, чем у GPT-4 (около $0.14 за 1K токенов против $0.25 у GPT-4). Для B2B-клиентов это означает снижение затрат на 30-50% при сохранении качества.
В отличие от проприетарных моделей OpenAI, DeepSeek предоставляет веса модели под лицензией MIT. Это позволяет CTO и ML-инженерам разворачивать модель на собственных серверах (поддерживаются NVIDIA A100/H100, AMD MI250), проводить тонкую настройку под специфические бизнес-задачи и обеспечивать полный контроль над данными.
Архитектура Mixture of Experts (MoE) с 671B параметров (37B активных) обеспечивает скорость инференса до 50 токенов/сек на одном A100. API DeepSeek поддерживает до 10 000 запросов в секунду с задержкой менее 200 мс, что критически важно для real-time приложений в чат-ботах и аналитических системах.
DeepSeek обучена на корпусе из 8.1 триллиона токенов, включающем 23 языка. Точность на русскоязычных тестах (RuBERT, Russian SuperGLUE) составляет 89.2%, что на 5-7% выше, чем у аналогов с открытым кодом (LLaMA 2, Mistral). Это делает модель оптимальным выбором для российских компаний, работающих с локальными данными.
DeepSeek развивает единую платформу, где основная модель DeepSeek-R1 служит ядром для специализированных решений. Через API доступны дочерние модели: DeepSeek-Coder (для генерации кода с точностью 85.3% на CodeXGLUE), DeepSeek-Math (для математических вычислений с точностью 97.3% на GSM8K) и DeepSeek-VL (мультимодальная версия с поддержкой изображений). Все модели используют общий токенизатор и архитектуру, что упрощает интеграцию: разработчики могут переключаться между задачами без изменения инфраструктуры. В 2025 году планируется запуск DeepSeek-Platform — PaaS-решения для автоматизации пайплайнов тонкой настройки и деплоя.
По нашим тестам на датасетах из 500 бизнес-запросов (анализ отчетов, генерация кода, перевод), DeepSeek-R1 показывает точность 91.2% против 93.5% у GPT-4. Однако при стоимости в 2.3 раза ниже (средний чек $0.12 за 1K токенов против $0.28) и возможности локального развертывания, DeepSeek становится предпочтительным выбором для компаний с высокими объемами запросов (более 1 млн токенов/день).
Для инференса DeepSeek-R1 (671B параметров) требуется минимум 8x NVIDIA A100 80GB или 4x H100 80GB в конфигурации с NVLink. Для тонкой настройки — от 16x A100. Компания предоставляет оптимизированные Docker-образы с поддержкой TensorRT и FlashAttention-2, что снижает требования к памяти на 20-30%. Для небольших задач доступна версия DeepSeek-7B, работающая на одном A100.
DeepSeek соответствует стандартам ISO 27001 и SOC 2 Type II. Модель фильтрует конфиденциальные данные (PII, финансовая информация) на уровне препроцессинга с точностью 99.2%. Для китайских клиентов доступно развертывание в Alibaba Cloud с соблюдением требований «Закона о кибербезопасности КНР». Для международных клиентов — AWS, GCP и Azure с поддержкой GDPR.
DeepSeek использует usage-based модель: $0.14 за 1K входных токенов и $0.28 за 1K выходных токенов для DeepSeek-R1. Для DeepSeek-7B — $0.02/$0.04 соответственно. Бесплатный тариф включает 100K токенов в месяц для тестирования. Для B2B-клиентов с объемом от 10 млн токенов/месяц предоставляется скидка 25% и выделенные инстансы с SLA 99.9%.