Про це пише Reuters.

Китайський стартап DeepSeek випустив нову безплатну модель штучного інтелекту з відкритим кодом, яка вважається конкурентоспроможною з моделями OpenAI та Meta. Протягом вихідних вона стала топовим застосунком в App Store, а у понеділок спровокувала падіння цін на акції технологічних компаній, додає CNBC.

У компанії стверджують, що модель DeepSeek R1 була розроблена всього за два місяці й обійшлася лише у $6 мільйонів. Водночас вона перевершила найновішу модель OpenAI (o1) в декількох незалежних тестах.

Першим на собі падіння через DeepSeek відчули японські компанії, пов’язані з американськими ШІ-компаніями.

Акції Advantest, яка постачає техніку для Nvidia, впали на 7,99%, Tokyo Electron – майже на 4%, Softbank Group (володіє розробником чипів Arm) – на 5,4%, Furukawa – на 9,8%, Fujikura – на 8%.

Галас довкола нового продукту DeepSeek пов’язаний з тим, що її модель штучного інтелекту має вкрай низьку вартість та здатність працювати на не найсучасніших процесорах. Це змусило ринок засумніватися в обґрунтованості високих оцінок таких компаній, як Nvidia.

Якщо інформація про DeepSeek повністю відповідає дійсності, це кидає виклик уявленню про те, що китайські технології штучного інтелекту на роки відстають від американських аналогів.

“DeepSeek демонструє, що можна створювати потужні моделі штучного інтелекту за нижчою ціною. Це може серйозно змінити інвестиційний ландшафт усього ланцюга ШІ-індустрії, який наразі залежить від високих витрат невеликої кількості провідних гравців”, – пояснив у коментарі Fortune Вей-Серн Лінг, керуючий директор швейцарського банку UBP.

Що відомо про китайський ШІ

Розробка DeepSeek “ставить під сумнів тезу про те, що значні капітальні та операційні витрати Кремнієвої долини є найбільш прийнятним підходом до розвитку штучного інтелекту”, додав Ніргунан Тіручелвам, керівник відділу споживчих та інтернет-технологій сінгапурської компанії Aletheia Capital. “Це ставить під сумнів величезні ресурси, які були виділені на штучний інтелект”, – сказав він.

DeepSeek V3 — це модель з відкритим кодом, яка доволі гідно проявила себе в ключових тестах і показала, що може конкурувати з провідними моделями галузі, разом з тим показавши «покращення» у завданнях на логічне мислення. V3 використовує архітектуру Mixture-of-Experts (MoE) із загальною кількістю параметрів у 671 млрд, де 37 млрд активізуються для кожного токена (у попередниці V2, для порівняння було 236 млрд параметрів з активацією 21 млрд параметрів для кожного токена).

Цікаво, що DeepSeek V3 використовувала «кластер із понад 2000 чіпів Nvidia» — порівняно з десятками тисяч чипів для навчання моделей подібного розміру, на які американські компанії витрачають мільйони доларів.

В останні роки китайські техногіганти й стартапи випустили цілу низку моделей ШІ, однак саме DeepSeek вдалось завоювати увагу по всьому світу і спричинити паніку в офісах Кремнієвої долини. Днями компанія випустила у відкритому доступі модель міркування R1, чим підштовхнула OpenAI перенести свою модель o3-mini в безплатну версію ChatGPT.

У R1 також є власні рекорди — вона стала найпопулярнішою моделлю, яку завантажують на HuggingFace (понад 100 тис. завантажень на 25 січня). Також кілька днів тому незалежні аналітики з Chatbot Arena (платформи, організованої дослідниками Каліфорнійського університету в Берклі) додали моделі V3 і R1 у десятку найкращих за продуктивністю чат-ботів.