DeepSeek: маленький стартап, який струсить великі технології

  • Post author:
  • Post category:Tech / News
You are currently viewing DeepSeek: маленький стартап, який струсить великі технології

Як погана китайська лабораторія штучного інтелекту перехитрила гігантів галузі
Інколи інновації, які найбільше змінюють гру, походять не від найбільших гравців, а від невдач, які повністю переглядають правила. Увійдіть у DeepSeek, китайський стартап зі штучним інтелектом, який приголомшив світ технологій, досягнувши результатів, які конкурують з титанами галузі, такими як OpenAI і Anthropic, за бюджет, який становить лише незначну частину їх бюджету. Що робить цю історію ще більш вражаючою, так це те, як свіжий підхід DeepSeek викриває неефективність того, як великі хлопці весь час робили речі.

Замість того, щоб вкладати мільярди в навчання моделей штучного інтелекту, DeepSeek витратив трохи більше 5 мільйонів доларів на досягнення подібних або кращих результатів. Їхній секрет? Поєднання креативного вирішення проблем, передових методів і роботи розумніше, а не складніше.

Зламаючи форму штучного інтелекту: як DeepSeek це зробив
Розумніший, а не сильніший: інновації, породжені необхідністю
Апаратне забезпечення DeepSeek не було таким потужним, як те, що використовують такі компанії, як OpenAI, але це обмеження стало їх сильною стороною. Вони знайшли способи зробити навчання ШІ дешевшим і швидшим, повністю переосмисливши процес. Одним із їхніх найбільших проривів стало використання 8-розрядного навчання з плаваючою комою (FP8) замість традиційного FP16, який використовується в США. Цей підхід знизив вимоги до пам’яті на 75%, водночас забезпечуючи високоточні результати.

FP8 не був широко зрозумілий і не використовувався в американських лабораторіях ШІ, але DeepSeek перетворив його на свою секретну зброю. Скоротивши потреби в пам’яті та сховищі вдвічі, вони могли б навчати величезні моделі ШІ на набагато менших системах.

Революційна швидкість із обробкою «Мультитокенів».
Іншою зміною стала їхня система обробки з кількома маркерами, яка аналізує цілі фрази одночасно, а не окремі слова. Це зробило їхні моделі штучного інтелекту не лише швидшими — приблизно вдвічі швидшими, — але й вражаюче точними, зберігаючи 90% точності, яка спостерігається у великих і ресурсомістких моделях.

Дистиляція: зменшуючи моделі без втрати потужності
DeepSeek також освоїли техніку під назвою дистиляція, за допомогою якої менші моделі вчаться імітувати результати більших. Результат? Вони створили компактні моделі, які є неймовірно ефективними та все ще висококонкурентоспроможними. Одна з їхніх менших моделей, DeepSeek-R1-Distill-Qwen-1.5B, перевершила деякі з найбільших імен у світі ШІ, як-от GPT-4o та Claude 3.5 Sonnet, за ключовими тестами.

Ефективність, яка привертає увагу (та економія грошей)
Здатність DeepSeek досягти так багато з так мало має серйозні наслідки для витрат. наприклад:

Вартість навчання для моделі DeepSeek була на 95% нижчою за галузеві стандарти.
Їхній API стягує лише 10 центів за мільйон токенів, у порівнянні з 4,40 долара OpenAI за подібні послуги.
Розробники обробляють 200 000 запитів API всього за 50 центів — приголомшлива різниця.
Однією з найцікавіших речей у їхніх моделях є їхня легкість. Ці малі мовні моделі (SLM) можуть працювати на таких простих пристроях, як смартфони, без доступу до Інтернету. Уявіть собі, що ви отримуєте доступ до передового штучного інтелекту прямо зі свого телефону — не потрібна хмарна інфраструктура чи дорогі сервери.

Тривожний дзвінок для великих технологій
Зростання DeepSeek сколихнуло галузь ШІ. Хоча такі компанії, як OpenAI, витрачають мільярди, щоб зберегти свою перевагу, DeepSeek доводить, що більші бюджети не завжди призводять до кращих результатів. Як сказав один інвестор, «побудова моделей штучного інтелекту — це грошова пастка».

Навіть генеральний директор OpenAI Сем Альтман, схоже, звернув увагу на це, як повідомляється, переосмисливши плани агресивної монетизації після того, як побачив, як DeepSeek пропонує подібні можливості безкоштовно або за значно нижчими цінами. І оскільки розробники та користувачі стікаються до DeepSeek, Big Tech, можливо, нарешті доведеться адаптуватися або ризикує залишитися позаду.

https://twitter.com/sama/status/1883294216329281627

DeepSeek є яскравим прикладом того, як необхідність підживлює інновації. Працюючи з обмеженими ресурсами, ця невелика команда створила моделі штучного інтелекту, які є не просто економічно ефективними, але й новаторськими. Для розробників, компаній і навіть звичайних користувачів ця зміна може відкрити нові захоплюючі можливості, кинувши виклик статус-кво в індустрії з мільярдними доходами.

Великим технологам краще звернути увагу: гра ШІ змінюється, а DeepSeek переписує п’єсу.