Intervju Michael Pound: „Razvoj DeepSeek modela R1 uistinu prijeti monopolu koje su određene tvrtke imale u ovom području“

Tehnološke kompanije posljednjih su godina uložile milijarde dolara u razvoj umjetne inteligencije bazirane na velikim jezičnim modelima (LLM). NVIDIA, jedna od najprofitabilnijih kompanija izlistanih na američkoj burzi godinama bilježi rast temeljen na proizvodnji sofisticiranih grafičkih procesora (GPU) koji omogućavaju taj postupak dok su pojedine tvrtke, poput Microsofta i Mete, u razvojnim planovima išle toliko daleko da su razmatrana i ulaganja u nuklearne elektrane kako bi se zadovoljile energetske potrebe za „farme“ grafičkih procesora. Doslovce preko noći sva su ulaganja postala upitna kada je posve nepoznata kineska tvrtka, uz pomoć vlade, predstavila višestruko ekonomičniju aplikaciju baziranu na umjetnoj inteligenciji, DeepSeek.
Nakon što se prašina slegla, a burze pomalo dolaze sebi, o posebnosti kineske umjetne inteligencije i o tome što bi ona mogla značiti za akademsku zajednicu, ali i za manje razvijene zemlje, razgovarali smo s Michaelom Poundom izvanrednim profesorom sa Sveučilišta Nottingham. Riječ je o znanstveniku koji se gotovo dva desetljeća bavi primjenom umjetne inteligencije u akademskim istraživanjima. Ovaj doktor računalnih znanosti omogućio je kolegama biolozima jedan od najvećih koraka u razumijevanju mehanizama rasta biljaka.
Kako ste kroz dosadašnji rad stekli znanja o umjetnoj inteligenciji?
- Već deset ili petnaest godina radim na primijenjenoj računalnoj viziji, dakle, puno vremena provodim radeći s AI-em. Umjetna inteligencija na kojoj radim više je primijenjenog tipa, na primjer, umjesto da razvijamo veliku opću umjetnu inteligenciju što rade chatGPT ili DeepSeek, mi pomoću AI-a pokušavamo riješiti specifične probleme. Zahvaljujući tome, prilično dobro razumijem kako većina ovih sustava funkcionira. Kada se pojave nove stvari, lakše mi je shvatiti što su napravili, jer dolazim iz te pozadine.
Možete li ukratko opisati kako je izgledao svijet umjetne inteligencije prije nego što se pojavio DeepSeek?
- Mislim da se AI prije DeepSeeka može grubo podijeliti u dvije kategorije. Prva su modeli umjetne inteligencije koje su razvijale velike tehnološke kompanije – modeli koji su bili izvan dosega većine ljudi. Mi smo ih koristili, ali nismo ih sami razvijali. Ako pogledate akademske konferencije iz područja računalne vizije, vidjet ćete da većina istraživača koristi velike jezične modele za razne primjene, ali ih rijetko tko zaista razvija. Postoje, doduše, akademske konferencije i časopisi gdje se rade istraživanja na margini tih modela, ali treniranje takvih sustava je preskupo za većinu laboratorija. To mogu priuštiti samo velike tehnološke kompanije ili iznimno dobro financirani laboratoriji kakvih u svijetu ima iznimno malo. Prvenstveno je tome razlog što „farme“ grafičkih procesora i električna energija potrebna za razvijanje takvih modela košta stotine milijuna dolara. Druga kategorija AI-a jest ono što većina istraživača u mom području radi. Odnosno, manji AI sustavi. Primjerice, ovih je dana u britanskim vijestima objavljen članak o testiranju AI sustava za rano otkrivanje raka dojke. To je specifično trenirani model namijenjen baš toj svrsi – dakle, nije chatbot, donosno opća umjetna inteligencija poput ChatGPT-a ili DeepSeeka. Taj se model mogao istrenirati na relativno skromnom hardveru i nije bilo potrebno uložiti stotine milijuna dolara. Većina AI istraživanja ide u tom smjeru – rješavanje konkretnih problema s pomoću specijaliziranih modela.
Što su veliki jezični modeli i kako su se oni razvijali do pojave DeepSeeka?
- Kada govorimo o LLM-u, treba naglasiti kako su oni vrsta umjetne inteligencije bazirana na „transformatorima“, vrlo velikim neuralnim mrežama koje predviđaju sljedeću riječ u nizu. Sama neuralna mreža je pak standard u strojnom učenju (machine learning) kako u umjetnom generiranju slika, tako i u generaciji teksta za što su zaduženi spomenuti „transformatori“. OpenAI je s ChatGPT-om, na nikome izvan tvrtke poznati način, napravio ogroman model s milijardama parametara koje stotine tisuća grafičkih kartica, vrijednih desetine tisuća eura svaka, trenira gutajući podatke s interneta. U tom procesu model uči kako predvidjeti sljedeću riječ. Nakon tisuća pokušaja model postaje toliko dobar da prepoznaje činjenice, logičke i matematičke probleme, a rezultat svega je, na primjer, chatGPT. Ono što se dogodilo u posljednjih nekoliko godina, zapravo od pojave ChatGPT-a, jest svojevrsna utrka među velikim tehnološkim korporacijama koja će razviti bolji i veći model. Način na koji to rade jest da sam model čine većim, ali i samu bazu podataka kojima ga hrane te ga treniraju dok ne dođe na višu razinu kvalitete. Dakle, ukoliko imate stotinu tisuća grafičkih kartica, milijarde dolara koje želite potrošiti, bit ćete u prednosti jer imate moć kojom možete istrenirati najveći model. U odnosu na OpenAI, Meta je puno otvorenija u svom pristupu, dosta podataka i parametara objavljuje javno. Međutim, bez obzira na to da li je model javan ili ne, nitko tko nema resurse te modele ne može napraviti od početka.
Kako će, dakle, dolazak DeepSeeka promijeniti vaš rad i rad znanstvenika diljem svijeta?
- Znanstvenici koji žele koristiti velike jezične modele – dakle, sustave za obradu teksta – trenutno moraju koristiti već postojeće modele. Možemo ih donekle prilagoditi, ali ih ne možemo trenirati od nule jer je to preskupo. Praktično, DeepSeek je pokazao da je moguće istrenirati model na limitranom hardveru, još uvijek skupom, ali znatno jeftinijem nego što se do sada smatralo. Nadalje, DeepSeek je pokazao i da za treniranje ne trebaju tolike količine podataka kao što se prije činilo. Dakle, ne postoji više financijska barijera koja je to omogućavala samo tehnološkim divovima. Ako su njihovi podaci točni i ako su stvarno istrenirali DeepSeek v3 za pet milijuna dolara, to je barem 20 do 100 puta jeftinije nego što bi OpenAI-u trebalo za isto. To znači da bi sveučilišta poput mog mogla trenirati vlastite modele ako to žele. Možda to neće raditi, jer imaju druge prioritete, ali sada je to tehnički izvedivo. Time se izjednačavaju uvjeti, jer omogućuje akademskim institucijama da poboljšavaju modele prema svojim potrebama, umjesto da čekaju na velike kompanije. Potencijalno, ponajviše će od ovog razvoja situacije profitirati zemlje na marginama. Dakle, višestrukim smanjenjem ulaznih troškova koje omogućava otvorena priroda DeepSeeka, dozvolit će malim ekonomijama, malim zemljama u EU, ali i na drugim kontinentima, da istražuju AI za svoje konkretne potrebe. Znanost napreduje tako da mnogi istraživači rade na istom problemu i postupno ga poboljšavaju. Ovo omogućava da se to događa i u području velikih jezičnih modela, umjesto da čekamo da jedna kompanija donese odluku o tome što će razvijati.
Kako vidite razvoj u sljedećih šest mjeseci do godinu dana?
- Ne očekujem da će pojedinačna sveučilišta odmah početi trenirati vlastite modele, ali moguće je da će surađivati na tome. Na primjer, skupina britanskih sveučilišta ili Europska unija mogli bi razviti vlastiti model. Europa ima dovoljno hardvera za to – samo je pitanje organizacije. Također, EU ima strože propise o etici umjetne inteligencije, pa bi mogla iskoristiti ovu priliku da razvije modele koji su sigurniji i transparentniji.
Koje su glavne tehničke razlike između DeepSeek v3 i drugih modela poput onih OpenAI-a ili Mete?
- Glavna prednost DeepSeeka v3 je učinkovitije treniranje. Postigli su to nizom manjih optimizacija, od kojih su neke već postojale, a neke su sami razvili. Veliki AI modeli zahtijevaju masivne servere i ogromne energetske resurse. DeepSeek je optimizirao način na koji model prenosi podatke između servera i koristi paralelne obrade, čime je smanjio troškove. Također su primijenili "mixture of experts" pristup, što znači da prilikom svakog upita odgovara samo mali dio mreže, umjesto da cijeli model obrađuje zahtjev. To štedi energiju i smanjuje troškove. Mislim da razvoj DeepSeek modela R1 uistinu prijeti monopolu koje su određene tvrtke imale u ovom području.