Díky svým masivně paralelním výpočetním schopnostem se staly klíčovou technologií pro firmy, které hledají rychlost a efektivitu. Pojďme se ve stručnosti podívat na historii GPU computingu, v čem mohou GPU servery pomoci právě vaší společnosti, a také jaká jsou rizika a výzvy při jejich nasazování.
Trocha historie, aneb jak to všechno začalo
O zrychlení, zefektivnění a zlevnění zpracování dat usilujeme od nepaměti, použití speciálních přídavných karet a čipů pro zvýšení výpočetního výkonu proto není žádná novinka. Vzpomeňme si třeba na legendární matematický koprocesor Intel 8087 z roku 1980, nebo 3D akcelerátory pro výpočty graficky náročných scén z poloviny 90. let.
Na konci 90. let nicméně došlo k takovému posunu v technologiích a schopností čipů, až se zdálo, že specializované karty pomalu vymizí. Výkon procesorů stoupal raketovou rychlostí, instrukční sady se staly velmi komplexními a grafické karty začaly zvládat nejen generování 3D scén, ale i přidávání grafických efektů, materiálů nebo generování osvětlení scény. Zdálo se, že vše potřebné zvládnou základní komponenty. Jistě, neustále jsme tu měli oblast např. akcelerátorů pro zpracování videa z profesionálních kamer nebo hardwarové bezpečností moduly pro kryptografii, jejich použití ale bylo spíše v oblasti velmi specifických profesí a rozhodně se nejednalo o technologii, se kterou se v nějaké podobě seznámí běžný člověk.
NVIDIA a technologie CUDA
V roce 2006 (ano, už téměř před 20 lety) přišel průlom v podobě technologie CUDA. Inženýři NVIDIA si uvědomili, že grafické karty dosahují výkonů, které umožňují využití výrazně nad rámec “kreslení obrázků”. Například ke zpracování dat a provádění matematických operací. V některých případech dokonce i s výrazně vyšším výkonem než při výpočtech pomocí CPU.
A tehdy se zrodil GPU computing.
Po úspěchu technologie CUDA se podobnou cestou vydaly i další firmy. AMD/ATI představilo technologii ROCm, která nabízí obdobné možnosti jako CUDA, avšak zaměřuje se na optimalizaci výkonu grafických karet od AMD/ATI. Stejně jako v konkurenčním boji s Intelem na poli procesorů (CPU), soupeří AMD s NVIDIÍ na trhu grafických karet a AI akcelerátorů. Obě společnosti se neustále snaží trumfnout ve vývoji, ať už jde o vyšší výkon, větší kapacitu paměti, lepší energetickou efektivitu nebo snížení produkce odpadního tepla.
Proč grafiky počítají rychleji a dokáží i myslet?
Grafické karty byly od počátku zaměřené na specifické druhy matematických operací – na masivně paralelní operace a operace s maticemi. V roce 2006 se teprve rodí procesory s více jádry (Intel Core 2 Duo je vydán v polovině roku 2006), GPU ale v té době už běžně obsahují desítky jader. Začínají se objevovat modely se 128 grafickými jádry a pomocí technologie SLI se vrací možnost spojovat více karet dohromady a rozkládat zátěž.
Další výhoda GPU leží v jejich specifickém zaměření. Zatímco procesory jsou navrhované pro řešení univerzálních úloh, grafické čipy umožňují vykonávat pouze malý rozsah úkolů, ale za to velmi rychle a efektivně. Typickými ukázkami úloh, která jsou pro GPU jako dělané, je procházení grafů a statistické výpočty – jádro toho, čemu dnes říkáme umělá inteligence. Zpracování stromů, hledání cest, počítání s maticemi, to vše dokáže těžit právě z masivní paralelizace, kterou mají GPU zakódovanou ve své “DNA”.
Více informací, jak AI pracuje uvnitř, a proč nejen využívá, ale přímo vyžaduje podporu pro rozsáhlou paralelizaci výpočtu, naleznete ve výborné přednášce předního českého odborníka na AI Jana Romportla, která se odehrála na půdě brněnské hvězdárny a planetária (záznam: https://www.youtube.com/watch?v=kqm_malAN98).
Kde vám GPU servery pomohou a co naopak přenechat CPU?
GPU servery mají smysl všude tam, kde se dá výpočetní úloha rozdělit do mnoha nezávislých částí, které lze zpracovávat paralelně.
Typickými příklady jsou:
- AI a strojové učení: Ideální pro trénink i inferenci modelů.
- Simulace a výpočty ve vědě a výzkumu: Fyzikální simulace a složité modelování.
- Blockchain a kryptoměny: Těžba i analýza transakcí.
Oproti tomu úlohy, které nelze paralelizovat, nebo které jsou závislé na okolních stavech z použití GPU nijak těžit nebudou. GPU tak nelze použít pro zrychlení relačních databází nebo odpovědí webového serveru.
Výzvy GPU computingu – vysoké náklady, spotřeba energie a hardwarové limity
Každá nová technologie s sebou přináší i nevýhody. GPU computing má hned tři: cenu, energetickou náročnost a omezené hardwarové zdroje.
Moderní grafické karty jsou velmi drahé a energeticky náročné. Zatímco high-end procesory AMD EPYC stojí vyšší desítky tisíc korun, spotřebují nižší stovky wattů energie a generují zvládnutelné množství odpadního tepla, GPU stojí stovky tisíc až miliony korun, “žerou” až 1kW energie a produkují více než 500W odpadního tepla. S tím je nutno počítat nejen v návrhu samotné karty, ale hlavně při výběru serveru a datacentra, ve kterém poběží. Jeden středně výkonný GPU server může snadno zabrat příkon navržený pro celý rack a generovat takové množství tepla, že může být problém jej bezpečně odvést. Kvůli tomu lze do datacentra umístit pouze výrazně menší množství GPU serverů než v případě klasických serverů, nebo je potřeba výrazně posílit jak rozvody elektřiny tak i chlazení. To vše zvyšuje provozní náklady na GPU server a tedy koncovou cenu pro zákazníka.
Další výzva, kterou GPU přináší, jsou omezené hardwarové zdroje. Zatímco do klasického serveru není problém umístit terabyty operační paměti, špičkové GPU obsahují pouze 64-192 GB VRAM a nelze ji přidat. Úlohy pracující s velkým množstvím dat je tedy nutno rozkládat na více grafických karet, což vede k dalším nárokům na energii a chlazení.
Věda a technika na prvním místě. Učení AI jen jako třešnička na dortu
Ve valné většině případů využíváme dnes GPU servery pro vědecké a technické simulace a renderování obrazu a videa. Hodně se však mluví i o potřebě pro AI a velké jazykové modely. Řada firem z oblasti e-commerce vidí potenciál AI převážně v oblasti zákaznické podpory, tedy jako pomocníka uživatele s nákupem.. K tomu je nutné zmínit jeden zádrhel, o kterém se až tak nemluví.
Zatímco pro samotné generování odpovědi natrénovaného AI modelu potřebujete relativně malý výkon, i na pouhé doučení modelu o vaší doménovou znalost (seznam produktů a jejich parametry, historii odpovědí lidských agentů zákaznické podpory a další) potřebujete výkon řádově vyšší. A to i při použití již předtrénovaných modelů jako je např. technologie Ollama. Na generování odpovědí vám stačí server s jednou až čtyřmi kartami NVIDIA H100, na doučení modelu však karet potřebujete minimálně 8. Přidávání dat do modelu je prostě velmi drahé a je potřeba s tím při návrhu řešení počítat.
Když GPU nestačí – další specializované akcelerátory
V dnešní době se mluví převážně o GPU, nesmíme ale zapomenout na existenci dalších speciálních akcelerátorů.
Pro aplikace v oblasti počítačové bezpečnosti a kryptografie existuje mnoho modelů HSM (hardware security module), které přinášejí nejen nekompromisní zabezpečení šifrovacích klíčů (ze zařízení je nelze nijak získat a jedinou možností je fyzická krádež zařízení*), ale i úctyhodný šifrovací výkon. HSM se používají například ve finanční sféře nebo pro podepisování DNS záznamů při použití technologie DNSSEC. S nástupem směrnice NIS2 lze očekávat zvýšený zájem právě o tyto moduly.
Dalším specifickým akcelerátorem jsou karty TPU (tensor processing unit), nebo ASIC moduly pro těžbu kryptoměn a práci s technologií blockchain.
Poměrně populární se také stávají programovatelná pole (FPGA), tj. čipy, které z výroby neobsahují pevnou logiku a až koncový zákazník si na nich sestavuje konkrétní obvod podle požadavků. Jejich výhodou je vysoká efektivita, nižší spotřeba než CPU/GPU a možnost snadného přeprogramování. Nevýhodou jsou však omezené možnosti oproti klasickým aplikacím, výpočtům pomocí GPU nebo vysoce specializovaným ASIC systémům. FPGA proto zatím hrají roli hlavně v prototypování a v kusové výrobě, například u specializovaných síťových prvků, systémů pro filtrování a analýzu provozu ("pračky" provozu) nebo některých řešení pro umělou inteligenci, kde je vyžadována velká flexibilita a vysoká efektivita.
Závěrem
Grafické karty a další akcelerátory již dnes nejsou jen nástrojem pro špičkové technologie, ale staly se klíčovou součástí moderního IT. Jejich použití může výrazně zrychlit a zefektivnit procesy ve vědě, výzkumu, AI či e-commerce. Přesto je důležité přistupovat k jejich nasazení strategicky – vyhodnotit nejen přínosy, ale i náklady, energetické nároky a vhodnost pro konkrétní úlohy.
Pokud přemýšlíte o využití GPU serverů nebo jiných specializovaných akcelerátorů, rádi vám pomůžeme najít optimální řešení na míru vašim potřebám. Kontaktujte vshosting a společně objevíme nové možnosti, jak posunout výkon vašeho IT infrastruktury na další úroveň.
Požádejte o bezplatnou konzultaci a posuňte svůj výkon IT na vyšší úroveň!
O autorovi
Ondřej Flídr je seniorní infrastrukturní administrátor ve společnosti vshosting, specialista na návrh a správu vysoce dostupných IT řešení, (ne)využití veřejných cloudů a hybridních nasazení. Aktivně sdílí své odborné znalosti prostřednictvím článků a přednášek na témata jako disaster recovery či dynamika veřejného cloudu.
*Pokud je šifrovací klíč uložen v souboru na disku, útočník jej může vzdáleně ukrást – jednoduše se připojí na server a zkopíruje si soubor k sobě. Při použití HSM je klíč doslova vypálen do čipu a jedinou cestou, jak se jej zmocnit, je fyzicky se vloupat do datacentra, zařízení odpojit a odnést.