V naší výpočetní farmě máme vyšší desítky serverů. V takovém množství už dává smysl průběžně testovat nové servery, měřit jejich výkon a dlouhodobě počítat, jestli se nám vyplatí nahradit staré novými nebo nikoliv.
Z nových generací CPU máme pocit, že se Intel s AMD snaží držet krok, bohužel ale (podle zveřejněných testů) za cenu velmi vysoké spotřeby. A spotřeba serverů je v našem případě parametr, který nás hodně trápí. Proto jsme vynechali nové Intel CPU a podívali se na nabídku od AMD.
Když jsme testovali Epyc procesory, tak jsme byli sice potěšeni velkým množstvím jader a rozumnou spotřebou, ale do naší výpočetní farmy se moc nehodily. Byl to ale očekávaný výsledek, protože v našem případě jsou lepší procesory s vyšší frekvencí. Pro AMD Epyc procesory jsme našli uplatnění ve storage cephech a serverech servírujících obsah, kde plní svou funkci velmi dobře.
Původně jsme samozřejmě chtěli testovat to nejlepší, co AMD nabízí - čili procesory jako Ryzen 9 7950X3D a podobné s TDP 120-170W. Při podrobném zkoumání jsme zjistili, že je pro ně doporučené vodní chlazení. Protože máme servery ve veřejných datacentrech, kde by za přítomnost vody na sále (i když v našem racku) nebyli moc rádi, tak jsme tuto variantu zatím zavrhli. Jako nejsilnější procesor tak zbyl AMD Ryzen 9 7900. Procesor má 12 jader, 24 vláken o základní frekvenci 3.7GHz a TDP 65W.
Měli jsme za cíl umístit komponenty do 1U case. V takovém případě je potřeba, aby pozice pamětí neblokovala proudění vzduchu. Běžné desktopové desky mají paměťové sloty umístěné tak, že blokují proud vzduchu. Nakonec nám zbyly 2 základní desky - MC13-LE0 a B650D4U. Základní deska od Gigabyte nám byla nabídnuta o polovinu levněji, než varianta od ASRock, takže rozhodování bylo snadné.
Výsledná sestava, kterou testujeme se tedy skládá z:
Naměřené spotřeby
Rozdíl mezi mezi maximální zátěží a zátěží v datacentru je hlavně v tom, že ve skladu máme dlouhodobě 20°C všude. V datacentru se server může ohřívat od okolních serverů a je tam rozdělení na studenou a teplou uličku.
Spotřeba v datacentru je orientační kvůli tomu, že jsme měření prováděli s jedním 1TB pevným diskem. Hodnotu spotřeby jsme odečítali z IPMI, zatímco ve skladu jsme tu hodnotu odečítali ze zásuvkového měřáku. Ve skladu jsme také viděli výrazný rozdíl mezi tím, co hlásil měřák (160W) a co hlásilo IPMI (180W). Co způsobuje v tomto případě rozdíl 20W nevíme.
1 paměťový modul
Server jsme sestavili, spustili a viděli jen černou obrazovku bez žádného stavového kódu. U Intelu jsme zvyklí, že se často dozvíme příčinu nestartování. Zde nikoliv. Nakonec jsme v manuálu našli poznámku, že při použítí jednoho paměťového modulu musíme paměť dát do slotu A1 místo A0. Po úpravě už server naběhl v pořádku.
Rozložení konektorů na desce
Protože se jedná o první prototypový kus, kde jsme se snažili maximálně šetřit, tak jsme se snažili zrecyklovat nějakou z 1U case, které máme na skladě. Do datacentra se snažíme dávat primárně servery s 2 zdroji, abychom využili redundantní A+B napájecí větve. Zde jsme bohužel narazili na to, že 8 pinový přídavný napájecí kabel a kabel pro komunikaci se zdroji byly příliš krátké.
Nakonec jsme museli tedy použít jednozdrojovou CSE-815 case, kde jsou kabely dostatečně dlouhé.
V tomto případě nám to moc nevadí, protože můžeme přijít o celý rack serverů a na službu to bude mít minimální dopad.
Věříme, že by se základní deska dobře vešla do kratší (CSE-813M) verze, ale tam si nejsme jisti výkonem větráků.
Teplota procesoru
V datacentru vidíme dlouhodobou teplotu ve 100% zátěži oscilující okolo 80°C - 85°C. Kritické hodnoty pro procesor 95°C (Upper Non-Critical), resp. 98°C (Upper Critical). Větráky běží na plné otáčky okolo 11000 RPM. Server je v tomto případě umístěn na nejvyšší pozici v racku. Zkusíme jej přesunout někam níž. V dalším kroku také zkusíme vyměnit větráky za 15000 RPM a uvidíme, jestli se nám podaří snížit teplotu.
Frekvence jednotlivých jader procesoru s turbo boostem se pohybuje v rozmezí 4620 Mhz - 5000 Mhz.
S ohledem na výše zmíněné nám ale dává smysl, že pro X verze procesoru s TDP 120-170W je doporučené vodní chlazení.
IPMI
Management je proti Supermicro velmi podobný. Pro nás je hlavně důležitá podpora IPv6, která je splněna, a podpora Redfish protokolu, který je také dostupný. Do monitoringu jsme tedy management serveru přidali bez úprav šablony, kterou používáme na jiné servery.
Na výše uvedeném grafu platí, že čím více zpracovaných záznamů, tím lépe.
Srovnání děláme s různými verzemi Intel procesorů - generace E5-2600v4 až nejnovější Scalable (vždy se držíme okolo 10 jader na CPU), ale i E-2300. Nemá smysl dělat konkrétní srovnání, protože naše použití je hodně specifické. To můžeme udělat příště u webových aplikací. Důležité pro nás ale je fakt, že AMD má výrazně vyšší výkon, než ostatní.
Ještě nějakou dobu nás čeká testování, ale z předběžných výsledků to vypadá, že AMD v našem použítí dává smysl. I cenově se jedná (když zrecyklujeme supermicro case) o relativně levný upgrade, který nám nejspíš ušetří slušné množství místa i elektřiny.
Těšíme se na testování výkonu na webových a databázových serverech, kde čekáme také velmi dobré výsledky. Tam ale budeme muset vyřešit nákup správných skříní nebo celých sestav, protože servery s jedním zdrojem si dovolíme použít jen u větších clusterů, kde výpadek části serverů nevadí.