IT4Innovations provozuje vedle svých velkých superpočítačů také menší komplementární systémy. Tyto systémy představují nastupující, netradiční nebo úzce specializované hardwarové architektury, které zatím nejsou v superpočítačových datových centrech běžné. 

Na podzim roku 2022 jsme uvedli do provozu první
z našich komplementárních systémů.

V komplementárních systémech jsou zároveň nasazené nové programové modely, knihovny a nástroje pro vývoj aplikací, které dokážou z tohoto hardwaru získat maximální výkon. Tyto systémy tak poskytnou vědeckým týmům možnost vyzkoušet a porovnat experimentální architektury s tradičními architekturami (např. x86 + Nvidia GP GPU) a příležitost optimalizovat a urychlit výpočty v nových oblastech výzkumu.

Komplementární systémy se skládají z několika hardwarových platforem. Všechny tyto části jsou postaveny na serverech společnosti Hewlett Packard Enterprise a dodala a implementovala je brněnská společnost M Computers.

Petr Plodík, obchodní ředitel M Computer, dodává: „Projekt komplementárních systémů v sobě zahrnuje nejnovější a nejdiskutovanější experimentální HPC a AI platformy současnosti. Některé z nich představují vůbec první dodávky těchto technologií do České republiky. Bylo pro nás radostí je na IT4Innovations dodat a naimplementovat“.

 

Technické specifikace komplementárních systémů, které sestávají z několika hardwarových platforem:

 

Hardwarová platforma 1 – ARM A64FX procesory

Výpočetní uzly první části komplementárních systémů jsou postaveny na ARM A64FX procesorech s integrovanou rychlou HBM2 pamětí. Jedná se v podstatě o fragment v posledních letech jednoho z nejvýkonnějších superpočítačů na světě Fugaku, instalovaném v japonském RIKEN Center of Computational Science (aktuálně je tento superpočítač druhý nejvýkonnější). Konfigurace se skládá z osmi výpočetních uzlů systému HPE Apollo 80, které jsou navzájem propojené 100Gb/s Infiniband sítí.

Konfigurace každého výpočetního uzlu:

  • 1× ARM A64FX, 48 jader, 2 GHz, 32 GB HBM2 paměti
  • 400 GB SSD
  • HDR Infiniband 100 Gb/s

 

 

Dva výpočetní uzly s ARM64FXDva výpočetní uzly s ARM64FX

 

 

Hardwarová platforma 2 – Intel procesory, Intel PMEM

Výpočetní uzly této části komplementárních systémů jsou postaveny
na technologiích Intel. Servery jsou osazeny procesory Intel Xeon třetí generace
a persistentními (non-volatilními) Intel Optane pamětmi o celkové kapacitě 2TB a 8TB na server.

Tuto část tvoří dva uzly HPE ProLiant DL380 Gen 10 Plus v konfiguraci:

  • 2× Intel Xeon Gold 6338, 32 jader, 2 GHz
  • 256 GB RAM
  • 8 TB a 2 TB Intel Optane Persistent Memory (NVDIMM)
  • 3,2 TB NVMe SSD
  • HDR Infiniband 100 Gb/s

 

Intel Optane Persistent Memory

 

Hardwarová platforma 3 – AMD procesory, AMD akcelerátory, AMD FPGA (Xilinx)

Třetí část komplementárních systémů je postavena na technologiích AMD. Servery jsou osazeny procesory AMD EPYC třetí generace, čtyřmi GP GPU kartami AMD Instinct MI100, které jsou navzájem propojené rychlou sběrnicí (AMD Infinity Fabric) a dále dvěma, výkonem odlišnými, FPGA kartami Xilinx Alveo. Xilinx je jedna z nejnovějších velkých akvizic společnosti AMD. Tuto část tvoří dva uzly HPE Apollo 6500 Gen 10+ v konfiguraci:

  • 2× AMD EPYC 7513, 32 jader, 2,6 GHz
  • 256 GB RAM
  • 3,2 TB NVMe SSD
  • 4× AMD Instinct MI100 (AMD Infinity Fabric Link)
  • FPGA Xilinx Alveo U250
  • FPGA Xilinx Alveo U280
  • HDR Infiniband 100 Gb/s

 

CPU část serveru HPE Apollo 6500 Gen10 Plus

 

Hardwarová platforma 4 – Edge server

Součástí komplementárních systémů je také edge server HPE EL1000, jehož úkolem je zpracovávat úlohy umělé inteligence přímo u zdroje dat, často mimo datové centrum. Server disponuje vysokým výpočetním výkonem pro AI inferenci díky GP GPU akcelerátoru NVIDIA Tesla T4, několika technologiemi pro komunikaci (10Gb Ethernet, Wifi, LTE) a zároveň nízkou spotřebou.

  • 1× Intel Xeon D-1587, 16 jader, TDP 65W
  • 1x NVIDIA Tesla T4, 16 GB, TDP 70W
  • 128 GB RAM
  • 1,92 TB SSD storage
  • Připojení:
    • 2x 10 Gbps Ethernet, 
    • WiFi 802.11ac,
    • LTE connectivity
  • Spotřeba do 500W

 

HPE Edgeline EL1000

Síťová infrastruktura

Propojení jednotlivých uzlů komplementárních systémů zajišťuje vysokorychlostní propojovací síť s nízkou latencí Infiniband HDR, která je postavená na přepínači Nvidia/Mellanox se čtyřiceti porty o rychlosti až 200 Gb/s. Součástí infrastruktury je také 10Gb Ethernet síť.

Software

Významnou součástí komplementárních systémů je software, který v sobě zahrnuje prostředí, kompilátory, numerické knihovny nebo nástroje pro vývoj a ladění algoritmů.

HPE Cray Programming Environment

HPE Cray Programming Environment je komplexní nástroj pro vývoj HPC aplikací v heterogenním prostředí. Podporuje tak všechny architektury komplementárních systémů. Obsahuje optimalizované knihovny, podporu nejpoužívanějších programovacích jazyků, nebo několik nástrojů pro analýzu, ladění a optimalizaci paralelních algoritmů.

Intel oneAPI

OneAPI jen nástroj společnosti Intel pro vývoj aplikací nasazených na heterogenních platformách – CPU, GP GPU, nebo FPGA. V komplementárních systémech se plánuje využít především pro FPGA karty.

AMD ROCm

ROCm je softwarový balík společnosti AMD, který obsahuje programovací modely, vývojové nástroje, knihovny, nebo integrační nástroje pro nejpoužívanější AI frameworky, které pracují nad AMD GP GPU akcelerátory.