První zkušenosti českých vědců s pilotním testováním GPU části superpočítače LUMI

Třetí nejvýkonnější superporpočítač na světě a jednička v Evropě je plně v provozu. Druhá pilotní fáze superpočítače LUMI, která využívá grafické procesory, byla dokončena a LUMI je tak od února 2023 oficiálně připraven sloužit evropským vědcům, a to i těm českým. Všech 10 240 grafických procesorů superpočítače LUMI splnilo očekávaný výkon.

Jaké byly první zkušenosti českých vědců s pilotním testováním GPU části superpočítače LUMI v roce 2022?

David Číž z IT4Innovations řeší trénování modelů strojového učení na grafických kartách AMD v prostředí HPC pomocí nástroje TensorFlow. Na superpočítači LUMI vytvořil benchmarky, které poslouží dalším uživatelům LUMI, a také je porovnal se stejnými benchmarky provozovanými na superpočítači Karolina v IT4Innovations.

K pilotnímu testování LUMI dodává: „Byl jsem ohromen tím, jak vše dobře fungovalo již při pilotním testování systému. Dokumentace byla přehledná, návody byly srozumitelné a příklady užitečné. Díky tomu bylo připojení k systému LUMI a využití jeho rozsáhlých zdrojů rychlé a snadné. Vytvořit potřebná prostředí s vhodným softwarem bylo jednoduché díky předpřipraveným konfiguračním souborům EasyBuild. Tým podpory vždy rychle odpověděl na mé dotazy a pomohl mi. Musím s potěšením konstatovat, že systém již v pilotní fázi běžel rychle a hladce a jeho používání bylo intuitivní.“

Sergiu Arapan z IT4Innovations se věnuje výzkumu dvoudimenzionálních van der Waalsových materiálů, slibných kandidátů pro budoucí termoelektrické materiály a kompaktní spintronické aplikace. Pro studium strukturních a fyzikálních vlastností těchto materiálů využívá nejmodernější výpočetní metody.

Ke své první zkušenosti se superpočítačem LUMI říká: „Použití výpočetních uzlů s grafickými procesory AMD může značně urychlit naše výpočty elektronické struktury, respektive návrhy nových materiálů. Náš kód, který používáme pro výpočty na superpočítači Karolina, jsme vyzkoušeli nasadit v rámci pilotního testování i na grafické procesory AMD superpočítače LUMI. Některé části kódu musíme pro plné využití superpočítače LUMI upravit, a to z důvodu jeho odlišné architektury. Při pilotním nasazování kódu jsme zjistili, že kompilátor Cray a dostupné matematické knihovny zvyšují výkonnost kódu. Oceňujeme také profesionalitu pracovníků týmu podpory a jednoduchou a přehlednou online dokumentaci.“

Zeptali jsme se také Oldřicha Plchota z Fakulty informačních technologií Vysokého učení technického v Brně:

Byl jste jedním z prvních českých vědců, kteří získali jedinečnou příležitost využít superpočítač LUMI, a to v rámci testování jeho GPU části. Vašemu projektu Training Speaker Embedding Extractors Using Multi-Speaker Audio with Unknown Speaker Boundaries bylo alokováno 8 000 uzlohodin, můžete nám tento svůj výzkum přiblížit a vysvětlit, proč využíváte superpočítače?

„Projekt Training Speaker Embedding Extractors Using Multi-Speaker Audio with Unknown Speaker Boundaries je specifický svými nároky na množství zpracovávaných audio dat, které ale nemusí být striktně anotované. Naším cílem bylo natrénovat extraktor embeddingů, které se využívají v biometrických aplikacích pro verifikaci mluvčího. Zjednodušeně řečeno, pro každou z páru promluv extrahujeme embedding (vysoce dimenzionální vektor, extrahovaný z neuronové sítě) a následně jej porovnáme například pomocí jejich kosínové vzdálenosti a rozhodneme, zda se jedná o embeddingy od stejného mluvčího, či od dvou různých mluvčích. Embedding extraktor je hluboká konvoluční neuronová síť a námi navržený algoritmus pro její trénování dokáže využít slabě anotovaná data a zároveň optimalizovat objektivní funkci pro identifikaci mluvčího. Slabě anotovanými daty rozumíme takové trénovací nahrávky, které mohou obsahovat libovolné množství mluvčích a během trénování máme ke každe nahrávce informace pouze o tom, zda se někteří z mluvčích nacházají kdekoliv v nahrávce. Tento přístup umožňuje využít velkého množství dat získaných volně z internetu a obejít tak současný zásadní problém, kdy se často potýkáme s malým množství trénovacích dat pro čím dál větší neuronové sítě. Získávání a doplňování takových dat je výrazně lacinější, než nechat data anotovat a segmentovat ručně. Výpočetní výkon byl tedy v zásadě potřeba pro natrénování této veliké neuronové sítě na zhruba 10x větším množství dat než je typické pro ručně anotovaná data. Jelikož algoritmus iterativně zpřesňuje svůj odhad, kde se jednotliví mluvčí ve slabě anotovaných datech vyskytují, tak bylo potřeba i výrazně větší množství iterací.“

Jaká byla Vaše první uživatelská zkušenost se superpočítačem LUMI?

„Pro naše výpočty využíváme pouze uzly s grafickými akcelerátory a při naší prvotní zkušenosti s LUMI a AMD akcelerátory v rámci pilotního testování jsme zaznamenali několik výzev. Kupříkladu na Karolině často využíváme možnost připojení squashfs nebo tar souboru přes fusermount a tato možnost nám na LUMI chybí, implementace této funkcionality nám byla slíbena. Jsme rádi za možnost využít zbývající výpočetní čas na LUMI až do konce března.“

O výpočetní čas pro nekomerční účely si instituce mohou zažádat v rámci veřejných grantových soutěží. Grantová soutěž je vypisovaná 3x ročně pro zaměstnance výzkumných, vědeckých a vzdělávacích organizací.

Publikováno: 21. 2. 2023