Slama – Slovanský velký jazykový model pro umělou inteligenci

Výzva: 29. Veřejná grantová soutěž; OPEN-29-48

Hlavní řešitel: Aleš Horák

Instituce: Masarykova univerzita

Oblast: informatika

 

 

Projekt Slama (Slavonic Large Foundational Language Model for AI) se zaměřuje na vytvoření nového základního jazykového modelu, který se soustředí na hlavní slovanské jazyky píšící latinkou (čeština, slovenština, polština, ...). Hlavním cílem projektu je prozkoumat výkonnostní rozdíly mezi nejmodernějšími předtrénovanými vícejazyčnými modely (kde většinu trénovacích dat představují anglické texty) a modelem přizpůsobeným speciálně pro slovanskou jazykovou skupinu. Výzkum se zaměří na vývoj generativních modelů, jejichž trénovací data jsou vyváženější ve prospěch slovanské jazykové skupiny než angličtiny. Proto by měly poskytovat lepší výsledky při použití v nástrojích umělé inteligence zpracovávajících především slovanské jazyky. Výsledný fundamentální model pak bude možné snadno použít v řadě úloh umělé inteligence.


3D rekonstrukce pro manipulaci s objekty

Výzva: 29. Veřejná grantová soutěž; OPEN-29-7

Hlavní řešitel: Varun Burde

Instituce: České vysoké učení technické v Praze

Oblast: Informatika

 

 

Manipulace s objekty je základní schopností mnoha robotů. Předpokladem manipulace je odhad pózy objektu, kdy je cílem odhadnout polohu a orientaci objektu vzhledem k robotovi, protože tyto informace informují robota o tom, jak s objektem komunikovat (jak se k němu přiblížit, jak ho uchopit atd.). Současný nejmodernější algoritmus odhadu pózy objektu se opírá o určitou reprezentaci pro odhad pózy objektu. Získání vysoce přesných CAD modelů může být náročné a zdlouhavé a navíc může vyžadovat profesionální hardware, například laserový skener. Náš předchozí výsledek ukázal, že nejmodernější metody dokáží dobře rekonstruovat jednoduché objekty, ale aby bylo možné pojmout širší škálu objektů, je potřeba současnou generaci algoritmů výrazně vylepšit v několika osách, jako je doba běhu, odolnost vůči změnám prostředí a přesnost rekonstrukce/reprezentace. Cílem našeho výzkumu je zrychlit techniky 3D rekonstrukce a využít moderní implicitní reprezentaci objektů, což umožní nasazení v reálném čase v robotice a přizpůsobení složitějším objektům. Výpočetní infrastruktura IT4Innovations poskytuje platformu pro práci a trénink s rozsáhlými soubory dat. Výzkum je součástí Studentské grantové soutěže ČVUT č.: SGS23/172/OHK3/3T/13.


High Performance Language Technologies (HPLT)

Výzva: 28. Veřejná grantová soutěž; OPEN-28-66

Hlavní řešitel: David Antoš

Instituce: CESNET

Oblast: Informatika

Velké jazykové modely (LLM) stojí za nedávným pokrokem v oblasti umělé inteligence, zejména v oblasti užití přirozeného jazyka při komunikaci s počítači. Předtrénované LLM jsou pravidelně používány v chatbotech, vyhledávačích, vydávají doporučení, klasifikují řeč a dokumenty a umožňují mnoho podobných aplikací. Trénování LLM je v rukou několika velkých společností, které většinou nevěnují velkou pozornost reprodukovatelnosti, minimalizaci zkreslení a energetické účinnost, stejně jako rovnou pozornost všem jazykům.

Cílem projektu HPLT, který koordinuje Univerzita Karlova v Praze a podpořen je programem Horizont Evropa, je trénování otevřených jazykových modelů pro více než 50 jazyků. Projekt bude využívat přes 7 PB archivovaných webových stránek, paralelních korpusů a dalších zdrojů. S využitím výpočetní síly IT4Innovations bude vybudována největší kolekce otevřených, reprodukovatelných jazykových a překladatelských modelů. Projekt bude dokumentovat, jak byla data extrahována a jak byly modely budovány, a zajistí tak nejvyšší standardy otevřené vědy, reprodukovatelnosti a transparentnosti.


Vícedokumentová sumarizace odborné literatury

Výzva: 28. Veřejná grantová soutěž; OPEN-28-72

Hlavní řešitel: Martin Dočekal

Instituce: Vysoké učení technické v Brně

Oblast: Informatika

 

Nikdy v dějinách nebylo publikováno tolik vědeckých prací jako v dnešní době. Tento fakt způsobuje, že i pro odborníky je náročné zůstat v obraze a je velmi jednoduché přehlédnout relevantní informace. Dnes běžně vznikají články shrnující aktuální stav poznání na dané téma, či autoři ve svém článku vyčlení speciální sekci shrnující příbuzné práce. Díky těmto textům je pak snadnější vnímat informace v širším kontextu.

Vypracování takovýchto textů vyžaduje nemalé lidské úsilí, ale díky pokroku ve strojovém učení je možné vyvinout modely, které pomohou s jejich tvorbu, či umožní uživateli si vytvořit shrnutí na vyžádání. Cílem projektu Martina Dočekala je využít infrastrukturu IT4Innovations k natrénování neuronové sítě schopné generovat shrnutí dané skupiny vědeckých článků.


 

Deterministický simulátor dopravního toku – II. fáze

Výzva: 24. Veřejná grantová soutěž; OPEN-24-65
Hlavní řešitel: Martin Šurkovský
Instituce: VŠB-TUO, IT4Innovations
Oblast: Informatika

 

 

Deterministický simulátor dopravního toku se používá pro testování algoritmů řešících optimalizaci dopravního toku ve městě. Pro představu, běžná navigace naviguje auto po městě tak, že preferuje nejkratší vzdálenost nebo nejkratší čas dojezdu. To může vést k vytváření zácp ve městě. S vyžitím dopravního simulátoru se snažíme optimalizovat celkový dopravní tok tak, aby k zácpám ideálně nedocházelo vůbec. Determinističnost simulátoru zajistí to, že pro stejné vstupní nastavení je výsledek simulace vždy totožný. Tato vlastnost bývá zřídka kdy splněna v prostředí superpočítače a je důležitá z pohledu porovnávání výsledků a jejich opakovatelnosti. Na projektu se podílí firma Sygic a je zároveň řešen v rámci evropského projektu HORIZON 2020 – EVEREST, který se zabývá usnadněním optimálního využívání heterogenních výpočetních zdrojů, tj. jak klasických procesorů, tak specializovaných akcelerátorů.


THEaiTRE GPT2 Recycling

Výzva: mimořádná výzva 24. Veřejné grantové soutěže, OPEN-24-11
Hlavní řešitel: Rudolf Rosa
Instituce: Univerzita Karlova 
Oblast: Informatika

 

Ostravské superpočítače jsme využili v rámci našeho výzkumu a vývoje na Ústavu formální a aplikované lingvistiky na Matematicko-fyzikální fakultě Univerzity Karlovy. Díky výkonným GPU s vysokou kapacitou paměti jsme mohli natrénovat českou verzi velkého neuronového generativního jazykového modelu GPT-2. Generativní jazykový model je nástroj, který například umí pro zadaný začátek textu navrhnout jeho možné pokračování; tj. například pro text "Ráno jsem vstal a šel do [...]" může navrhnout například "práce" nebo "koupelny". Model GPT-2 byl dosud dostupný pouze v angličtině, jeho českou verzi využíváme například pro automatické generování popisů rentgenových snímků či pro generování scénářů divadelních her v projektu THEaiTRE. 


Odhadování pozic objektů z obrázků   

Výzva: mimořádná výzva 24. Veřejné grantové soutěže, OPEN-24-10
Hlavní řešitel: Vladimir Petrík
Instituce: České vysoké učení technické v Praze
Oblast: Informatika

Naším cílem je vytvořit algoritmus pro automatické učení dovedností pro robotickou manipulaci (např. sestavení nábytku) na základě videí stažených např. z YouTube. U stažených videí ale neznáme typ kamery a její kalibraci, takže je obtížné odhadnout pozice objektů v zaznamenané scéně. Řešení nabízí FocalPose, naše metoda založená na render-and-compare strategii, která byla navržena pro odhadování pozice mezi kamerou a objektem společně s ohniskovou vzdáleností kamery. Vstupem do FocalPose je RGB obrázek, který zobrazuje známý objekt. Metoda FocalPose je trénována na milionech synteticky generovaných snímcích pomocí několika výpočetních uzlů na superpočítači Karolina, což vede k robustnímu algoritmu, který funguje i na fotkách komplexních scén. Práce byla publikována na CVPR 2022, jedné z hlavních konferencí o počítačovém vidění, kde bylo letos přijato 2064 ze 8161 zaslaných příspěvků.


Transfer Learning pro extrakci klíčových frází

Výzva: 21. Veřejná grantová soutěž
Hlavní řešitel: Ing. Martin Dočekal

Instituce: Fakulta informačních technologií VUT v Brně
Oblast: Informatika

Čím dál tím více se ukazuje, že v dnešní záplavě dat je těžké najít relevantní dokument obsahující informace, které hledáme. Došli jsme do stavu, že je pro člověka těžko uchopitelné vyhledávání informací bez použití automatického nástroje, jakým je například vyhledávač. Dokonce však i za použití vyhledávače dostáváme velké množství dokumentů o jejichž relevanci už musí rozhodnout sám uživatel. S tímto problémem mohou pomoci klíčové fráze, které přibližují obsah dokumentu v kompaktní formě. Běžná klíčová fráze má několik málo slov. Pokud se jedná pouze o jedno slovo nazýváme ji známějším pojmem, a to sice klíčovým slovem.

V našem projektu se zaměřujeme na získávání klíčových frází z rozsáhlých (průměrně přes 83 000 slov) dokumentů v českém jazyce jako jsou knihy. Použité dokumenty jsou navíc zatíženy chybami, jelikož byly vytvořeny automatickou digitalizací. Extrahované klíčové fráze z tohoto druhu dokumentů by mohly být mimo jiné použity knihovnicemi a knihovníky při jejich práci.

Pro hledání klíčových frází používáme rozsáhlé neuronové sítě, které jsou schopny vytvořit kontextově závislé reprezentace slov. Na základě těchto reprezentací následně síť rozhodne, zdali danou sekvenci slov lze považovat za klíčovou frázi.


VYSOCE VÍCEJAZYČNÝ NEURÁLNÍ STROJOVÝ PŘEKLAD VYUŽÍVAJÍCÍ UČENÍ BEZ UČITELE

Výzva: 20. Veřejná grantová soutěž
Hlavní řešitel: Ing. Josef Jon

Instituce: Vysoké učení technické v Brně
Oblast: Informatika

 

 

Strojový překlad lidského jazyka učinil velký pokrok v souvislosti s vývojem strojového učení. Texty přeložené neurálním strojovým překladem (NMT) jsou za určitých podmínek dokonce srovnatelné s překladem lidským. Podmínkou je, že pro daný jazykový pár je k dispozici velké množství paralelních, člověkem přeložených textů pro trénování modelu. Těch je však velmi málo. Zlepšení kvality NMT v ostatních jazycích je založeno na předtrénovaných modelech neuronových sítí pro reprezentaci jazyka. Ty umožňují využít velkých objemů textů nalezených na internetu, do nichž je však uměle přidán šum, kdy některá slova jsou vypuštěna, nebo nahrazena. Úkolem je zrekonstruovat původní text. Trénováním na této úloze se model vlastně mimochodem učí reprezentovat jazyk a porozumět mu, protože tyto schopnosti jsou nutné k tomu, aby text dokázal správně opravit. Předtrénované modely lze doladit ke koncovým úkolům pomocí výrazně menšího množství dat, než kdyby se trénovaly od začátku. Ukazuje se, že čím více je způsob přidávání šumu v předtrénovací fázi podobný koncovému úkolu, tím lepší je výsledek. Cílem inženýra Jona, který pro svůj projekt získal téměř 1,2 milionu jádrohodin, je prozkoumat varianty šumových funkcí, jež jsou podobné překladu (např. nahrazení slova nebo fráze jeho překladem), a výsledné modely použít pro překlad v jazykových párech s malým množstvím trénovacích dat.


DRVOSTEP

Výzva: 16. Veřejná grantová soutěž
Hlavní řešitel: Martin Kolář, M.Sc.

Instituce: Vysoké učení technické v Brně
Oblast: Informatika

 

Více než 1,5 milionu jádrohodin získal Martin Kolář z Vysokého učení technického v Brně na výzkum kvality překladu pro velký počet jazyků. Současný výzkum se obecně zaměřuje na vývoj metod, které se učí překládat text mezi dvěma jazyky, přičemž na překlad mezi více než 6 jazyky se prozatím nikdo nezaměřil. Cílem projektu Martina Koláře je zlepšit kvalitu překladu, kvantifikovat složitost jazyků a tím odpovědět na otázku, jaký je rozdíl mezi kvalitou přímého překladu oproti překladu s využitím společného jazyka. S pomocí našeho superpočítače chce výzkumný tým z VUT v Brně analyzovat stovky jazyků a vytvořit volně dostupný online překladač.



VÝVOJ KNIHOVEN A NÁSTROJŮ LABORATOŘE PRO VÝZKUM INFRASTRUKTURY

Výzva: 15. Veřejná grantová soutěž
Hlavní řešitel: Petr Strakoš a Lubomír Říha

Instituce: IT4Innovations
Oblast: Informatika

 

Kolegové z Laboratoře pro výzkum infrastruktury IT4Innovations získali téměř 1,5 milionu jádrohodin pro vývoj nástrojů, které používají uživatelé našich superpočítačů pro výzkum. Klíčovými tématy projektu jsou energetická efektivita v HPC, vývoj numerické knihovny ESPRESO a vizualizačních nástrojů. Přidělené výpočetní zdroje využije výzkumná skupina k analýze chování nových aplikací a jejich dynamickému ladění s cílem snížit spotřebu energie při jejich spouštění na superpočítači. U knihovny ESPRESO, vlajkové lodi našeho výzkumu, bude řešeno například vylepšení výkonu při spuštění na jednom výpočetním uzlu a nasazení na systémech s grafickými akcelerátory. Co se vizualizačních nástrojů týká, chtějí kolegové vytvořit open source nástroj pro vizualizace vědeckých dat, který bude dostupný uživatelům naší infrastruktury. Vizualizační nástroj bude založený na populární 3D sadě softwaru Blender, konkrétně na jeho verzi 2.80, která má být vydána v 1. čtvrtletí letošního roku.


ANALÝZA PŘÍČIN A PROGNÓZY UDÁLOSTÍ PCRF V SÍTÍCH 4G A 5G

Výzva: 15. Veřejná grantová soutěž
Hlavní řešitel: Miroslav Vozňák

Instituce: IT4Innovations a Fakulta elektrotechniky a informatiky VŠB-TUO
Oblast: Informatika

 

Miroslav Vozňák a jeho výzkumný tým z Fakulty elektrotechniky a informatiky VŠB – Technické univerzity Ostrava získal téměř půl milionu jádrohodin pro projekt, jehož cílem je zvýšit spolehlivost a snížit náklady na udržování nových technologií zajišťujících provoz 4G a 5G mobilních sítí. Tento výzkum probíhá na základě spolupráce s centrem kompetence pro vývoj sítí provozovaným T-Mobile Czech Republic a.s. Společně chtějí nalézt klíčové zdroje dat, shromáždit informace o technických problémech a identifikovat ukazatele výkonu právě pro zvýšení spolehlivosti sítě a zabránění problémům v síti. Výsledky zpracování dat pomocí superpočítače budou sloužit pro plánované využití strojového učení například pro odhalení a klasifikaci anomálií v mobilních sítích.


SROVNÁNÍ METOD VNOŘENÍ SLOV

Výzva: 12. Veřejná grantová soutěž
Hlavní řešitel: Ing. Martin Fajčík

Instituce: Vysoké učení technické v Brně
Oblast: Informatika

 

Způsob číselné reprezentace slov používaný v počítačovém zpracování přirozeného jazyka se označuje jako technika vnoření slov. Spočívá ve vytvoření vektoru pro každé slovo. Pokročilé metody vnoření slov nacházejí uplatnění v různých oblastech souvisejících například s rozpoznáváním řeči a překladem. Cílem projektu Ing. Martina Fajčíka z Vysokého učení technického v Brně, který získal 850 000 jádrohodin, je experimentovat se současnými nejmodernějšími technikami vnoření slov (statistickými i prediktivními) jejich učením pomocí rozsáhlých datových souborů. Tým vědců chce identifikovat slabá místa různých technik a navrhnout způsoby pro jejich další zlepšení. Práce na projektu zahrnuje také pochopení vztahů vektorů slov s jejich skutečným významem. Zajímavostí bude i zpracování homonym, synonym, antonym a hyponym. Z modelů je možné odhadnout nejen vztahy mezi slovy, které se „naučily“, ale dokonce vyjádřit i míru těchto vztahů a pracovat se slovní aritmetikou (například jak jsou si slova podobná). Uveďme si příklad: Když od vektoru slova král odečteme vektor slova muž a přidáme vektor slova žena – dostaneme vektor blízký jakému slovu?


ESPRESO FEM – MODUL PŘENOSU TEPLA

Výzva: 10. Veřejná grantová soutěž
Hlavní řešitel: Ing. Tomáš Brzobohatý, Ph.D.

Instituce: IT4Innovations
Oblast: Informatika

Projekt Dr. Tomáše Brzobohatého „ESPRESO FEM – Heat Transfer Module“ získal 2 425 000 jádrohodin. Výzkumný tým se bude zabývat vývojem a testováním komplexní a masivně paralelní knihovny založené na metodě konečných prvků, pro simulaci problémů přenosu tepla a jejich optimalizaci. Součástí knihovny je masivně paralelní iterační řešič ESPRESO vyvíjený na IT4Innovations.


 

VÝVOJ KNIHOVNY BEM4I

Výzva: 9. Veřejná grantová soutěž
Hlavní řešitel: Michal Merta

Instituce: IT4Innovations
Oblast: Informatika

Vědci z IT4Innovations pokračují ve vývoji knihovny paralelních řešičů založených na metodě hraničních prvků (BEM). V rámci předchozího projektu byla tato knihovna (BEM4I) akcelerována pomocí koprocesorů Intel Xeon Phi (Knights Corner, KNC), což doplnilo již existující a funkční paralelizaci pomocí OpenMP a MPI. V této fázi se se zaměří na další optimalizace kódu a jeho testování na nové generaci procesorů Intel Xeon Phi (Knights Landing, KNL). Cílem projektu je vyvinout efektivní knihovnu pro rychlé řešení hraničních integrálních rovnic. Vědci se budou zabývat vektorizací sestavení systémových matic a paralelizací v distribuované paměti. BEM4I bude možné využít při řešení reálných inženýrských problémů z oblasti šíření zvuku či úloh tvarové optimalizace.