Jak Fermi realizuje inerně výpočty

1. 10. 2009 | David Ježek | Technologie, Grafiky, Procesory

Kalifornská Nvidia právě v tuto chvíli oficiálně uvolňuje informace o chystané nové (nejen DirectX 11) generaci GPU, o které jsme doposud psali jako o GT300. Její krycí jméno je Fermi a rovnou si řekněme: jde o malou revoluci ve stylu, s jakým přišlo GPU G80 na GeForce 8800. Pojďme se tedy společně podívat, co Nvidia právě ve svých laboratořích a ve spolupráci s TSMC usilovně finišuje, co hodlá postavit proti Radeonům a FireGL/FireStream kartám generace HD 5800 a čím hodlá zatopit pod kotlem nejen AMD, ale i Intelu. Architektura nové generace Nvidia čeká na své představení…

Kapitoly článků

1. Úvod, historie CUDA a výchozí body pro Fermi

2. Jak Fermi realizuje inerně výpočty

3. Přehled architektury Fermi

4. Dual Warp Scheduler

5. Druhá generace Parallel Thread Execution ISA

6. Paměťový subsystém

7. GigaThread Thread Scheduler

8. Vývojové prostředí Nvidia Nexus

9. Enrico Fermi, závěr

Zastavme se krátce u oněch kernelů. CUDA je architektura umožňující spouštět na GPU programy psané v C, C++, OpenCL, DirectCompute, dále třeba též ve Fortranu. Hlavní program volá kernely, které jsou vykonávány paralelně skrze paralelní thready (vlákna) v GPU. Paralelismus může organizovat buď sám programátor, nebo to nechá na systému, do jednotlivých bloků a větších celků obsahujících několik bloků. Každý thread v bloku spouští instanci kernelu a má příslušné ID v bloku, programovém čítači, registrech, privátní paměti, na vstupech a výstupech.

Vlastní blok několika threadů je tak ve skutečnosti sada současně vykonávaných vláken, která mohou vzájemně spolupracovat skrze synchronizační bariéru a sdílenou paměť. Blok threadů ve Fermi zvládá současně až 1 536 těchto souběžně běžících vláken. Kdyby synchronizační bariéra chyběla, vedlo by to často k „záhadným pádům“, protože jedno jádro (zde thread/blok) by mělo v paměti jiná data než druhé atd.

Nvidia představila Fermi: hiearchie

Vyšší celek zvaný grid obsahující několik bloků spouští vždy stejný kernel, čte vstupy z globální paměti, zapisuje výsledky do globální paměti a provádí synchronizaci mezi závislými kernelovými voláními. V paralelním modelu CUDA má každý thread vlastní privátní paměťový prostor používaný pro registry, volání funkcí a automatické proměnné v C. Každý blok má vlastní sdílený paměťový prostor používaný pro mezithreadovou komunikaci, sdílení dat a výsledků výpočtů. Grid pak sdílí výsledky v rámci globální paměti poté co proběhne globální synchronizace nad kernely.

Hardware Execution

CUDA mapuje požadovanou hiearchii threadů do hiearchie stream processorů v GPU. GPU spouští jeden nebo více kernel gridů, streaming multiprocessor jako dílčí prvek spouští jeden nebo více bloků threadů a CUDA jádra a další vykonávací jednotky v streaming multiprocessoru vykonávají příslušené thready. Streaming multiprocessor vykonává thready ve skupinách po 32, celek se nazývá warp. Zatímco programátoři mohou tyto warpy a jejich vykonávání ignorovat a programovat pouze v jednom výpočetním vlákně, byla by to škoda, neboť s touto paralelizací získávají potenciál pro výrazný nárůst zpracování požadovaných úloh.

Tagy: