Diskuse k Výpočetní APU Instinct MI300A dosahuje až 4× vyššího výkonu oproti akcelerátorům

kypec | 6. 5. 2024 - 09:25

Intel: plánujeme a nasľubujeme výkon XXX, dodáme (oneskorene alebo vôbec nie) výkon X
AMD: plánujeme výkon X, dodáme výkon XX

Pjetro de | 6. 5. 2024 - 10:47

Intel, your shit-maker.

Jan Volec | 6. 5. 2024 - 09:38

Jen technicka - platforma arXiv je verejna preprint repository ("repozitář na rukopisy" hezky-česky?), a to, ze je hostovna na Cornellu, je v jistem slova smyslu jen "náhoda". Jen ze to je napsane takovym zavadejicim zpusobem, a jeden by mohl myslet, ze to "endorsoval" nekdo z Cornellu. Obecne jde na arXiv nahrat prakticky "cokoliv". Je to moderovane lidmi z komunity ve smyslu, ze kdyz tam postnete Lorem-Ipsum nebo napr. https://www.scs.stanford.edu/~dm/home/papers/remove.pdf , tak ho moderator zastavi, ale verohodnost tvrzeni je plne na strane autoru, ne moderatora (jinymi slovy, neni to nikterak peer-reviewed).

Asi jako kdyby tu nekdo mistni naprogramoval XYZ, povesil si to na svou homepage pri google sites, a psalo by se "platforma google zverejnila program XYZ". Technicky je to 100% pravda, jen to potencial na misinterpretaci je 99.99%

Jan Volec | 6. 5. 2024 - 09:44

PS: komentar na tom arXiv postu pise "Accepted paper at ISC High Performance 2024" , takze zrovna tohle peer-reviewed asi bude. Jen teda CS komunita si o te konferenci zjevne tolik nemysli - CORE ranking "C" byva znamka velmi nizke kvality ( https://portal.core.edu.au/conf-ranks/?search=isc+high&by=all&source=COR... ).

Je to mimo muj obor vyzkumu, takze samozrejme to nijak neznaci, ze tenhle konkretni prispevek je "šmejd", ale jen ze standardni povrchni ukazatele rikaji ALERT, muze to smrdet.

Peter Fodrek | 6. 5. 2024 - 12:11

ISC je skôr komerčná akcia dodávateľov, každopádne ale organizátor ISC uverejňuje rebríčkty TOP500 superpočítačov, takže úplná konina to nebude a korešponduje to s mojimi meraniami v roku 2010 / 2011, ktoré boli v roku 2011 a 2012

Experiment type Meanvalue [s], Standard deviation [s]
OpenCL code without data transfer 0.940 0.100
OpenCL code withdata transfer 1268.060 59.470
https://citeseerx.ist.psu.edu/document?repid=rep1&type=pdf&doi=6c89458a3...

Edit: Samozrejme tam vidím "confirmation bias" = "pozitívnu zaujatosť z dôvodu potvrdzovania vlastnej idii" voči sebe, ale aj tak

Jan Volec | 6. 5. 2024 - 17:29

Jasne, diky za doplneni od nekoho, kdo tomu je aktivne bliz. Jestli je to primarne komercni akce, tak chapu, ze nejaky CORE ranking je pro ne malo zajimavy ukazatel. Podobne EuroComb (European Conference on Combinatorics) je ve finale vic matematicka nez informaticka konference, a tak je jim taky jedno, ze maji CORE rank "C" ( https://portal.core.edu.au/conf-ranks/?search=eurocomb&by=all ). Coz me jako kombinatorikovi jedno neni, v me konkretni oblasti zajmu je to TOP3 konference, ale echt informatici, co kouknou na ranking, si casto budou myslet, ze je to bullshit, a nemuzu se jim bohuzel divit :-( #first-world-problems

spidsta | 6. 5. 2024 - 10:43

Je to sice clanok o AMD a Apple hejterom neulahodim, ale APU od Apple mi aj prave kvoli unified memory tak dobre funguje v Resolve, ktore na vsetky komplexnejsie vypocty vyuziva GPU. Data sa nemusia tolko presuvat a naviac pamatova priepustnost je na APU velmi slusna.
Mam pod stolom aj desktop s 3950x a 6900XT, ale uz ho skoro nezapinam, aj napriek o dost vyssiemu teoretickemu vykonu sa na tom pracuje horsie.

Ladis | 6. 5. 2024 - 13:18

Teoretický výkon je jen v určitých podmínkách (a někdy ani to ne). Proto je nejlepší se rozhodovat podle lidí, co např. na Youtube používají stejné funkce ve stejných programech jako vy, a flamewary si užít s nadhledem.

> Mam pod stolom aj desktop s 3950x a 6900XT

Prý ohledně práce s videem má NVidia nějaké speciální jednotky/funkce, které pomůžou s postprocessingem. Kdežto u AMD se skoro vždy musí obraz kopírovat do RAM pro CPU a zas zpět.

Lazar | 6. 5. 2024 - 13:25

GPGPU výpočty v DR historicky staví na dostupnosti podpory OpenCL/CUDA/Metal GPU.

Neural Engine v DR (od verze 16?) snad umí využít i Tensor Core NVIDIA GPU.
https://www.nvidia.com/en-us/geforce/news/gfecnt/nvidia-rtx-powering-new...

Ladis | 6. 5. 2024 - 13:26

Tzn. tento software umí využít HW všech výrobců. Žádný není "bit" za nepodporu nějakého API, a ukáže se plný výkon HW (ve výpočtech).

Lazar | 6. 5. 2024 - 13:50

Asi se dá napsat, že s tím začali mezi prvními a jsou díky tomu asi nejdál. Podle jejich seznamu to vypadá, že většina nástrojů ve Fusion (jak v App, tak Page DR) je akcelerována pomocí GPU.
https://documents.blackmagicdesign.com/UserManuals/Fusion_GPU_Accelerate...

spidsta | 6. 5. 2024 - 14:36

Kym som kupil Apple tak som skusil rozne karty od AMD aj NVidie a pri NVidii bol dost problem s kapacitou RAM. Pre 4K edity ich cenovo dostupnejsie karty proste nemali dost kapacity. Titan bol zas extremne drahy, pre mna je to hobby, nezarobi si to na seba. S novou generaciu to uz moze byt lepsie.
A to je dalsia vyhoda Apple APU a unified memory - zatial sa mi nikdy nestalo, ze by mi projekt padol na nedostatok GPU pamate. Kiez by to malo este viac "raw" vykonu, ale tak na 14" notebook, ktory je 98% casu passivny stale super.

teso | 6. 5. 2024 - 19:43

Pod cenovo dostupnejšími a dostatkom RAM kapacity aké konkrétne karty myslíte? Viem, že NVidia trochu viac šetrí s RAM a za podobnú cenu AMD ponúka viacej RAM, ale aj tak. Aké náročné projekty máte, že vám to nestačí? A kedy sa ten nedostatok prejavuje (edit, rendering, ...)? Nemôže to byť aj nedostatok klasickej RAM v PC?

spidsta | 6. 5. 2024 - 20:26

Mal som napr. 2080 Ti a s 11GB GPU RAM pri 4K timeline uz po nahodeni par efektov ci masiek alebo NR sa projekt nepodarilo vyrenderovat. Ozaj nic take extremne. Dalo sa dosledovat napr. v task manageri, ze jednoducho dosla GPU RAM.
AMD sa v DR sprava co sa tyka spravy pamate vacsinou lepsie a ked dojde fyzicka GPU RAM, vyuziva dalej virtualnu RAM (cize RAM v PC), co je sice o dost pomalsie, ale stale lepsie, ako by projekt nevyrenderovala vobec. 16GB na 6900XT sa ale vycerpa stale velmi rychlo, lepsie by bolo tych 24GB.
Len bohuzial zas s AMD som mal problemy ineho typu, viac bugov ako pri Nvidii a niektore projekty prenesene z Macu nejdu vyrenderovat (netusim, ci je problem v AMD, mojom PC, alebo v DR). Len uz som resignoval, doteraz ma to stalo kopu casu a penazi. S Applom nemam v DR problemy ziadne. A to hovori clovek, ktory ma PC od cias 286 a az donedavno cisto s ATI/AMD grafikami. Apple som mal doteraz max iPod na mp3 a toto je moj prvy stroj od nich. Takze urcite nie nejaka Apple ovca :)
Mozno dam este sancu Nvidii s 5080/5090, ale su to velmi drahe zabavky na to, aby som zase zistil, ze to kvoli niecomu nefunguje ako ma.

Lazar | 7. 5. 2024 - 23:36

Zajímalo by mne zda dnešní Macy zvládají v DR plynulé přehrávání RED MONSTRO 8K VV 48p footage na timeline v originálním rozlišení. Na RTX 3070M s 8GB při pokusu došla VRAM, na RTX A4000 s 16GB se to do VRAM vešlo, ale k dokonalosti chybělo trocha GPU výkonu navíc. Co jsem to viděl naposledy pokoušet na MacBooku Pro s M1 Max, muselo se pro zajištění plynulosti zvolit dokonce pouze čtvrtinové rozlišení Playback=>TimelineProxyResolution(Quarter).
https://www.red.com/sample-r3d-files

Lazar | 6. 5. 2024 - 13:20

V nástroji GPU-Z pod Windows by hodnota BusInterfaceLoad měla reprezentovat vytížení PCIe rozhraní GK. V DR budou effekty při nichž je jeho (PCIe) vytížení značné a naopak takové kdy bude většina doby ztrávena samotnými výpočty GPU. Každopádně je škoda, že aktuální generace GK ignorovala dostupný PCIe 5.0 standard, mohlo to komunikaci RAM<=>VRAM zrychlit. Také by nebylo od věci, aby se v další generaci GK posunula velikost VRAM GK, s rostoucím rozlišením timeline standardním 8(16)GB VRAM začíná docházet dech.

Ladis | 6. 5. 2024 - 13:24

Když ono hráčům to stačí a na práci jsou jiné grafiky, řádově za jiné ceny. "Zlatý doby" už skončily.

Kutil | 6. 5. 2024 - 13:44

Většině hráčů by PCIe 5.0 byla k ničemu a jen by všichni nadávali na ještě vyšší ceny grafik a desek.

Lazar | 6. 5. 2024 - 13:55

Vždyť většina MB střední třidy poslední generace socketů PCIe 16x 5.0 slot má?

Kutil | 6. 5. 2024 - 14:00

Desky ano, ale grafiky ne. U těch desek tedy stejně má smysl jen kvůli SSD. Navíc PCIe 5.0 16x sloty mají jen vyšší řady, rozhodně ne všechny desky.

Lazar | 6. 5. 2024 - 16:37

Z deseti nejprodávanějších AM5 MB (nejdražší 7kKč) na Alza jich polovina má PCIe 16x 5.0. Takže to z tou animozitou vůči nim nebude tak horké. Navíc ti co by si kupovali GK profitující z PCIe 5.0 16x by s cenou MB určitě problém neměli.
https://www.alza.cz/zakladni-desky/18842832.htm#f&cst=1&cud=0&pg=1&prod=...

Nemluvě o to, že by šlo provozovat dva 8x 5.0 sloty s podobným, výkonem jako je GK na vyhrazené PCIe 16x 4.0 a mít volný slot např. pro rychlý NIC. Zatracovat pokrok jen proto, že z něj osobně nehodlám profitovat je .....

Kutil | 6. 5. 2024 - 16:53

A právě proto se prodávají i desky, kde je využití PCIe 5.0 omezené pro lidi, co z něj neprofitují a cena je pro ně důležitější.

odb | 6. 5. 2024 - 16:58

Problem je, ze to by museli vyrobit dva verzie GK aby ta vyssia cena nepostihla aj tych 99.5%, ktory by z PCIe 5.0 GK neprofitovali. To by sa vyrobcom GK neoplatilo.
A teraz pri PCIe 4.0 nemas volny slot pre rychly NIC? Kolko ludi potrebuje rychly NIC? Preco je taky pomaly prechod na 2.5Gbit? Lebo nebol dopyt. Znovu sa tu bavime o desatinach %. Plus si to vies vyriesit lepsou doskou, kde uz bud mas 10Gbit alebo nejaky ten slot navyse.
Pokrok HW v PC segmente je taky, ze vecsina ludi ho nevie vyuzit. Preto dnes vedia ludia stale fungovat na Sandy/Ivy Bridge CPU, co je +- 12 rokov stara zalezitost.
PCIe 5.0 v desktope je dobry tak na marketing. Uzke hrdlo je niekde.

Lazar | 6. 5. 2024 - 17:29

10Gbps není rychlý NIC.

Nejrychlejší NIC je dnes 400Gbps, takže 10Gbps ethernet si vůči němu stojí jako původní Arcnet ke 100BaseT.

Kutil | 6. 5. 2024 - 17:36

Technicky vzato ano, ale kdo to doma využije? Něčím takovým se propojují uzly superpočítačů.

Lazar | 6. 5. 2024 - 17:57

Vlákno se zabývá využitím GK k jiným než herním účelům (NLE). V use casech kde jde o maximální výkon/core a těch jader není zapotřebí moc není lepší (z hlediska výkonu i ceny) volby než výkonná desktopová CPU.
https://benchmarks.pugetsystems.com/benchmarks/?age=0&benchmark=&applica...

Dostupnost rychlé NIC bez kompromisu v připojení GK umožní rychlý přístup ke storage vně PC (může se tak eliminovat výhoda WS v širším IO). Za rychlé NIC bych považoval již třídu 40-100Gbps v případě využití RoCE s šancí na odlehčení CPU při transferech.

Kutil | 6. 5. 2024 - 18:13

Ale když srovnám cenu 400 Gbit NIC, tak to jsme někde u 45 tisíc s DPH, navíc s běžným desktopovým CPU nemáme dost PCIe 5.0 linek k plnohodnotnému připojení jak té grafiky tak té sítě. 32 linek tam prostě není. 400 Gbit/s vychází na 50 GB/s a 16 linek PCIe 5.0 dává 64 GB/s. Takže celá věc se stejně přesouvá na pracovní stanici.

Lazar | 6. 5. 2024 - 18:37

NIC 400Gbps byl zmíněn pouze proto, abychom si uvědomili že 10Gbps není dnešním maximem. Za 5500Kč je k dispozici Dual Port 25Gbps NIC, který by měl méně limitovat případný sekvenční přístup na SSD(NVMe) share. Single port 10Gbps NIC do PCIe slotu přitom stojí cca polovinu.
https://www.suntech.cz/broadcom-netxtreme-p225p-2x-25gb-sfp28-25-10-1gb-...

Kutil | 6. 5. 2024 - 18:47

Já reagoval na to teoretické využití a na na to, co je maximem.

Lazar | 6. 5. 2024 - 19:03

NIC připojený přes 8x 5.0 by dal dostatečný bandwidth na prakticky libovolnou "desktop" aplikaci. Bohužel bez degradace GK na 8x 4.0 (split linek) to na AM5/1700 není možné.

Je tu ještě teoretická možnost převést M.2 5.0 na PCIe 4x 5.0, třeba by si moderní NIC daly říci i na čtyřech linkách (stále až cca 16GBps .. dost na saturaci 100Gbps).

Kutil | 6. 5. 2024 - 20:17

Ale 8 linek PCIe 4.0 je jen 1/4 16 linek PCIe 5.0. Takže pokud 16 linek 5.0 dává 64 GB/s je to tedy 16 GB/s tedy 128 Gbit/s. Tedy na saturaci 100 Gbit sice stačí, ale na to není potřeba 400 Gbit karta...

Lazar | 6. 5. 2024 - 20:31

Nejsem si jist zda vůbec nějaké "pomalejší NIC" (max. 100Gbps) s PCIe 5.0 jsou v současnosti na trhu.

Kutil | 6. 5. 2024 - 20:33

Nedávalo by to smysl. I 8 linek PCIe 5.0 by stačilo na 200 Mbit. Ale 2x 100 by mohlo být.

Lazar | 7. 5. 2024 - 06:55

Na "200 Mbit" by stačila asi i EISA sběrnice, ;-)

Kutil | 7. 5. 2024 - 09:11

Rychle psáno bez kontroly... Stane se

melkor | 7. 5. 2024 - 12:31

Takže vezmu desku se Z790 a nějakým 14000 (ne F)
8 PCIe linek obětuji na připojení NVME na PCIe 5.0 4x
Zbylých 8 linek na NIC s 2x 100 Gbps.
Na zobrazování postačí iGPU.

A teď otázka: "Co k tomu (doma) připojím?"

Kutil | 7. 5. 2024 - 12:34

Asi tak. Pokud to nebude připojené ke značně nereálnému vlastnímu superpočítači nebo serveru s slušným akcelerátorem, smysl to nemá.

Lazar | 7. 5. 2024 - 13:35

Smyslem dříve zmíněného rychlého NIC bylo eliminovat potřebu interní (velkokapacitní rychlé) storage. Pokud více stanic přistupuje ke stejný datům může být efektivnější k nim zajistit rychlý síťový přístup (řád jednotek GB/s) než každou ze stanic vybavovat dostatečnou kapacitou a řešit synchronizaci dat. GK zůstane první slot.

Kutil | 7. 5. 2024 - 13:47

Tomu rozumím. Nicméně bez toho, aby na tom současně jel i router s patřičně silným firewallem by to i tak pro jednu stanici / PC / NTB bylo neefektivní.

Lazar | 7. 5. 2024 - 14:23

Co to má co společného s routerem/firewallem? NIC v PC bude připojena k LAN switchi či přímo do vyhrazeného NICu v NASu. Řeč je o řešení on-premises.

Kutil | 7. 5. 2024 - 14:32

OK. NAS je v tomto případě levná úzce zaměřená varianta serveru, takže není problém.

odb | 7. 5. 2024 - 11:27

Ano ale ty si tu zacal riesit klasicke PC.

Tam je aj 10Gbit NIC overkill.
Predpokladam, ze dalsia generacia PCIe 6.0 bude mat este vecsie omeskanie v PC segmente a niekolko rokov sa s tym budem stretavat len u serverov/WS.

Kutil | 7. 5. 2024 - 11:31

S tím NIC začal někdo jiný, já jen odvodil, že 400 Gbit je na herním PC neřešitelné a navíc k ničemu.

Lazar | 7. 5. 2024 - 14:18

Řešil jsem možnosti klasického PC conceptu (CPU+dGPU) v kontextu schopností Apple Silicon konkrétně v případě NLE (Davinci Resolve). Uniifikovaná paměť AS kdy se předání dat mezi CPU core a GPU core omezí na předání ukazatele (pár byte) je ve srovnání s přenosy desítek MB/frame zcela jinou písničkou. Na tom se při stávající architektuře PC asi ještě dlouho nic nezmění, můžeme se tedy pouze snažit výkon této režie urychlit. Zvýšení průchnosti IO je cestou co se nabízí, ale zůstává nevyužita.

Kutil | 7. 5. 2024 - 14:30

Protože takto se nabízí násobně větší variabilita. Ale jak ukazují první APU s více chiplety pro NTB na jedné straně a výpočetní APU MI300A, cesta existuje. Spíš je otázka, zda to trh bude chtít i desktopu.

Pro psaní komentářů se, prosím, přihlaste nebo registrujte.

Diit.cz - Novinky a informace o hardware, software a internetu

Diskuse k Výpočetní APU Instinct MI300A dosahuje až 4× vyššího výkonu oproti akcelerátorům

Komerční sdělení

CDR Hry

Epic rozdává zdarma hru, která potěší milovníky kvalitních RPG her

Co je to biohacking a jak funguje?

Jaké jsou nejčastější znaky závislosti na sociálních sítích a jak se projevují?

Nový ransomware: Hrozba pro zdravotnictví a kritickou infrastrukturu

Americké letectvo je znepokojeno tempem růstu raket Vulcan

Aktuálně z blogů

KOMENTÁŘ: Jak se žije s „neomezenými“ daty za 29 Kč?

SockaPC 2023, dějství druhé

SockaPC a SockaPhone 2023 (ani na to neklikejte)

Pár slov k Socka PC 2022+

Komentář k testu 5800X3D s RX 6900 XT