Behöver jag en GPU för stabil diffusion? PC Guide, Stabil Diffusion Benchmarked: Vilken GPU kör AI snabbast (uppdaterad) | Tom S hårdvara
Stabil diffusion Benchmarked: Vilken GPU kör AI snabbast (uppdaterad)
. 2080 Ti -tensorkärnorna stöder inte sparsitet och har upp till 108 TFLOPS av FP16 COMPUTE. RTX 3070 Ti stöder sparsitet med 174 TFLOPS av FP16, eller 87 TFLOPS FP16 utan sparsitet. Det faktum att 2080 ti slår 3070 Ti indikerar tydligt sparsitet inte är en faktor. Samma logik gäller för andra jämförelser som 2060 och 3050, eller 2070 Super och 3060 Ti.
?
Undrar du om du behöver en GPU för stabil diffusion? Du har kommit till rätt plats.
Stabil diffusion är utan tvekan ett snabbt och intuitivt AI-konstgenererande verktyg som Dall-E och Midjourney. Resultaten är imponerande, så det har miljoner användare just nu. Men om du vill använda den på din dator, se till att kraven uppfylls, särskilt när det gäller grafikkort. Om vi talar om det kommer vi att prata om huruvida stabil diffusion kan fungera utan GPU, eller om du fortfarande behöver ett grafikkort för att fungera korrekt.
GPU: er, eller grafikkort, är små tekniska bitar som allvarligt kommer att uppgradera alla spel eller kreativ professionell erfarenhet. De är ett viktigt för att skapa AI -genererad konst på en mer kommersiell eller professionell nivå.
Viktiga AI -verktyg
AI-innehåll på varumärket var du än skapar. 100 000+ kunder som skapar verkligt innehåll med Jasper. Ett AI -verktyg, alla de bästa modellerna.
Upplev den fulla kraften hos en AI -innehållsgenerator som ger premiumresultat i sekunder. 8 miljoner användare tycker om att skriva bloggar 10x snabbare, vilket enkelt skapar högre konverterande inlägg på sociala medier eller skriver mer engagerande e -postmeddelanden. Registrera dig för en gratis provperiod. Läs mer
Endast $ 0.00015 per ord!
Winston AI -detektor
. Winston AI är branschledande AI-innehållsdetekteringsverktyg för att kontrollera AI-innehåll som genereras med chatgpt, GPT-4, Bard, Bing Chat, Claude och många fler LLMS. Läs mer
Endast $ 0.01 per 100 ord
Originalitet AI -detektor
Originalitet.AI är den mest exakta AI -detekteringen.Över en testdatauppsättning med 1200 dataprover uppnådde den en noggrannhet på 96% medan den närmaste konkurrenten bara uppnådde 35%. Användbar kromförlängning. Upptäcker över e -postmeddelanden, Google Docs och webbplatser. Läs mer
*Priserna kan ändras. PC Guide är läsare som stöds. När du köper igenom länkar på vår webbplats kan vi tjäna en affiliate -kommission. Lär dig mer
Så behöver du ett grafikkort från stabil diffusion för att det ska fungera? Eller kan man ersätta den andra? .
Är en GPU som krävs för stabil diffusion?
Ja, för att stabil diffusion ska fungera smidigt utan problem måste du ha en GPU på din dator. För ett minimum, titta på 8-10 GB NVIDIA-modeller. Se dessutom till att du har 16 GB PC RAM i PC -systemet för att undvika någon instabilitet.
GPU kommer att köra stabil diffusion utan att stöta på problem som en långsammare svarshastighet. Att säga att stabil diffusion uteslutande körs bäst på ett grafikkort skulle inte vara fel. . Det här är allvarligt kraftfulla kit som garanterar dig en snabb service.
Är det möjligt att köra stabil diffusion på en AMD GPU?
Ja, du kan också köra stabil diffusion på AMD GPU: er, bortsett från NVIDIA -seriemodellerna. För att använda AMD, se till att du har en modell ovanför RX470. Dessutom, för bästa resultat, se till att ha ytterligare 8 GB eller högre för att undvika några besvär.
Vanliga frågor
Kan stabilt diffusion på Apple Mac -processorer?
Ja, den stabila diffusionen stöder Apple Mac -böcker. Men det stöder bara de kiselbaserade M1- och M1-senaste modellerna. Någon modell innan det inte är för bästa resultat. Även en äldre M1- och M2 -modell kommer att vara bra om den uppfyller kraven.
Slutsats
Att ha en GPU är ett obligatoriskt krav i dagens tekniska värld. Försök att ha den senaste och snabbaste modellen för GPU eller andra grafiska stöd. Därför är det bäst att ha en GPU för stabil diffusion. Även om det finns några sätt att köra den utan GPU, är de inte så tillförlitliga som de kan verka. Så se till att ha ett bra grafikkort innan du kör stabil diffusion för bästa resultat.
Ett grafikkort är också en bra idé i allmänhet för att få ut det mesta av din dator. De förbättrar spel och kreativa upplevelser tiofaldigt. Om du behöver idéer om vilken du ska gå till, kolla in vår sammanfattning av de allra bästa grafikkorten här.
Stabil diffusion Benchmarked: Vilken GPU kör AI snabbast (uppdaterad)
Konstgjord intelligens och djup inlärning finns ständigt i rubrikerna i dag, oavsett om det är chatgpt som genererar dåliga råd, självkörande bilar, konstnärer som anklagas för att använda AI, medicinsk rådgivning från AI och mer. De flesta av dessa verktyg förlitar sig på komplexa servrar med massor av hårdvara för träning, men att använda det utbildade nätverket via inferens kan göras på din dator med hjälp av dess grafikkort. ?
Vi har benchmarkat stabil diffusion, en populär AI -bildskapare, på den senaste Nvidia, AMD och till och med Intel GPU: er för att se hur de staplar upp. Om du av en slump har försökt få stabil diffusion igång på din egen dator, kan du ha lite inför hur komplexa – eller enkelt! . Den korta sammanfattningen är att Nvidias GPU: er styr rosten, med de flesta programvara designade med CUDA och andra NVIDIA -verktygssätt. Men det betyder inte att du inte kan få stabil diffusion på den andra GPU: erna.
Vi slutade använda tre olika stabila diffusionsprojekt för våra tester, mest för att inget enda paket fungerade på varje GPU. För NVIDIA valde vi Automatic 1111s WebUI -version; Det presterade bäst, hade fler alternativ och var lätt att komma igång. AMD GPU: er testades med NOD.AI: s Shark -version – Vi kontrollerade prestanda på NVIDIA GPU: er (i både Vulkan- och Cuda -lägen) och fann att det var. saknas. Att få Intels båge -GPU: er var lite svårare på grund av brist på stöd, men stabil diffusion OpenVINO gav oss några mycket grundläggande funktionalitet.
. . Vi är relativt säkra på att NVIDIA 30-seriens test gör ett bra jobb med att extrahera nära optimal prestanda-särskilt när Xformers är aktiverat, vilket ger ytterligare 20% uppsving i prestanda (men vid reducerad precision som kan påverka kvaliteten). RTX 40-seriens resultat var under tiden lägre initialt, men George Sv8arj tillhandahöll denna fix, där ersättning av Pytorch Cuda DLLS gav ett hälsosamt uppsving för prestanda.
AMD -resultaten är också lite av en blandad påse: rDNA 3 GPU: er fungerar mycket bra medan rDNA 2 GPU: er verkar ganska medioker. Nicka.AI låt oss veta att de fortfarande arbetar med “inställda” modeller för RDNA 2, vilket borde öka prestandan ganska mycket (potentiellt dubbelt) när de är tillgängliga. Slutligen, på Intel GPU: er, även om den ultimata prestandan verkar ange anständigt med AMD -alternativen, i praktiken är tiden att göra väsentligt längre – det tar 5–10 sekunder innan den faktiska generationens uppgift startar, och förmodligen mycket av extra bakgrundssaker händer som bromsar det.
Vi använder också olika stabila diffusionsmodeller på grund av valet av programvaruprojekt. Nicka.AI: s Shark -version använder SD2.1, medan automatisk 1111 och OpenVINO använder SD1.4 (även om det är möjligt att aktivera SD2.. Återigen, om du har viss kunskap om stabil diffusion och vill rekommendera olika open source -projekt som kan gå bättre än vad vi använde, låt oss veta i kommentarerna (eller bara maila Jarred).
Våra testparametrar är desamma för alla GPU: er, även om det inte finns något alternativ för ett negativt snabbt alternativ på Intel -versionen (åtminstone inte för att vi kunde hitta). , mycket längre att slutföra). Det är samma instruktioner men inriktade på 2048×1152 istället för 512×512 som vi använde för våra riktmärken. Observera att inställningarna vi valde valdes ut för att arbeta med alla tre SD -projekt; Vissa alternativ som kan förbättra genomströmningen är endast tillgängliga på Automatic 1111: s byggnad, men mer om det senare. Här är de relevanta inställningarna:
Positiv prompt:
Popapocalyptic Steampunk City, utforskning, filmisk, realistisk, hyperdetaljerad, fotorealistisk maximal detalj, volumetriskt ljus, (((fokus)), vidvinkel, ((ljust upplyst)), ((vegetation)), blixtnedslag, blixtnedslag , vinstockar, förstörelse, förödelse, krigare, ruiner
Negativ prompt:
Steg:
100
Klassificeringsfri vägledning:
15.0
Vissa Euler -variant (förfäder på automatisk 1111, Shark Euler diskret på AMD)
Provtagningsalgoritmen verkar inte påverka prestandan, även om den kan påverka utgången. Automatic 1111 ger de flesta alternativen, medan Intel OpenVino Build inte ger dig något val.
Här är resultaten från vår testning av AMD RX 7000/6000-serien, NVIDIA RTX 40/30-serien och Intel ARC A-Series GPUS. Observera att varje NVIDIA GPU har två resultat, en som använder standardberäkningsmodellen (långsammare och i svart) och en sekund med det snabbare “XFormers” -biblioteket från Facebook (snabbare och i grönt).
Som förväntat levererar Nvidias GPU: er överlägsen prestanda – ibland av massiva marginaler – jämfört med allt från AMD eller Intel. . Det tar drygt tre sekunder att generera varje bild, och till och med RTX 4070 TI kan skrika förbi 3090 Ti (men inte om du inaktiverar Xformers).
Saker faller på ett ganska konsekvent sätt från toppkorten för NVIDIA GPU: er, från 3090 ner till 3050. Samtidigt binder AMD: s RX 7900 XTX RTX 3090 TI (efter ytterligare omprövning) medan RX 7900 XT binder RTX 3080 TI. 7900-korten ser ganska bra ut, medan varje RTX 30-serie-kort slutar slå AMD: s RX 6000-serie delar (för nu). Slutligen kommer Intel Arc GPU: er nästan sist, med bara A770 som lyckas överträffa RX 6600. Låt oss prata lite mer om avvikelserna.
Korrekt optimeringar kan fördubbla prestandan på RX 6000-seriens kort. Nicka.AI säger att det borde ha inställt modeller för RDNA 2 under de kommande dagarna, vid vilken tidpunkt den övergripande ställningen bör börja korrelera bättre med den teoretiska prestationen. På tal om nick.AI, vi gjorde också några tester av vissa NVIDIA -GPU: er med det projektet, och med Vulkan -modellerna var NVIDIA -korten väsentligt långsammare än med Automatic 1111’s Build (15.52 it/s på 4090, 13.31 på 4080, 11..76 på 3090 – vi kunde inte testa de andra korten eftersom de måste aktiveras först).
Baserat på prestandan för de 7900 -korten med hjälp av inställda modeller är vi också nyfikna på NVIDIA -korten och hur mycket de kan dra nytta av sina tensorkärnor. På papper har 4090 över fem gånger prestandan för RX 7900 XTX – och 2.7 gånger föreställningen även om vi rabatterar knapphet. I praktiken är 4090 just nu bara cirka 50% snabbare än XTX med de versioner vi använde (och det sjunker till bara 13% om vi utelämnar resultatet för lägre noggrannhet XFORMERS -resultat). Samma logik gäller också för Intels ARC -kort.
Intels ARC GPU: er ger för närvarande mycket nedslående resultat, särskilt eftersom de stöder FP16 XMX (Matrix) -operationer som bör leverera upp till 4x genomströmningen som vanliga FP32 -beräkningar. Vi misstänker det nuvarande stabila Diffusion OpenVino -projektet som vi använde också lämnar mycket utrymme för förbättringar. Förresten, om du vill försöka köra SD på en ARC GPU, observera att du måste redigera ‘stable_diffusion_engine.Py ‘fil och ändra “CPU” till “GPU” – annars kommer det inte att använda grafikkorten för beräkningarna och tar betydligt längre tid.
Sammantaget är Nvidias RTX 40-serie kort med de angivna versionerna det snabbaste valet, följt av 7900-korten, och sedan RTX 30-serien GPU: er. Rx 6000-serien underpresterar och bågen GPU: er ser generellt dåliga. Saker kan förändras radikalt med uppdaterad programvara, och med tanke på AI: s popularitet förväntar vi oss att det bara är en tidsfråga innan vi ser bättre inställning (eller hitta rätt projekt som redan är inställt för att leverera bättre prestanda).
Vi körde också några tester på Legacy GPU: er, särskilt Nvidias Turing Architecture (RTX 20- och GTX 16-serien) och AMD: s RX 5000-serie. RX 5600 XT misslyckades så vi slutade med testning på RX 5700, och GTX 1660 Super var tillräckligt långsam för att vi inte kände att vi inte behövde några ytterligare testning av lägre nivådelar. Men resultaten här är ganska intressanta.
Först hamnar RTX 2080 TI med RTX 3070 TI. Det händer normalt inte, och i spel tenderar även Vanilla 3070 att slå den tidigare mästaren. Ännu viktigare är att dessa nummer tyder på att Nvidias “Sparsity” -optimeringar i Ampere -arkitekturen inte alls används – eller kanske de helt enkelt inte är tillämpliga.
Vi kommer till några andra teoretiska beräkningsnummer på ett ögonblick, men överväga återigen RTX 2080 Ti och RTX 3070 Ti som ett exempel. 2080 Ti -tensorkärnorna stöder inte sparsitet och har upp till 108 TFLOPS av FP16 COMPUTE. RTX 3070 Ti stöder sparsitet med 174 TFLOPS av FP16, eller 87 TFLOPS FP16 utan sparsitet. Det faktum att 2080 ti slår 3070 Ti indikerar tydligt sparsitet inte är en faktor. Samma logik gäller för andra jämförelser som 2060 och 3050, eller 2070 Super och 3060 Ti.
När det gäller AMD: s RDNA -kort, RX 5700 XT och 5700, finns det ett brett gap i prestanda. 5700 XT landar precis före 6650 XT, men 5700 landar under 6600. På papper bör XT -kortet vara upp till 22% snabbare. I vår testning är det dock 37% snabbare. Hursomhelst är ingen av de äldre NAVI 10 GPU: erna särskilt performanta i våra initiala stabila diffusionsreenchmarks.
Slutligen bör GTX 1660 super på papper vara cirka 1/5 den teoretiska prestanda för RTX 2060, med hjälp av tensorkärnor på det senare. Om vi använder skuggprestanda med FP16 (Turing har dubbelt genomströmningen på FP16 Shader Code), smalnar gapet till bara ett underskott på 22%. Men i vår testning är GTX 1660 Super bara cirka 1/10 hastigheten på RTX 2060.
Återigen är det inte klart hur optimerade något av dessa projekt är. Det är inte heller klart om dessa projekt fullt ut utnyttjar saker som Nvidias tensorkärnor eller Intels XMX -kärnor. Som sådan tyckte vi att det skulle vara intressant att titta på den maximala teoretiska prestanda (TFLOPS) från de olika GPU: erna. Följande diagram visar den teoretiska FP16 -prestanda för varje GPU (tittar bara på de nyare grafikkorten) med hjälp av tensor/matriskärnor där det är tillämpligt. Nvidias resultat inkluderar också knapphet – i princip förmågan att hoppa över multiplikationer med 0 för upp till hälften av cellerna i en matris, vilket förmodligen är en ganska frekvent förekomst med djupa inlärningsarbetsbelastningar.
Dessa tensorkärnor på Nvidia packar tydligt en stans (de grå/svarta staplarna är utan sparsitet), och uppenbarligen matchar inte vår stabila diffusionstestning exakt med dessa siffror – inte ens nära. . Observera också att vi antar det stabila diffusionsprojektet vi använde (automatisk 1111) inte utnyttjar de nya FP8-instruktionerna på Ada Lovelace GPU: er, som potentiellt kan fördubbla prestandan på RTX 40-serien igen.
Under tiden, titta på bågen GPU: er. Deras matriskärnor bör ge liknande prestanda som RTX 3060 Ti och RX 7900 XTX, ge eller ta, med A380 nere runt RX 6800. I praktiken är ARC GPU inte nära dessa märken. Det snabbaste A770 GPUS -landet mellan RX 6600 och RX 6600 XT, A750 faller precis bakom RX 6600, och A380 är ungefär en fjärde hastigheten på A750. Så de handlar om en fjärdedel av den förväntade prestationen, vilket skulle vara vettigt om XMX -kärnorna inte används.
De interna förhållandena på bågen ser dock ungefär rätt. Teoretisk datorprestanda på A380 är ungefär en fjärdedel A750, och det är där den landar när det gäller stabil diffusionsprestanda just nu. Troligtvis använder ARC GPU: erna för beräkningarna, i full precision FP32 -läge, och missar några ytterligare optimeringar.
Det andra att märka är att teoretisk beräkning på AMD: s RX 7900 XTX/XT förbättrades mycket jämfört med RX 6000-serien. .AI sa att den förväntar sig ungefär en 2x förbättring av prestanda på rDNA 2. Minnesbandbredd var inte en kritisk faktor, åtminstone för den 512×512 målupplösningen vi använde – 3080 10 GB och 12 GB -modellerna landar relativt nära varandra.
Här är en annan titt på teoretisk FP16 -prestanda, den här gången fokuserar du bara på vad de olika GPU: erna kan göra via Shader Computations. Nvidias Ampere- och ADA -arkitekturer kör FP16 med samma hastighet som FP32, eftersom antagandet är att FP16 kan kodas för att använda tensorkärnorna. AMD och Intel GPU: er i kontrast har dubbelprestanda på FP16 -skuggberäkningar jämfört med FP32.
Det är uppenbart att denna andra titt på FP16 Compute inte matchar vår faktiska prestanda bättre än diagrammet med tensor- och matriskärnor, men kanske finns det ytterligare komplexitet i att ställa in matrisberäkningarna och så fullständig prestanda kräver prestanda. något extra. Som tar oss till ett sista diagram.
Detta sista diagram visar resultaten från vår högre upplösningstestning. Vi testade inte de nya AMD GPU: erna, eftersom vi var tvungna att använda Linux på AMD RX 6000-serien kort, och tydligen behöver RX 7000-serien en nyare Linux-kärna och vi kunde inte få det att fungera. Men kolla in RTX 40-seriens resultat, med fackla DLL: er.
RTX 4090 är nu 72% snabbare än 3090 Ti utan XFORMERS, och en enorm 134% snabbare med Xformers. 4080 slår också 3090 Ti med 55%/18% med/utan Xformers. 4070 Ti var intressant 22% långsammare än 3090 Ti utan XFORMERS, men 20% snabbare med Xformers.
Det ser ut som den mer komplexa målupplösningen 2048×1152 börjar dra bättre nytta av de potentiella beräkningsresurserna, och kanske de längre körtiderna innebär att tensorkärnorna helt kan böja sin muskel.
I slutändan är detta i bästa fall en ögonblicksbild i tid för stabil diffusionsprestanda. Vi ser ofta projektuppdateringar, stöd för olika utbildningsbibliotek och mer. Vi får se om att granska detta ämne mer under det kommande året, förhoppningsvis med bättre optimerad kod för alla olika GPU: er.
Håll dig i framkant
Gå med i experterna som läser Toms hårdvara för det inre spåret på Entusiast PC Tech News – och har i över 25 år. .
Genom att skicka in din information samtycker du till villkoren och integritetspolicyn och är 16 år eller äldre.
Jarred Walton är seniorredaktör på Toms hårdvara med fokus på allt GPU. Han har arbetat som teknisk journalist sedan 2004 och skrivit för AnandTech, Maximum PC och PC Gamer. Från de första S3 Virge ‘3D -retardatorerna’ till dagens GPU: er, Jarred håller upp med alla de senaste grafiktrenderna och är den att fråga om spelprestanda.