Karta graficzna (GPU) to wyspecjalizowany procesor stworzony do przetwarzania ogromnych porcji danych równolegle, co pozwala osiągać bardzo wysoką przepustowość obliczeń i renderowania.
Nowoczesne GPU łączą w sobie rdzeń obliczeniowy, pamięć VRAM, zaawansowany układ zasilania, wydajne chłodzenie oraz interfejsy komunikacyjne i wyjścia wideo. Różnią się od CPU tym, że zamiast maksymalizować szybkość pojedynczego wątku, maksymalizują liczbę jednocześnie wykonywanych wątków na tysiącach prostszych rdzeni. Przykłady architektur NVIDIA, takich jak Pascal, Turing, Ampere i Ada, dobrze ilustrują tę filozofię projektową.
Główne komponenty karty graficznej
Poniżej zebrano kluczowe elementy i ich rolę w pracy GPU:
- rdzeń GPU – serce układu odpowiadające za obliczenia grafiki oraz GPGPU;
- pamięć VRAM – szybka pamięć dedykowana grafice (np. GDDR5/GDDR6/HBM) o bardzo wysokiej przepustowości;
- interfejs pamięci – kontroluje komunikację i taktowanie pomiędzy rdzeniem a VRAM;
- układ zasilania (VRM) – dostarcza stabilne napięcia i prądy do wszystkich sekcji karty;
- układ chłodzenia – odprowadza ciepło (radiatory, wentylatory, chłodzenie cieczą);
- złącza wideo – umożliwiają podłączenie monitorów (HDMI, DisplayPort, DVI, USB‑C);
- interfejs PCIe – łączy kartę z płytą główną, zapewniając transfer danych i część zasilania.
Rdzeń GPU realizuje potok renderowania oraz obliczenia ogólnego przeznaczenia, a VRAM zapewnia bardzo szybki bufor danych. Sprawny VRM i chłodzenie utrzymują stabilność i wydajność, a PCIe odpowiada za komunikację z systemem.
Architektura rdzenia GPU
Hierarchiczna struktura przetwarzania
W architekturii NVIDIA kluczową rolę pełnią warstwy: GPC (Graphics Processing Clusters), SM (Streaming Multiprocessors) oraz rdzenie obliczeniowe. Każdy GPC posiada własny silnik rastrowy i grupuje SM, co pozwala skalować wydajność wraz ze wzrostem liczby tych klastrów.
Na przykład GeForce GTX 1080 (Pascal) zawiera 4 GPC, 20 SM i 8 kontrolerów pamięci. Taka organizacja umożliwia wysoką równoległość oraz efektywną dystrybucję zadań w obrębie całego układu.
Streaming Multiprocessor (SM)
SM to podstawowa jednostka wykonawcza, przez którą przechodzi większość operacji. W każdej jednostce znajdują się rdzenie CUDA, rejestry, pamięci podręczne i specjalizowane bloki do teksturowania czy operacji zmiennoprzecinkowych.
W GTX 1080 każdy SM dysponuje 128 rdzeniami CUDA, 256 KB pliku rejestrów, 96 KB pamięci współdzielonej, 48 KB cache L1 oraz 8 jednostkami teksturującymi. Tak bogate zasoby na SM minimalizują konieczność sięgania do wolniejszej pamięci globalnej i zwiększają równoległość.
Jednostki arytmetyczno‑logiczne i zmiennoprzecinkowe
W rdzeniu CUDA znajdują się ALU (jednostki arytmetyczno‑logiczne) do operacji całkowitoliczbowych oraz FPU (floating‑point unit) do obliczeń zmiennoprzecinkowych, także w precyzji 64‑bit. Lokalne rejestry na wątek umożliwiają błyskawiczne przełączanie kontekstu bez zapisu/odczytu stanu do pamięci.
W nowoczesnych GPU (np. Ampere) na wątek przypada ok. 128 rejestrów, co pozwala obsługiwać złożone jądra obliczeniowe bez „rozlewania” danych do pamięci globalnej.
Jednostki teksturujące i rasteryzujące
Jednostki teksturujące pobierają i filtrują dane tekstur, nadając powierzchniom realistyczny wygląd. W GTX 1080 każdy SM zawiera 8 takich jednostek (łącznie 160).
Jednostki ROP (Raster Operations) finalizują obraz, konwertując wyniki na piksele i zapisując je do bufora ramki. W GTX 1080 działa 64 ROP, rozłożone po 8 na każdy z 8 kontrolerów pamięci.
Organizacja wątków i warpy
Dla szybkiego przeglądu kluczowych pojęć tej warstwy organizacji wątków:
- warp – grupa 32 wątków wykonywanych synchronicznie w ramach SM;
- SIMT – model, w którym ta sama instrukcja jest wykonywana równolegle przez wiele wątków na różnych danych;
- Independent Thread Scheduling – mechanizm (od Volty) pozwalający na większą współbieżność i elastyczne grupowanie aktywnych wątków z jednego warpu.
Błyskawiczne przełączanie między warpami (rzędu nanosekund) utrzymuje wysokie wykorzystanie jednostek wykonawczych i maskuje opóźnienia pamięci.
Hierarchia pamięci w układzie GPU
Pamięć rejestrów
Rejestry to najszybsza i najbardziej prywatna pamięć dostępna dla wątku. Zapewniają minimalne opóźnienia, ale mają ograniczoną pojemność (liczoną w setkach tysięcy rejestrów na SM w zależności od architektury i konfiguracji).
Pamięć współdzielona i pamięć podręczna L1
Pamięć współdzielona (Shared Memory) służy do szybkiej wymiany danych między wątkami tego samego bloku. W nowszych architekturach NVIDIA (Volta i nowsze) jest zintegrowana z L1, tworząc elastyczną przestrzeń 128–192 KB (Ampere), partycjonowaną dynamicznie między cache a pamięć współdzieloną.
Pamięć podręczna L2 i globalna
L2 to spójna pamięć podręczna dla całego GPU, obsługująca operacje odczytu/zapisu oraz atomiki. W GTX 1080 wynosi 2 MB, a w nowszych generacjach jest większa.
Pamięć globalna (VRAM) ma pojemność od kilku do kilkudziesięciu GB. Jest wspólna dla całego GPU, ale relatywnie wolniejsza, co zachęca do korzystania z rejestrów i pamięci współdzielonej przy wielokrotnym dostępie.
GPUDirect RDMA/Storage umożliwiają bezpośrednie transfery między GPU a innymi urządzeniami lub magazynami NVMe, omijając CPU i obniżając opóźnienia.
Specjalizowane typy pamięci
Pamięć tekstur optymalizuje dostępy przestrzennie lokalne (2D/3D) i filtrowanie. Pamięć stała (constant memory) jest tylko do odczytu i świetnie skaluje broadcast stałych do wielu wątków.
Układ zasilania karty graficznej
Komponenty układu zasilania
VRM (Voltage Regulator Module) stabilizuje napięcia dostarczane do rdzenia, pamięci i kontrolerów. Karty czerpią energię z PCIe (do 75 W) oraz dodatkowych wtyczek 6‑pin/8‑pin/16‑pin 12VHPWR.
12VHPWR (do 600 W) zwiększa zapas mocy szczytowej. Wymaga jednak prawidłowego podłączenia, bo błędy montażowe mogą prowadzić do przegrzewania złączy.
Kontrola i monitorowanie zasilania
Nowoczesne karty na bieżąco mierzą napięcia i prądy, reagując na anomalie. Stabilne zasilanie bez wahań to warunek niezawodności, wydajności i bezpieczeństwa GPU.
Przy obciążeniach ekstremalnych (kopanie, overclocking) pobór mocy może być bardzo wysoki (np. RTX 4090 do ~575 W). Narzędzia pomiarowe (np. Thermal Grizzly WireView GPU) pokazują realne zużycie energii w czasie rzeczywistym.
Układ chłodzenia karty graficznej
Metody chłodzenia
Dobór systemu chłodzenia wynika z TDP i budowy karty. Stosuje się trzy główne podejścia:
- chłodzenie powietrzem – klasyczne radiatory z wentylatorami,
- chłodzenie cieczą – bloki wodne i chłodnice o wysokiej wydajności,
- rozwiązania hybrydowe – łączące zalety obu metod.
Łańcuch odprowadzania ciepła (rdzeń → ciepłowody → radiator → powietrze) działa wydajnie dzięki wykorzystaniu zjawisk fazowych w heatpipe’ach.
Komponenty odpowiadające za odprowadzanie ciepła
Chłodzi się nie tylko rdzeń, ale też VRAM i VRM. Moduły pamięci często mają własne radiatory, a sekcja zasilania – rozbudowane radiatory z przekierowaniem strumienia powietrza.
Ciepłowody transportują duże ilości energii dzięki parowaniu i kondensacji czynnika roboczego, znacząco przewyższając przewodność samego metalu.
Interfejsy komunikacyjne i wyjścia wideo
Główne złącza wideo
Najpopularniejsze standardy oferują różne możliwości i zastosowania:
| Złącze | Najważniejsze cechy | Typowe zastosowania |
|---|---|---|
| HDMI (2.1) | obsługa 4K 240 Hz i 8K 60 Hz, szerokie wsparcie urządzeń konsumenckich | telewizory, monitory do gier, konsole |
| DisplayPort (2.0+) | bardzo wysoka przepustowość, 8K 240 Hz, zaawansowane sterowanie i synchronizacja | monitory high‑end, zastosowania profesjonalne i e‑sport |
| DVI | standard starszej generacji, ograniczona przepustowość | starsze monitory i stacje robocze |
| USB‑C / Thunderbolt | DisplayPort Alt Mode, zasilanie i dane jednym kablem | docki, laptopy, wielomonitorowe stanowiska pracy |
Interfejs PCIe
PCI Express zapewnia połączenie punkt‑punkt, niskie opóźnienia i część zasilania (do 75 W). Gen 4.0 i nowsze wersje oferują przepustowość istotnie wyższą od Gen 3.0.
GPUDirect RDMA umożliwia omijanie CPU przy wymianie danych z innymi urządzeniami, a GPUDirect Storage – bezpośrednie transfery między NVMe a VRAM, redukując opóźnienia i obciążenie pamięci systemowej.
Konwerter cyfrowo‑analogowy (RAMDAC)
W kartach dla monitorów CRT RAMDAC zamieniał sygnał cyfrowy na analogowy (VGA). Dziś, dzięki cyfrowym interfejsom (DVI/HDMI/DisplayPort), rola RAMDAC zanikła – konwersja odbywa się po stronie monitora.
Specjalizowane jednostki wykonawcze
Rdzenie Tensor
Tensor Cores przyspieszają mnożenia macierzy i operacje tensorowe, kluczowe w AI/ML. W Ampere wspierają structured sparsity, co skutecznie podwaja przepustowość takich operacji i przekłada się na imponujące wartości TOPS. To dedykowane jednostki, które znacząco wykraczają poza wydajność klasycznych rdzeni CUDA w zadaniach macierzowych.
Rdzenie ray tracing (RT Cores)
RT Cores (od Turing) sprzętowo przyspieszają testy bounding box i przecięcia promień‑trójkąt, czyniąc ray tracing praktycznym w grach i DCC. W połączeniu z DLSS dają realizm oświetlenia, odbić i cieni przy zachowaniu płynności.
Jednostki cieniowania (shaders)
Poszczególne etapy potoku realizują różne typy shaderów:
- Vertex shader – transformuje pozycje wierzchołków i ich atrybuty do przestrzeni ekranu;
- Fragment (pixel) shader – wylicza kolor/atrybuty fragmentów, od prostych blendów po złożone efekty PBR;
- Geometry shader – modyfikuje lub generuje geometrię w locie dla technik zaawansowanych;
- Tessellation shader – dzieli siatki na bardziej szczegółowe w czasie wykonania według reguł matematycznych.
Hierarchia i organizacja komponentów
Organizacja procesorów
Na szczycie znajdują się GPC, wewnątrz których działają TPC oraz SM. Skalowanie liczby GPC/SM pozwala liniowo zwiększać równoległość i wydajność, utrzymując krótkie ścieżki dostępu do zasobów lokalnych.
Wewnątrz SM pracują grupy rdzeni CUDA (po 32 na warp), jednostki teksturujące i bloki ALU/FPU, współdzieląc szybkie pamięci i rejestry.
Przepływ danych w GPU
Przepływ można ująć w prostą sekwencję kroków:
- Interfejs hosta pobiera polecenia z CPU i przygotowuje zlecenia;
- GigaThread Engine przenosi dane do bufora ramki i tworzy bloki wątków;
- Bloki są rozdzielane do SM, gdzie harmonogram przydziela warpy do wykonania;
- SM uruchamia rdzenie CUDA oraz jednostki specjalizowane, a wyniki trafiają do pamięci i bufora ramki.
Przykłady konkretnych architektur
Architektura Pascal (GeForce GTX 1080)
GeForce GTX 1080 (GP104) ma 4 GPC, 20 SM i 8 kontrolerów pamięci (łącznie 2560 rdzeni CUDA, 160 jednostek teksturowania, 64 ROP). GDDR5X na 256‑bit szynie przy 10 Gb/s zapewnia 320 GB/s przepustowości. L2: 2 MB; na SM: 48 KB L1 i 96 KB shared.
Architektura Ampere
Ampere (RTX 30) wprowadza PCIe 4.0 i rozszerza możliwości Tensor Cores o sparsity, poprawiając wydajność AI. Wyższa przepustowość interfejsu ogranicza wąskie gardła transferu między CPU a GPU.
Architektura Ada (GeForce RTX 4070)
GeForce RTX 4070 (Ada) oferuje 5888 rdzeni CUDA, 184 jednostki teksturowania, 12 GB GDDR6X przy 21 Gbps na 192‑bit szynie i 504 GB/s przepustowości. Taktowania: 1920 MHz bazowe, 2535 MHz Boost.