Karta graficzna (GPU) to wyspecjalizowany procesor stworzony do przetwarzania ogromnych porcji danych równolegle, co pozwala osiągać bardzo wysoką przepustowość obliczeń i renderowania.

Nowoczesne GPU łączą w sobie rdzeń obliczeniowy, pamięć VRAM, zaawansowany układ zasilania, wydajne chłodzenie oraz interfejsy komunikacyjne i wyjścia wideo. Różnią się od CPU tym, że zamiast maksymalizować szybkość pojedynczego wątku, maksymalizują liczbę jednocześnie wykonywanych wątków na tysiącach prostszych rdzeni. Przykłady architektur NVIDIA, takich jak Pascal, Turing, Ampere i Ada, dobrze ilustrują tę filozofię projektową.

Główne komponenty karty graficznej

Poniżej zebrano kluczowe elementy i ich rolę w pracy GPU:

  • rdzeń GPU – serce układu odpowiadające za obliczenia grafiki oraz GPGPU;
  • pamięć VRAM – szybka pamięć dedykowana grafice (np. GDDR5/GDDR6/HBM) o bardzo wysokiej przepustowości;
  • interfejs pamięci – kontroluje komunikację i taktowanie pomiędzy rdzeniem a VRAM;
  • układ zasilania (VRM) – dostarcza stabilne napięcia i prądy do wszystkich sekcji karty;
  • układ chłodzenia – odprowadza ciepło (radiatory, wentylatory, chłodzenie cieczą);
  • złącza wideo – umożliwiają podłączenie monitorów (HDMI, DisplayPort, DVI, USB‑C);
  • interfejs PCIe – łączy kartę z płytą główną, zapewniając transfer danych i część zasilania.

Rdzeń GPU realizuje potok renderowania oraz obliczenia ogólnego przeznaczenia, a VRAM zapewnia bardzo szybki bufor danych. Sprawny VRM i chłodzenie utrzymują stabilność i wydajność, a PCIe odpowiada za komunikację z systemem.

Architektura rdzenia GPU

Hierarchiczna struktura przetwarzania

W architekturii NVIDIA kluczową rolę pełnią warstwy: GPC (Graphics Processing Clusters), SM (Streaming Multiprocessors) oraz rdzenie obliczeniowe. Każdy GPC posiada własny silnik rastrowy i grupuje SM, co pozwala skalować wydajność wraz ze wzrostem liczby tych klastrów.

Na przykład GeForce GTX 1080 (Pascal) zawiera 4 GPC, 20 SM i 8 kontrolerów pamięci. Taka organizacja umożliwia wysoką równoległość oraz efektywną dystrybucję zadań w obrębie całego układu.

Streaming Multiprocessor (SM)

SM to podstawowa jednostka wykonawcza, przez którą przechodzi większość operacji. W każdej jednostce znajdują się rdzenie CUDA, rejestry, pamięci podręczne i specjalizowane bloki do teksturowania czy operacji zmiennoprzecinkowych.

W GTX 1080 każdy SM dysponuje 128 rdzeniami CUDA, 256 KB pliku rejestrów, 96 KB pamięci współdzielonej, 48 KB cache L1 oraz 8 jednostkami teksturującymi. Tak bogate zasoby na SM minimalizują konieczność sięgania do wolniejszej pamięci globalnej i zwiększają równoległość.

Jednostki arytmetyczno‑logiczne i zmiennoprzecinkowe

W rdzeniu CUDA znajdują się ALU (jednostki arytmetyczno‑logiczne) do operacji całkowitoliczbowych oraz FPU (floating‑point unit) do obliczeń zmiennoprzecinkowych, także w precyzji 64‑bit. Lokalne rejestry na wątek umożliwiają błyskawiczne przełączanie kontekstu bez zapisu/odczytu stanu do pamięci.

W nowoczesnych GPU (np. Ampere) na wątek przypada ok. 128 rejestrów, co pozwala obsługiwać złożone jądra obliczeniowe bez „rozlewania” danych do pamięci globalnej.

Jednostki teksturujące i rasteryzujące

Jednostki teksturujące pobierają i filtrują dane tekstur, nadając powierzchniom realistyczny wygląd. W GTX 1080 każdy SM zawiera 8 takich jednostek (łącznie 160).

Jednostki ROP (Raster Operations) finalizują obraz, konwertując wyniki na piksele i zapisując je do bufora ramki. W GTX 1080 działa 64 ROP, rozłożone po 8 na każdy z 8 kontrolerów pamięci.

Organizacja wątków i warpy

Dla szybkiego przeglądu kluczowych pojęć tej warstwy organizacji wątków:

  • warp – grupa 32 wątków wykonywanych synchronicznie w ramach SM;
  • SIMT – model, w którym ta sama instrukcja jest wykonywana równolegle przez wiele wątków na różnych danych;
  • Independent Thread Scheduling – mechanizm (od Volty) pozwalający na większą współbieżność i elastyczne grupowanie aktywnych wątków z jednego warpu.

Błyskawiczne przełączanie między warpami (rzędu nanosekund) utrzymuje wysokie wykorzystanie jednostek wykonawczych i maskuje opóźnienia pamięci.

Hierarchia pamięci w układzie GPU

Pamięć rejestrów

Rejestry to najszybsza i najbardziej prywatna pamięć dostępna dla wątku. Zapewniają minimalne opóźnienia, ale mają ograniczoną pojemność (liczoną w setkach tysięcy rejestrów na SM w zależności od architektury i konfiguracji).

Pamięć współdzielona i pamięć podręczna L1

Pamięć współdzielona (Shared Memory) służy do szybkiej wymiany danych między wątkami tego samego bloku. W nowszych architekturach NVIDIA (Volta i nowsze) jest zintegrowana z L1, tworząc elastyczną przestrzeń 128–192 KB (Ampere), partycjonowaną dynamicznie między cache a pamięć współdzieloną.

Pamięć podręczna L2 i globalna

L2 to spójna pamięć podręczna dla całego GPU, obsługująca operacje odczytu/zapisu oraz atomiki. W GTX 1080 wynosi 2 MB, a w nowszych generacjach jest większa.

Pamięć globalna (VRAM) ma pojemność od kilku do kilkudziesięciu GB. Jest wspólna dla całego GPU, ale relatywnie wolniejsza, co zachęca do korzystania z rejestrów i pamięci współdzielonej przy wielokrotnym dostępie.

GPUDirect RDMA/Storage umożliwiają bezpośrednie transfery między GPU a innymi urządzeniami lub magazynami NVMe, omijając CPU i obniżając opóźnienia.

Specjalizowane typy pamięci

Pamięć tekstur optymalizuje dostępy przestrzennie lokalne (2D/3D) i filtrowanie. Pamięć stała (constant memory) jest tylko do odczytu i świetnie skaluje broadcast stałych do wielu wątków.

Układ zasilania karty graficznej

Komponenty układu zasilania

VRM (Voltage Regulator Module) stabilizuje napięcia dostarczane do rdzenia, pamięci i kontrolerów. Karty czerpią energię z PCIe (do 75 W) oraz dodatkowych wtyczek 6‑pin/8‑pin/16‑pin 12VHPWR.

12VHPWR (do 600 W) zwiększa zapas mocy szczytowej. Wymaga jednak prawidłowego podłączenia, bo błędy montażowe mogą prowadzić do przegrzewania złączy.

Kontrola i monitorowanie zasilania

Nowoczesne karty na bieżąco mierzą napięcia i prądy, reagując na anomalie. Stabilne zasilanie bez wahań to warunek niezawodności, wydajności i bezpieczeństwa GPU.

Przy obciążeniach ekstremalnych (kopanie, overclocking) pobór mocy może być bardzo wysoki (np. RTX 4090 do ~575 W). Narzędzia pomiarowe (np. Thermal Grizzly WireView GPU) pokazują realne zużycie energii w czasie rzeczywistym.

Układ chłodzenia karty graficznej

Metody chłodzenia

Dobór systemu chłodzenia wynika z TDP i budowy karty. Stosuje się trzy główne podejścia:

  • chłodzenie powietrzem – klasyczne radiatory z wentylatorami,
  • chłodzenie cieczą – bloki wodne i chłodnice o wysokiej wydajności,
  • rozwiązania hybrydowe – łączące zalety obu metod.

Łańcuch odprowadzania ciepła (rdzeń → ciepłowody → radiator → powietrze) działa wydajnie dzięki wykorzystaniu zjawisk fazowych w heatpipe’ach.

Komponenty odpowiadające za odprowadzanie ciepła

Chłodzi się nie tylko rdzeń, ale też VRAM i VRM. Moduły pamięci często mają własne radiatory, a sekcja zasilania – rozbudowane radiatory z przekierowaniem strumienia powietrza.

Ciepłowody transportują duże ilości energii dzięki parowaniu i kondensacji czynnika roboczego, znacząco przewyższając przewodność samego metalu.

Interfejsy komunikacyjne i wyjścia wideo

Główne złącza wideo

Najpopularniejsze standardy oferują różne możliwości i zastosowania:

Złącze Najważniejsze cechy Typowe zastosowania
HDMI (2.1) obsługa 4K 240 Hz i 8K 60 Hz, szerokie wsparcie urządzeń konsumenckich telewizory, monitory do gier, konsole
DisplayPort (2.0+) bardzo wysoka przepustowość, 8K 240 Hz, zaawansowane sterowanie i synchronizacja monitory high‑end, zastosowania profesjonalne i e‑sport
DVI standard starszej generacji, ograniczona przepustowość starsze monitory i stacje robocze
USB‑C / Thunderbolt DisplayPort Alt Mode, zasilanie i dane jednym kablem docki, laptopy, wielomonitorowe stanowiska pracy

Interfejs PCIe

PCI Express zapewnia połączenie punkt‑punkt, niskie opóźnienia i część zasilania (do 75 W). Gen 4.0 i nowsze wersje oferują przepustowość istotnie wyższą od Gen 3.0.

GPUDirect RDMA umożliwia omijanie CPU przy wymianie danych z innymi urządzeniami, a GPUDirect Storage – bezpośrednie transfery między NVMe a VRAM, redukując opóźnienia i obciążenie pamięci systemowej.

Konwerter cyfrowo‑analogowy (RAMDAC)

W kartach dla monitorów CRT RAMDAC zamieniał sygnał cyfrowy na analogowy (VGA). Dziś, dzięki cyfrowym interfejsom (DVI/HDMI/DisplayPort), rola RAMDAC zanikła – konwersja odbywa się po stronie monitora.

Specjalizowane jednostki wykonawcze

Rdzenie Tensor

Tensor Cores przyspieszają mnożenia macierzy i operacje tensorowe, kluczowe w AI/ML. W Ampere wspierają structured sparsity, co skutecznie podwaja przepustowość takich operacji i przekłada się na imponujące wartości TOPS. To dedykowane jednostki, które znacząco wykraczają poza wydajność klasycznych rdzeni CUDA w zadaniach macierzowych.

Rdzenie ray tracing (RT Cores)

RT Cores (od Turing) sprzętowo przyspieszają testy bounding box i przecięcia promień‑trójkąt, czyniąc ray tracing praktycznym w grach i DCC. W połączeniu z DLSS dają realizm oświetlenia, odbić i cieni przy zachowaniu płynności.

Jednostki cieniowania (shaders)

Poszczególne etapy potoku realizują różne typy shaderów:

  • Vertex shader – transformuje pozycje wierzchołków i ich atrybuty do przestrzeni ekranu;
  • Fragment (pixel) shader – wylicza kolor/atrybuty fragmentów, od prostych blendów po złożone efekty PBR;
  • Geometry shader – modyfikuje lub generuje geometrię w locie dla technik zaawansowanych;
  • Tessellation shader – dzieli siatki na bardziej szczegółowe w czasie wykonania według reguł matematycznych.

Hierarchia i organizacja komponentów

Organizacja procesorów

Na szczycie znajdują się GPC, wewnątrz których działają TPC oraz SM. Skalowanie liczby GPC/SM pozwala liniowo zwiększać równoległość i wydajność, utrzymując krótkie ścieżki dostępu do zasobów lokalnych.

Wewnątrz SM pracują grupy rdzeni CUDA (po 32 na warp), jednostki teksturujące i bloki ALU/FPU, współdzieląc szybkie pamięci i rejestry.

Przepływ danych w GPU

Przepływ można ująć w prostą sekwencję kroków:

  1. Interfejs hosta pobiera polecenia z CPU i przygotowuje zlecenia;
  2. GigaThread Engine przenosi dane do bufora ramki i tworzy bloki wątków;
  3. Bloki są rozdzielane do SM, gdzie harmonogram przydziela warpy do wykonania;
  4. SM uruchamia rdzenie CUDA oraz jednostki specjalizowane, a wyniki trafiają do pamięci i bufora ramki.

Przykłady konkretnych architektur

Architektura Pascal (GeForce GTX 1080)

GeForce GTX 1080 (GP104) ma 4 GPC, 20 SM i 8 kontrolerów pamięci (łącznie 2560 rdzeni CUDA, 160 jednostek teksturowania, 64 ROP). GDDR5X na 256‑bit szynie przy 10 Gb/s zapewnia 320 GB/s przepustowości. L2: 2 MB; na SM: 48 KB L1 i 96 KB shared.

Architektura Ampere

Ampere (RTX 30) wprowadza PCIe 4.0 i rozszerza możliwości Tensor Cores o sparsity, poprawiając wydajność AI. Wyższa przepustowość interfejsu ogranicza wąskie gardła transferu między CPU a GPU.

Architektura Ada (GeForce RTX 4070)

GeForce RTX 4070 (Ada) oferuje 5888 rdzeni CUDA, 184 jednostki teksturowania, 12 GB GDDR6X przy 21 Gbps na 192‑bit szynie i 504 GB/s przepustowości. Taktowania: 1920 MHz bazowe, 2535 MHz Boost.