Llama.cpp Runner | Windows Guide

Profesjonalna automatyzacja i zarządzanie klastrem obliczeniowym

Jest to projekt dla leniwych w ramach wolnego czasu z wykorzystaniem Gemini 3.1Pro "Just For Fun"

SERVER BUILD: b8468-3306dbaef High-Performance Inference Unit

Download Center

windows_llamacpp.rar 394 MB

Pełne binarie MSVC, biblioteki CUDA 12 i serwer RPC.

Pobierz Pakiet
llama-run.ps1 9.1 KB
start-llama.bat 183 B
llamabench6.2.py 27.3 KB

Archiwum / Inne konfiguracje silnika

llama-run2.ps1 28.03.2026 13:25 • 9.48 KB
Pobierz
llama-run3.ps1 28.03.2026 14:05 • 5.65 KB
Pobierz
llama-run4.ps1 28.03.2026 15:46 • 7.36 KB
Pobierz
llama-run5.ps1 28.03.2026 15:49 • 9.51 KB
Pobierz

⚠️ Ważna uwaga: VRAM AMD

W przeciwieństwie do systemów Linux, Windows nie posiada natywnej funkcji zwracania wolnej pamięci VRAM dla kart AMD w konsoli.

NVIDIA (CUDA): Działa w pełni automatycznie.
AMD: Wymaga ręcznego wpisania pojemności w zmiennej $AMD_VRAM_MB.

Zarządzanie RPC (MI50)

Domyślnie skrypt sumuje lokalny VRAM z pamięcią zdalnego serwera 192.168.0.222.

# Aby wyłączyć:
$RPC_TARGETS = ""

📡 Logika Monitorowania Statusu

Program stosuje rygorystyczną weryfikację gotowości. Zamiast zamykać okno po samym starcie procesu, skrypt odpytuje serwer HTTP:

HTTP 503
Model ładuje wagi do pamięci GPU. Skrypt cierpliwie czeka.
HTTP 200
Model jest gotowy. Blokada benchmarku zostaje zwolniona.

💡 Wskazówka systemowa: Czasami konsola PowerShell w Windows ulega zamrożeniu (np. z powodu trybu "Szybkiej edycji" po kliknięciu myszką). Jeśli pasek postępu wydaje się stać w miejscu, naciśnij SPACJĘ lub ENTER, co natychmiast wymusi powrót pętli odświeżania.

Konfiguracja Zmiennych (Plik .ps1)

Zmienna Domyślna Wartość / Opis
$MODEL_PATH "C:\llama.cpp\x" - Folder z modelami GGUF.
$LLAMA_SERVER_PATH "C:\llama.cpp\build\bin\Release\llama-server.exe"
$LOG_FILE Zmienna $env:USERPROFILE\server.log.
$AMD_VRAM_MB 0 - Manualna konfiguracja GPU AMD.
$RPC_TARGETS "192.168.0.222:50052" - Adresy węzłów klastra RPC.
$RPC_VRAM_MB 32752 - Pamięć zdalnego akceleratora (np. MI50).
$PORT "8081" - Nasłuch. Zmieniono z 8080 na uniknięcie kolizji.
$CONTEXT "-c 4000" - Limit okna kontekstu.
$CACHE_TYPE_K/V "q4_0" - Kwantyzacja dla K i V cache.
$OVERHEAD_MB 1536 - Margines bezpieczeństwa VRAM.
$MAX_WAIT 600 - Timeout na załadowanie (10 minut dla ciężkich modeli sieciowych).

Podsumowanie Ścieżek Fizycznych (Drzewo)

📂 C:\llama.cpp\                             # Katalog główny środowiska aplikacji
  📂 build\
    📂 bin\
       📂 Release\
          🚀 llama-server.exe              # Skompilowany serwer (Konfiguracja: $LLAMA_SERVER_PATH)
  📂 x\                                     # Folder modeli GGUF (Konfiguracja: $MODEL_PATH)
    📦 gpt-oss-20b-Q4_K_M.gguf             # Przykładowy model
    📦 Nemotron-3-Nano-30B-A3B-Q4_K_M.gguf # Przykładowy model
  📜 llama-run.ps1                          # Skrypt logiczny ładujący hybrydowy klaster
  📜 start-llama.bat                        # Skrót do uruchamiania GUI (Można przenieść na Pulpit)

📂 C:\Users\TwojaNazwa\                      # Katalog domowy zmiennej $env:USERPROFILE
  📝 server.log                             # Żywe logi generowane przez serwer (Konfiguracja: $LOG_FILE)

Bezpieczne zamykanie i czyszczenie VRAM

Runner został zaprojektowany tak, aby zapobiegać pozostawaniu procesów widmowych. Po zakończeniu pracy, wciśnięcie klawisza ENTER w głównym oknie skryptu wyśle sygnał Stop-Process, który natychmiast zwolni zasoby VRAM na wszystkich kartach w klastrze (oraz przerwie połączenia RPC). Skrypt inteligentnie chroni system przed przepełnieniem za pomocą wbudowanej flagi --no-mmap.

Windows PowerShell
Uruchamianie maszyny Llama.cpp...
[SCAN] Scanning directory C:\llama.cpp\x...
[INFO] Total combined VRAM: 4096 MB                                                                                                    
[INFO] Available VRAM: 3962 MB (Context overhead: 1536 MB)                                                                             
[OK] Models fitting in currently available VRAM:                                                                                       
------------------------------------------------------
   2) Llama-3.2-3B-Instruct-Q4_K_M.gguf                  [  1,9G]
------------------------------------------------------
[WARN] Remaining models (exceed total VRAM):
------------------------------------------------------
   1) gpt-oss-20b-Q4_K_M.gguf                            [ 10,8G] (Out of system memory)
   3) Nemotron-3-Nano-30B-A3B-Q4_K_M.gguf                [ 22,9G] (Out of system memory)
------------------------------------------------------

>>> Select model number (1-3) or press CTRL+C to cancel: 2

[START] Starting server with model: Llama-3.2-3B-Instruct-Q4_K_M.gguf
[WAIT] Loading weights and allocating KV Cache (Max wait: 600 s)...
> Checking context size...

======================================================
 🟢 SERVER IS ONLINE (Port 8081)
======================================================
>>> Press [ENTER] to STOP the server and free VRAM: