Showing posts with label CPU ile Yapay Zeka. Show all posts
Showing posts with label CPU ile Yapay Zeka. Show all posts

Thursday, January 22, 2026

Google Gemma 3: GPU Olmadan Sadece CPU ile Llama.cpp Kullanarak Nasıl Çalıştırılır?

Google Gemma 3: GPU Olmadan Sadece CPU ile Llama.cpp Kullanarak Nasıl Çalıştırılır?

Merhaba değerli arkadaşlar, ben Prof. Dr. Murat Karakaya. Murat Karakaya Akademi'ye hoş geldiniz. Bu dersimizde, takipçilerimden gelen sıkça sorulan bir soruyu uygulamalı olarak yanıtlayacağız: "Hocam, güçlü bir ekran kartım (GPU) yok, VRAM'im yetersiz. Google'ın yeni çıkan Gemma 3 modelini kendi bilgisayarımda, sadece işlemci (CPU) kullanarak çalıştırabilir miyim?"

Cevabım: Evet! Hem de oldukça tatmin edici bir hızda. Bu rehberde, Llama.cpp kütüphanesini kullanarak, Google'ın en yeni multimodal (hem metin hem görsel anlayabilen) modeli Gemma 3 (4B) sürümünü, hiçbir bulut servisine veri göndermeden, tamamen yerel bilgisayarınızda (Local PC) nasıl ayağa kaldıracağınızı adım adım göstereceğim.

Bu süreci baştan sona canlı olarak görmek ve performans testlerini izlemek için videoya göz atmanızı öneririm:

Bu Eğitimde Neler Öğreneceksiniz?

  • Llama.cpp kütüphanesinin Windows için kurulumu ve AVX desteği.
  • Hugging Face üzerinden Gemma 3 GGUF (Quantized) modellerin indirilmesi.
  • Multimodal özellikler için "mmproj" dosyalarının kullanımı.
  • Komut satırı (CLI) üzerinden Gemma 3 ile sohbet etme.
  • Llama Server ile modeli web arayüzü üzerinden kullanma.

Neden GPU Yerine CPU? Ve Llama.cpp Nedir?

Büyük Dil Modelleri (LLM) normalde devasa GPU gücü ister. Ancak Llama.cpp projesi, bu modelleri C/C++ ile optimize ederek standart işlemcilerde (CPU) çalışabilir hale getiriyor. Özellikle Apple Silicon (M serisi) veya Intel/AMD işlemcilerdeki AVX2 komut setlerini kullanarak şaşırtıcı performanslar sunuyor.

Videoda gördüğünüz üzere, benim bilgisayarımda 24GB VRAM'li bir GPU olmasına rağmen, bu deneyde sadece CPU kullandım ve saniyede yaklaşık 12-16 token (kelime parçası) üretim hızına ulaştık. Bu, bir sohbet botu için gayet akıcı bir hızdır.

Adım Adım Kurulum Rehberi

1. Llama.cpp İndirme

GitHub'daki llama.cpp sayfasının "Releases" bölümüne gidin. Windows kullanıyorsanız ve işlemciniz son 10 yılda üretildiyse muhtemelen AVX2 destekliyordur. İlgili .zip dosyasını (örneğin: llama-bxxxx-bin-win-avx2-x64.zip) indirin ve bir klasöre çıkarın.

2. Gemma 3 Model Dosyalarını İndirme (GGUF)

Hugging Face üzerinde ggml-org veya benzeri güvenilir kaynaklardan Gemma 3'ün GGUF formatını bulun. Ben videoda 4 milyar (4B) parametreli versiyonun Q4_K_M (4-bit quantization) sürümünü kullandım. Bu sürüm hem hafiftir (yaklaşık 2.5 - 3 GB) hem de CPU dostudur.

ÖNEMLİ: Gemma 3 multimodal (görsel görebilen) bir modeldir. Resimleri işleyebilmesi için modelin yanında mutlaka mmproj (projector) dosyasını da indirmelisiniz. Bu genelde model dosyalarının yanında .gguf uzantılı ek bir dosya olarak bulunur.

3. Komut Satırı ile Çalıştırma (CLI)

Llama.cpp klasörüne gidin ve terminali (PowerShell) açın. Gemma 3 için özel bir çalıştırılabilir dosya veya parametre gerekebilir, ancak genel mantık şöyledir:

# Örnek Çalıştırma Komutu
.\llama-gemma3-cli.exe -m "C:\Yol\gemma-3-4b-it-Q4_K_M.gguf" --mmproj "C:\Yol\gemma-3-4b-mmproj-f16.gguf" --image "test_resmi.jpg" -p "Bu resimde ne görüyorsun?"

4. Web Server Olarak Çalıştırma

Siyah ekranlarla uğraşmak istemiyorsanız, Llama.cpp içindeki llama-server.exe aracıyla modeli bir web sunucusu gibi başlatabilirsiniz. Böylece tarayıcınızdan (ChatGPT benzeri bir arayüzle) sohbet edebilirsiniz.

# Server Başlatma Komutu
.\llama-server.exe -m "C:\Modeller\gemma-3-4b.gguf" --port 8080

Komutu çalıştırdıktan sonra tarayıcınızda http://localhost:8080 adresine giderek modelle konuşmaya başlayabilirsiniz.

Sıkça Sorulan Sorular (SSS)

1. Bilgisayarım çok ısınır mı?

CPU kullanımı %100'e yaklaşacağı için fanlarınızın hızlanması normaldir. Ancak modern işlemciler termal korumaya sahiptir, güvenlidir.

2. 4-bit (Q4) model kullanmak kaliteyi düşürür mü?

Çok az bir miktar düşürür ancak 4B gibi bir modelde aradaki farkı anlamak zordur. Buna karşılık RAM kullanımını ve işlem yükünü ciddi oranda azaltır, ev kullanıcıları için en iyi takastır.

3. Kendi resimlerimi yükleyebilir miyim?

Evet! Videoda gösterdiğim gibi, kanalın logosunu veya herhangi bir fotoğrafı yükleyip "Bu resimdeki kişi kim?" veya "Burada ne yazıyor?" diye sorabilirsiniz. Gemma 3 bunu başarıyla analiz eder.

Sonuç

Gördüğünüz gibi, yapay zeka ile çalışmak için binlerce dolarlık donanımlara her zaman ihtiyacınız yok. Doğru optimizasyon araçları (Llama.cpp) ve verimli modeller (Gemma 3) ile standart bir laptop bile güçlü bir AI asistanına dönüşebilir. Veri gizliliğiniz cebinizde, hızınız parmaklarınızın ucunda!

Daha Fazlasını Keşfedin:
Bu ve benzeri yapay zeka rehberlerini kaçırmamak, modellerin derinlemesine incelemelerini izlemek için Murat Karakaya Akademi YouTube kanalına abone olun. Yorumlarınız ve beğenileriniz bizim için çok değerli!

Kanalı Ziyaret Et & Abone Ol 🚀

#MuratKarakayaAkademi #Gemma3 #LlamaCpp #LocalAI #YapayZeka #DeepLearning