Emre Sokullu

Blog

19 May 2026

Gemma 4 26B-A4B’yi küçük GPU’lara indirgeme: Türkçe odaklı MoE budama

Google’ın Gemma 4 26B-A4B modelini, Türkçe + İngilizce kullanım senaryosu için buduyoruz. İlk kanıt-çalışma Türkçe üzerinde; ama yöntem dil-agnostik: belirli dil/script örüntülerinde düşük aktive olan expert’ları ölç, kes, sonra kısa bir LoRA “iyileştirmesi” ile toparla.

Motivasyon

MoE modellerde expert’lar zamanla örtük uzmanlaşma geliştiriyor: CJK karakterleri, Kiril, Devanagari, Arap alfabesi, Hangul gibi örüntüler farklı expert kümelerinde yoğunlaşabiliyor. Türkçe + İngilizce hedefli bir dağıtımda, expert’ların bir kısmı neredeyse hiç ateşlenmiyor.

Yöntem (özet)

İlk sonuçlar

Neden “prune + heal”?

Sıfırdan pretrain aylar ve çok yüksek maliyet demek; ayrıca Gemma’nın mevcut ön-eğitim değerini çöpe atıyor. Sadece finetune ise aynı büyük modeli taşımaya devam ediyor. Prune + heal yaklaşımı, pretrain bilgisini korurken kullanılmayan kapasiteyi atıyor.

Neden önemli?

VRAM ucuzlasa bile görev-başına özelleşmiş küçük modeller (planner, vision, coder) yan yana koşacak. Bu dünyada ana beceri “sıfırdan dev model kurmak” değil, güçlü bir tabanı göreve göre inceltmek olacak.

Model bağlantısı: huggingface.co/esokullu/gemma4-tr-26b-a4b-pruned-gguf

tags: