Technical Tutorials

Büyük Dil Modelleri (LLM'ler) hızla gelişen ortamında, önceden eğitilmiş modelleri felaket unutması (catastrophic forgetting) olmadan belirli alanlara uyarlayabilme yeteneği hayati önem taşır. Ancak bu uyarlanma önemli hesaplama maliyetleri getirir. Sınırlı GPU belleği veya bütçe nedeniyle düşük kaynak kısıtlamaları altında çalışan organizasyonlar için ince ayar stratejisinin seçimi kritiktir. Bu yazıda, üç önde gelen parametre verimli ince ayar (PEFT) yöntemi olan LoRA, QLoRA ve DoRA'nın teknik bir karşılaştırmalı analizini sunuyoruz.

Temel: Düşük Sıralı Uyarlanma (LoRA)

LoRA (Düşük Sıralı Uyarlanma), önceden eğitilmiş model ağırlıklarını dondurarak ve Transformer mimarisinin her katmanına eğitilebilir düşük sıralı ayrışım matrisleri enjekte ederek model ince ayarını devrim niteliğinde hale getirdi. Tüm $W \in \mathbb{R}^{d \times k}$ ağırlık matrisini güncellemek yerine, LoRA $\Delta W$ değişimini iki düşük sıralı matris $B$ ve $A$'nın çarpımı olarak yaklaştırır:


# Basitleştirilmiş LoRA İleri Geçiri
h = W_0 * x
delta_h = (B * A) * x
output = h + delta_h

LoRA'nın temel avantajı, eğitilebilir parametre sayısını dramatik şekilde azaltmasıdır. Orijinal modelde milyarlarca parametre varsa, LoRA sadece birkaç milyon parametre ekleyebilir. Bu, eğitim sırasında yüksek bellek verimliliği sağlar ve tüketici sınıfı GPU'larda ince ayar yapmayı mümkün kılar. Ancak LoRA, güncellenmiş ağırlıkların temel ağırlıklarla birleştirilmesi veya dinamik olarak hesaplanması gerektiğinden çıkarım gecikmesi ekler; bu da üretim ortamlarında veri akışını (throughput) etkileyebilir.

Bellek Optimizatörü: Nicemlenmiş LoRA (QLoRA)

QLoRA, 4-bit NormalFloat (NF4) nicemlemesini tanıtarak doğrudan LoRA'nın üzerine inşa edilir. Temel model ağırlıklarını 4-bit hassasiyete nicemleyerek ve çift nicemleme (nicemleme sabitlerinin kendilerini nicemleme) kullanarak QLoRA, büyük modelleri yüklemek ve ince ayar yapmak için gereken bellek izini önemli ölçüde azaltır.

Bu teknik, düşük kaynaklı ortamlar için oyunun kurallarını değiştiren bir gelişmedir. Tek bir 48GB GPU üzerinde 65 milyar parametreli modellerin ince ayarını mümkün kılar. LoRA eğitilebilir parametreleri azaltmaya odaklanırken, QLoRA temel ağırlıkların depolanması ve hesaplanması üzerine odaklanır. Karşılık olarak sayısal hassasiyette hafif bir düşüş riski vardır, ancak çalışmalar bu etkinin çoğu pratik uygulama için minimal olduğunu göstermektedir. QLoRA, donanım belleğinin birincil darboğaz olduğu durumlarda özellikle etkilidir.

Hassasiyet Geliştirici: Ağırlık-Ayrıştırmalı Düşük Sıralı Uyarlanma (DoRA)

DoRA (Ağırlık-Ayrıştırmalı Düşük Sıralı Uyarlanma), LoRA'nın teorik bir sınırlamasını ele alır. LoRA, yalnızca iki düşük sıralı matrisin çarpımına dayandığından, büyük güncellemeler için optimizasyon algoritmalarının yakınsamasının zor olabileceği ağırlık güncellemelerinin büyüklüğünü öğrenmede zorlanır.

DoRA, önceden eğitilmiş ağırlıkları iki bileşene ayırır: büyüklük ve yön. Büyüklüğü standart gradient inişi kullanarak açıkça optimize ederken, yön LoRA tarafından yönetilir. Bu ayrıştırma, modelin daha hızlı yakınsamasını ve daha az eğitim adımıyla daha yüksek doğruluk elde etmesini sağlar. Verinin kısıtlı olduğu alan uyarlaması senaryolarında, DoRA'nın parametre başına daha verimli öğrenme yeteneği, ileri geçiş sırasında biraz daha yüksek hesaplama yüküne sahip olmasına rağmen, standart LoRA'ya göre üstün bir seçim haline getirir.

Pratik Uygulama ve Karşılaştırma

Bir yöntem seçerken belirli kısıtlamalarınızı dikkate alın. Eğer son derece büyük modellerle (70B+ parametre) çalışıyorsanız ve sınırlı VRAM'iniz varsa, QLoRA tek geçerli seçenektir. Orta boyutlu modellerle (7B-13B) çalışıyor ve yeterli belleğiniz ancak sınırlı hesaplama süreniz varsa, DoRA daha az eğitim verisiyle daha iyi sonuçlar verebilir. Dağıtım kolaylığının anahtar olduğu genel amaçlı ince ayarlar için, çoğu çıkarım motoruyla uyumluluğu nedeniyle standart LoRA endüstri standardı olarak kalmaktadır.

Aşağıda, Hugging Face Transformers kütüphanesi kullanılarak DoRA'nın uygulanmasına yönelik pratik bir örnek bulunmaktadır:


from peft import LoraConfig, get_peft_model, prepare_model_for_kbit_training
from transformers import AutoModelForCausalLM, BitsAndBytesConfig

model_name = "lmsys/vicuna-7b-v1.5"
bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.float16
)
model = AutoModelForCausalLM.from_pretrained(model_name, quantization_config=bnb_config)

# Bellek tasarrufu için gradyan checkpointing'i etkinleştirin
model = prepare_model_for_kbit_training(model)

# DoRA yapılandırması
peft_config = LoraConfig(
    r=16,
    lora_alpha=32,
    lora_dropout=0.05,
    bias="none",
    task_type="CAUSAL_LM",
    use_dora=True  # Ağırlık-Ayrıştırmalı Düşük Sıralı Uyarlamayı Etkinleştir
)
model = get_peft_model(model, peft_config)

Sonuç

LoRA, QLoRA ve DoRA arasındaki seçim, donanım sınırlamalarınız ile performans gereksinimlerinizin kesiştiği noktaya bağlıdır. QLoRA, erişilebilirlik konusunda şampiyondur ve devasa modellerin mütevazı donanımlarda çalışmasını sağlar. DoRA, üstün örnek verimliliği sunar; bu da verinin sınırlı olduğu düşük kaynaklı alan uyarlaması için ideal hale getirir. Standart LoRA, sağlam ve geniş desteklenen bir varsayılan olarak kalmaya devam etmektedir. PEFT alanı gelişmeye devam ederken, bu nüansları anlamak geliştiricilerin LLM'leri daha verimli ve etkili bir şekilde dağıtmasına olanak tanır.