Technical Tutorials

في المشهد المتسارع لنماذج اللغات الكبيرة (LLMs)، يعد القدرة على تكييف النماذج المدربة مسبقاً مع مجالات محددة دون نسيان كارثي أمراً بالغ الأهمية. ومع ذلك، تأتي هذه العملية بتكاليف حوسبية كبيرة. بالنسبة للمنظمات التي تعمل ضمن قيود الموارد المحدودة—سواء بسبب محدودية ذاكرة وحدات معالجة الرسومات (GPU) أو الميزانية—يعد اختيار استراتيجية الضبط الدقيق أمراً حاسماً. في هذا المنشور، نقوم بإجراء تحليل تقني مقارن لثلاث من طرق الضبط الدقيق الفعالة من حيث المعلمات (PEFT) الرائدة: LoRA و QLoRA و DoRA.

النقطة المرجعية: التكيف منخفض الرتبة (LoRA)

أحدث LoRA (التكيف منخفض الرتبة) ثورة في ضبط النماذج الدقيقة من خلال تجميد أوزان النموذج المدرب مسبقاً وإدخال مصفوفات تحلل الرتبة القابلة للتدريب في كل طبقة من بنية المحول (Transformer). بدلاً من تحديث مصفوفة الأوزان الكاملة $W \in \mathbb{R}^{d \times k}$، يقوم LoRA بتقريب التغيير $\Delta W$ كحاصل ضرب مصفوفتين منخفضتي الرتبة $B$ و $A$:


# محاكاة مبسطة لمرحلة الأمام لـ LoRA
h = W_0 * x
delta_h = (B * A) * x
output = h + delta_h

الميزة الرئيسية لـ LoRA هي تقليل عدد المعلمات القابلة للتدريب بشكل كبير. إذا كان النموذج الأصلي يحتوي على مليارات المعلمات، فقد يقدم LoRA فقط بضعة ملايين. هذا يتيح كفاءة عالية في الذاكرة أثناء التدريب، مما يتيح الضبط الدقيق على وحدات معالجة الرسومات المخصصة للمستهلكين. ومع ذلك، يضيف LoRA تأخيراً في الاستدلال لأن الأوزان المحدثة يجب دمجها مع الأوزان الأساسية أو حسابها ديناميكياً، مما قد يؤثر على الإنتاجية في بيئات الإنتاج.

مُحسّن الذاكرة: LoRA المُكمَّم (QLoRA)

يبني QLoRA مباشرةً على LoRA من خلال إدخال تكميم NormalFloat (NF4) بـ 4 بت. ومن خلال تكميم أوزان النموذج الأساسي إلى دقة 4 بت واستخدام التكميم المزدوج (تكميم ثوابت التكميم نفسها)، يقلل QLoRA بشكل كبير من البصمة الذاكرة المطلوبة لتحميل النماذج الكبيرة وضبطها بدقة.

هذه التقنية تغير قواعد اللعبة في بيئات الموارد المحدودة. فهي تتيح ضبط نماذج تحتوي على 65 مليار معلمة على بطاقة GPU واحدة بسعة 48 جيجابايت. بينما يركز LoRA على تقليل المعلمات القابلة للتدريب، يركز QLoRA على تقليل تخزين وحساب الأوزان الأساسية. المقايضة هي تدهور طفيف محتمل في الدقة العددية، على الرغم من أن الدراسات تظهر أن هذا التأثير ضئيل في معظم التطبيقات العملية. يكون QLoRA فعالاً بشكل خاص عندما تكون ذاكرة الأجهزة هي الاختناق الرئيسي.

مُحسّن الدقة: التكيف منخفض الرتبة المُفكك للأوزان (DoRA)

يعالج DoRA (التكيف منخفض الرتبة المُفكك للأوزان) قيداً نظرياً في LoRA. يواجه LoRA صعوبة في تعلم مقدار تحديثات الأوزان لأنه يعتمد حصرياً على حاصل ضرب مصفوفتين منخفضتي الرتبة، مما قد يكون صعباً على خوارزميات التحسين للتقارب على التحديثات الكبيرة.

يقوم DoRA بتحليل الأوزان المدربة مسبقاً إلى مكونين: المقدار والاتجاه. يقوم بتحسين المقدار صراحةً باستخدام النزول التدريجي القياسي، بينما يتولى LoRA التعامل مع الاتجاه. يسمح هذا التحلل للنموذج بالتقارب بشكل أسرع وتحقيق دقة أعلى بخطوات تدريب أقل. في سيناريوهات تكييف المجال حيث تكون البيانات شحيحة، يجعل قدرة DoRA على التعلم بكفاءة أكبر لكل معلمة خياراً متفوقاً على LoRA القياسي، على الرغم من وجود عبء حوسبي أعلى قليلاً أثناء مرحلة الأمام.

التنفيذ العملي والمقارنة

عند اختيار طريقة، ضع في اعتبارك قيودك المحددة. إذا كنت تعمل مع نماذج ضخمة جداً (أكثر من 70 مليار معلمة) ولديك ذاكرة VRAM محدودة، فإن QLoRA هو الخيار الوحيد القابل للتطبيق. إذا كنت تعمل مع نماذج متوسطة الحجم (7 مليار - 13 مليار معلمة) ولديك ذاكرة كافية ولكن وقت حوسبة محدود، فقد يقدم DoRA نتائج أفضل ببيانات تدريب أقل. بالنسبة للضبط الدقيق متعدد الأغراض حيث يكون سهولة النشر هي المفتاح، يظل LoRA القياسي هو المعيار الصناعي بسبب توافقه مع معظم محركات الاستدلال.

إليك مثال عملي لتنفيذ DoRA باستخدام مكتبة Hugging Face Transformers:


from peft import LoraConfig, get_peft_model, prepare_model_for_kbit_training
from transformers import AutoModelForCausalLM, BitsAndBytesConfig

model_name = "lmsys/vicuna-7b-v1.5"
bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.float16
)
model = AutoModelForCausalLM.from_pretrained(model_name, quantization_config=bnb_config)

# تمكين فحص التدرج لتوفير الذاكرة
model = prepare_model_for_kbit_training(model)

# تكوين DoRA
peft_config = LoraConfig(
    r=16,
    lora_alpha=32,
    lora_dropout=0.05,
    bias="none",
    task_type="CAUSAL_LM",
    use_dora=True  # تفعيل التكيف منخفض الرتبة المُفكك للأوزان
)
model = get_peft_model(model, peft_config)

الخاتمة

يعتمد الاختيار بين LoRA و QLoRA و DoRA على تقاطع قيود الأجهزة ومتطلبات الأداء الخاصة بك. يُعد QLoRA بطل إمكانية الوصول، مما يسمح بتشغيل نماذج ضخمة على أجهزة متواضعة. يقدم DoRA كفاءة عينية فائقة، مما يجعله مثالياً لتكييف المجال في بيئات الموارد المحدودة حيث تكون البيانات محدودة. يظل LoRA القياسي افتراضياً قوياً ومدعوماً على نطاق واسع. مع استمرار تطور مجال PEFT، يسمح فهم هذه الفروق الدقيقة للمطورين بنشر نماذج اللغات الكبيرة (LLMs) بكفاءة وفعالية أكبر.