Technical Tutorials

در منظر سریعاً در حال تحول مدل‌های زبانی بزرگ (LLMs)، توانایی سازگار کردن مدل‌های از پیش آموزش‌دیده با دامنه‌های خاص بدون فراموشی فاجعه‌بار حیاتی است. با این حال، این سازگاری با هزینه‌های محاسباتی قابل توجهی همراه است. برای سازمان‌هایی که تحت محدودیت‌های منابع کم کار می‌کنند—چه به دلیل حافظه GPU محدود و چه به دلیل محدودیت بودجه—انتخاب استراتژی تنظیم دقیق (fine-tuning) بسیار مهم است. در این پست، ما یک تحلیل مقایسه‌ای فنی از سه روش پیشرو در تنظیم دقیق کارآمد از نظر پارامتر (PEFT) انجام می‌دهیم: LoRA، QLoRA و DoRA.

خط مبنا: سازگاری با رتبه پایین (LoRA)

LoRA (سازگاری با رتبه پایین) با یخ زدن وزن‌های مدل از پیش آموزش‌دیده و تزریق ماتریس‌های تجزیه رتبه پایین قابل آموزش به هر لایه از معماری ترانسفورمر، تنظیم دقیق مدل را متحول کرد. به جای به‌روزرسانی کل ماتریس وزن $W \in \mathbb{R}^{d \times k}$، LoRA تغییر $\Delta W$ را به عنوان حاصل‌ضرب دو ماتریس با رتبه پایین $B$ و $A$ تقریب می‌زند:


# عبور رو به جلو ساده‌شده LoRA
h = W_0 * x
delta_h = (B * A) * x
output = h + delta_h

مزیت اصلی LoRA این است که تعداد پارامترهای قابل آموزش را به شدت کاهش می‌دهد. اگر مدل اصلی دارای میلیاردها پارامتر باشد، LoRA ممکن است تنها چند میلیون پارامتر اضافه کند. این امر اجازه می‌دهد تا کارایی حافظه بالایی در طول آموزش داشته باشیم و تنظیم دقیق را روی GPUهای سطح مصرف‌کننده امکان‌پذیر می‌سازد. با این حال، LoRA تأخیر استنتاج (inference latency) را افزایش می‌دهد زیرا وزن‌های به‌روزشده باید با وزن‌های پایه ادغام شوند یا به صورت پویا محاسبه شوند که می‌تواند بر نرخ پردازش در محیط‌های تولید تأثیر بگذارد.

بهینه‌ساز حافظه: LoRA کوانتیزه‌شده (QLoRA)

QLoRA مستقیماً بر پایه LoRA بنا شده و کوانتیزاسیون NormalFloat (NF4) ۴ بیتی را معرفی می‌کند. با کوانتیزه کردن وزن‌های مدل پایه به دقت ۴ بیتی و استفاده از کوانتیزاسیون دوبل (کوانتیزه کردن خود ثابت‌های کوانتیزاسیون)، QLoRA به طور قابل توجهی ردپای حافظه مورد نیاز برای بارگذاری و تنظیم دقیق مدل‌های بزرگ را کاهش می‌دهد.

این تکنیک برای محیط‌های با منابع کم یک تغییر بازی‌ساز است. این امکان را فراهم می‌کند تا مدل‌هایی با ۶۵ میلیارد پارامتر را روی یک GPU ۴۸ گیگابایتی به تنهایی تنظیم دقیق کنید. در حالی که LoRA بر کاهش پارامترهای قابل آموزش تمرکز دارد، QLoRA بر کاهش ذخیره‌سازی و محاسبات وزن‌های پایه تمرکز می‌کند. مبادله این امر یک افت جزئی بالقوه در دقت عددی است، اگرچه مطالعات نشان می‌دهند که این تأثیر برای بیشتر کاربردهای عملیاتی حداقل است. QLoRA زمانی که حافظه سخت‌افزاری گلوگاه اصلی باشد، به ویژه مؤثر است.

بهبوددهنده دقت: سازگاری با رتبه پایین تجزیه‌شده وزن (DoRA)

DoRA (سازگاری با رتبه پایین تجزیه‌شده وزن) یک محدودیت نظری LoRA را برطرف می‌کند. LoRA در یادگیری اندازه به‌روزرسانی‌های وزن مشکل دارد زیرا تنها به حاصل‌ضرب دو ماتریس با رتبه پایین تکیه می‌کند که می‌تواند برای الگوریتم‌های بهینه‌سازی در همگرایی بر روی به‌روزرسانی‌های بزرگ دشوار باشد.

DoRA وزن‌های از پیش آموزش‌دیده را به دو جزء تجزیه می‌کند: اندازه و جهت. آن اندازه را به صراحت با استفاده از گرادیان نزولی استاندارد بهینه می‌کند، در حالی که جهت توسط LoRA مدیریت می‌شود. این تجزیه به مدل اجازه می‌دهد تا سریع‌تر همگرا شود و با مراحل آموزش کمتر به دقت بالاتری دست یابد. در سناریوهای سازگاری دامنه که داده‌ها کمیاب هستند، توانایی DoRA در یادگیری کارآمدتر به ازای هر پارامتر، آن را به انتخابی برتر نسبت به LoRA استاندارد تبدیل می‌کند، علی‌رغم اینکه دارای بار محاسباتی کمی بیشتر در عبور رو به جلو است.

پیاده‌سازی عملی و مقایسه

هنگام انتخاب یک روش، محدودیت‌های خاص خود را در نظر بگیرید. اگر با مدل‌های بسیار بزرگ (بیش از ۷۰ میلیارد پارامتر) کار می‌کنید و VRAM محدودی دارید، QLoRA تنها گزینه قابل اجرا است. اگر با مدل‌های متوسط (۷ میلیارد تا ۱۳ میلیارد پارامتر) کار می‌کنید و حافظه کافی اما زمان محاسباتی محدود دارید، DoRA ممکن است نتایج بهتری با داده‌های آموزش کمتر ارائه دهد. برای تنظیم دقیق با هدف عمومی که سهولت استقرار کلیدی است، LoRA استاندارد به دلیل سازگاری با اکثر موتورهای استنتاج، همچنان استاندارد صنعتی باقی مانده است.

در اینجا یک مثال عملی از پیاده‌سازی DoRA با استفاده از کتابخانه Hugging Face Transformers آورده شده است:


from peft import LoraConfig, get_peft_model, prepare_model_for_kbit_training
from transformers import AutoModelForCausalLM, BitsAndBytesConfig

model_name = "lmsys/vicuna-7b-v1.5"
bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.float16
)
model = AutoModelForCausalLM.from_pretrained(model_name, quantization_config=bnb_config)

# فعال‌سازی چک‌پوینت گرادیان برای صرفه‌جویی در حافظه
model = prepare_model_for_kbit_training(model)

# پیکربندی DoRA
peft_config = LoraConfig(
    r=16,
    lora_alpha=32,
    lora_dropout=0.05,
    bias="none",
    task_type="CAUSAL_LM",
    use_dora=True  # فعال‌سازی سازگاری با رتبه پایین تجزیه‌شده وزن
)
model = get_peft_model(model, peft_config)

نتیجه‌گیری

انتخاب بین LoRA، QLoRA و DoRA به تقاطع محدودیت‌های سخت‌افزاری و الزامات عملکردی شما بستگی دارد. QLoRA قهرمان دسترسی‌پذیری است و اجازه می‌دهد مدل‌های عظیم روی سخت‌افزار متواضعانه اجرا شوند. DoRA کارایی نمونه‌ای برتر ارائه می‌دهد و آن را برای سازگاری دامنه با منابع محدود که داده‌ها محدود هستند، ایده‌آل می‌سازد. LoRA استاندارد همچنان یک پیش‌فرض قوی و به طور گسترده پشتیبانی شده باقی مانده است. با ادامه تحول زمینه PEFT، درک این ظرافت‌ها به توسعه‌دهندگان اجازه می‌دهد تا LLMها را کارآمدتر و مؤثرتر مستقر کنند.