Technical Tutorials

Dans le paysage en rapide évolution des grands modèles de langage (LLM), la capacité d'adapter des modèles pré-entraînés à des domaines spécifiques sans oubli catastrophique est primordiale. Cependant, cette adaptation engendre des coûts computationnels significatifs. Pour les organisations opérant sous contraintes de ressources — que ce soit en raison d'une mémoire GPU limitée ou d'un budget restreint — le choix de la stratégie de peaufinage (fine-tuning) est critique. Dans cet article, nous réalisons une analyse comparative technique de trois méthodes de peaufinage efficaces en paramètres (PEFT) de premier plan : LoRA, QLoRA et DoRA.

La référence : L'adaptation de faible rang (LoRA)

LoRA (Low-Rank Adaptation) a révolutionné le peaufinage des modèles en figeant les poids du modèle pré-entraîné et en injectant des matrices de décomposition de rang entraînable dans chaque couche de l'architecture Transformer. Au lieu de mettre à jour la matrice de poids complète $W \in \mathbb{R}^{d \times k}$, LoRA approxime la variation $\Delta W$ comme le produit de deux matrices de faible rang $B$ et $A$ :


# Passage avant simplifié de LoRA
h = W_0 * x
delta_h = (B * A) * x
output = h + delta_h

Le principal avantage de LoRA est qu'il réduit considérablement le nombre de paramètres entraînable. Si le modèle original possède des milliards de paramètres, LoRA n'en introduira que quelques millions. Cela permet une grande efficacité mémoire pendant l'entraînement, rendant le peaufinage possible sur des GPU grand public. Cependant, LoRA ajoute une latence d'inférence car les poids mis à jour doivent être fusionnés avec les poids de base ou calculés dynamiquement, ce qui peut impacter le débit dans les environnements de production.

L'optimiseur de mémoire : LoRA quantifié (QLoRA)

QLoRA s'appuie directement sur LoRA en introduisant la quantification NormalFloat (NF4) en 4 bits. En quantifiant les poids du modèle de base à une précision de 4 bits et en utilisant une double quantification (quantifier les constantes de quantification elles-mêmes), QLoRA réduit considérablement l'empreinte mémoire requise pour charger et peaufiner de grands modèles.

Cette technique est un changement majeur pour les environnements à ressources limitées. Elle permet le peaufinage de modèles de 65 milliards de paramètres sur un seul GPU de 48 Go. Alors que LoRA se concentre sur la réduction des paramètres entraînable, QLoRA se concentre sur la réduction du stockage et du calcul des poids de base. Le compromis est une légère dégradation potentielle de la précision numérique, bien que les études montrent que cet impact est minime pour la plupart des applications pratiques. QLoRA est particulièrement efficace lorsque la mémoire matérielle est le goulot d'étranglement principal.

L'améliorateur de précision : Adaptation de faible rang décomposée par poids (DoRA)

DoRA (Weight-Decomposed Low-Rank Adaptation) répond à une limitation théorique de LoRA. LoRA a du mal à apprendre l'amplitude des mises à jour de poids car il repose uniquement sur le produit de deux matrices de faible rang, ce qui peut rendre difficile la convergence des algorithmes d'optimisation sur de grandes mises à jour.

DoRA décompose les poids pré-entraînés en deux composants : l'amplitude et la direction. Il optimise l'amplitude explicitement à l'aide de la descente de gradient standard, tandis que la direction est gérée par LoRA. Cette décomposition permet au modèle de converger plus rapidement et d'atteindre une précision supérieure avec moins d'étapes d'entraînement. Dans les scénarios d'adaptation de domaine où les données sont rares, la capacité de DoRA à apprendre plus efficacement par paramètre en fait un choix supérieur par rapport à LoRA standard, malgré une surcharge computationnelle légèrement plus élevée lors du passage avant.

Mise en œuvre pratique et comparaison

Lors du choix d'une méthode, tenez compte de vos contraintes spécifiques. Si vous travaillez avec des modèles extrêmement grands (70 milliards de paramètres+) et disposez de peu de VRAM, QLoRA est la seule option viable. Si vous travaillez avec des modèles de taille moyenne (7 milliards à 13 milliards de paramètres) et avez suffisamment de mémoire mais un temps de calcul limité, DoRA peut donner de meilleurs résultats avec moins de données d'entraînement. Pour le peaufinage à usage général où la facilité de déploiement est clé, LoRA standard reste la norme de l'industrie grâce à sa compatibilité avec la plupart des moteurs d'inférence.

Voici un exemple pratique de mise en œuvre de DoRA en utilisant la bibliothèque Hugging Face Transformers :


from peft import LoraConfig, get_peft_model, prepare_model_for_kbit_training
from transformers import AutoModelForCausalLM, BitsAndBytesConfig

model_name = "lmsys/vicuna-7b-v1.5"
bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.float16
)
model = AutoModelForCausalLM.from_pretrained(model_name, quantization_config=bnb_config)

# Activer la vérification des gradients pour économiser de la mémoire
model = prepare_model_for_kbit_training(model)

# Configurer DoRA
peft_config = LoraConfig(
    r=16,
    lora_alpha=32,
    lora_dropout=0.05,
    bias="none",
    task_type="CAUSAL_LM",
    use_dora=True  # Activer l'adaptation de faible rang décomposée par poids
)
model = get_peft_model(model, peft_config)

Conclusion

Le choix entre LoRA, QLoRA et DoRA dépend de l'intersection de vos limitations matérielles et de vos exigences de performance. QLoRA est le champion de l'accessibilité, permettant l'exécution de modèles massifs sur un matériel modeste. DoRA offre une efficacité d'échantillonnage supérieure, ce qui le rend idéal pour l'adaptation de domaine à ressources limitées où les données sont rares. LoRA standard reste une valeur par défaut robuste et largement prise en charge. Alors que le domaine du PEFT continue d'évoluer, la compréhension de ces nuances permet aux développeurs de déployer les LLM de manière plus efficace et performante.