Techniques de formation de grands réseaux de neurones
Techniques de formation de grands réseaux de neurones

Le parallélisme de pipeline divise un modèle "verticalement" par couche. Il est également possible de diviser « horizontalement » certaines opérations au sein d'une couche, ce qui est généralement appelé Tenseur Parallèle entraînement. Pour de nombreux modèles modernes (tels que le Transformateur), le goulot d'étranglement du calcul est la multiplication d'une matrice de lot d'activation par une grande matrice de poids. Multiplication matricielle peuvent être considérés comme des produits scalaires entre des paires de lignes et de colonnes ; il est possible de calculer des produits scalaires indépendants sur différents GPU, ou de calculer des parties de chaque produit scalaire sur différents GPU et de résumer les résultats. Avec l'une ou l'autre stratégie, nous pouvons découper la matrice de poids en "fragments" de taille égale, héberger chaque fragment sur un GPU différent et utiliser ce fragment pour calculer la partie pertinente du produit matriciel global avant de communiquer ultérieurement pour combiner les résultats.

Un exemple est Mégatron-LMqui parallélise les multiplications matricielles dans les couches auto-attention et MLP du transformateur. PTD-P utilise le parallélisme des tenseurs, des données et des pipelines ; son calendrier de pipeline attribue plusieurs couches non consécutives à chaque appareil, réduisant ainsi la surcharge de bulles au prix d'une communication réseau accrue.

Parfois, l'entrée du réseau peut être parallélisée sur une dimension avec un degré élevé de calcul parallèle par rapport à la communication croisée. Parallélisme de séquence est une de ces idées, où une séquence d'entrée est divisée dans le temps en plusieurs sous-exemples, diminuant proportionnellement la consommation maximale de mémoire en permettant au calcul de se poursuivre avec des exemples de taille plus granulaire.




Source

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Scroll to Top