Context Navigation

Changes between Version 12 and Version 13 of MjpegCourse/Multipipe

Timestamp:: Jan 6, 2011, 5:34:35 PM (13 years ago)
Author:: joel
Comment:: --

Legend:

: Unmodified
: Added
: Removed
: Modified

MjpegCourse/Multipipe

-                      v12
+                      v13
 {{{
 #!html
 <h1>TP4 : Exécution sur architecture multi-cluster</h1>
+<h1>TP4 : Éxécution sur architecture multi-cluster</h1>
 }}}
 [[PageOutline]]
 …
 On cherche dans ce quatrième TP à augmenter encore le débit de la chaîne de décompression,
 pour permettre - par exemple - de traîter des images de plus grandes dimensions,
+pour permettre - par exemple - de traiter des images de plus grandes dimensions,
 tout en respectant la fréquence video.
 Cette augmentation de débit peut être obtenue en augmentant la fréquence d'horloge, mais
 …
 Pour augmenter le parallélisme, il ne suffit pas d'augmenter le nombre de processeurs dans
 l'architecture matérielle, il faut également augmenter le nombre de tâches de l'application
 logicielle, ce qui impose de modifier la structure du TCG.
+logicielle (afin d'utiliser ces nouveaux processeurs) : cela impose de modifier la structure du TCG.
  * La première partie du TP vise la définition d'un graphe de tâches ''multi-pipeline''.
  * La seconde partie du TP porte sur la définition d'une architecture matérielle ''multi-clusters''.
  * La troisième partie du TP analyse l'impact du placement des canaux de communication
    sur les bancs mémoire dans les architectures `NUMA` (Non Uniform Memory Access).
+   sur les bancs mémoire dans les architectures de type `NUMA` (Non Uniform Memory Access).
 Commencez par créer un répertoire de travail `tp4`, et recopiez dans ce répertoire les différents
 …
 Le TCG défini dans le TP1 et re-utilisé dans les TP2 et TP3 comportait 7 tâches. Il exploitait
+un parallélisme de type ''macro-pipeline''.
+Différentes tâches traitent différents blocs de la même image: Toutes les tâches s'exécutent
+en parallèle, mais sur des blocs différents de l'image.
+un parallélisme de type ''macro-pipeline'' : différentes tâches traitent différents blocs de la même image. Toutes ces tâches s'exécutent
+en parallèle, mais travaillent sur des blocs différents de l'image.
 Il est difficile d'augmenter le nombre d'étages de ce macro-pipeline, car les tâches les plus coûteuses
 en temps de calcul (VLD et IDCT) ne se découpent pas facilement en sous-tâches.
 …
 On va donc exploiter un autre type de parallélisme en utilisant deux pipelines
 de décompression. Chaque pipeline traite une image complête.
 On introduit une tâche chargée de distribuer aternativement aux deux pipe-line le flux MJPEG.
 Cette nouvelle tâche `split` se situera entre les tâches `tg` et `demux`.
+de décompression (tel qu'illustré sur la figure ci-contre). Chaque pipeline traite une image complète.
+Pour ce faire, on introduit une tâche chargée de distribuer aternativement aux deux pipe-line le flux MJPEG.
+Cette nouvelle tâche, nommée `split`, se situera entre les tâches `tg` et `demux`.
 La tâche `libu` doit être modifiée pour récupérer alternativement les images décompressées
 provenant des deux pipelines, avant de les envoyer vers la tâche `ramdac`.
 Modifiez la structure du TCG dans la description DSX de l'application.
 Vous devez introduire un nouveau modèle de tâche pour la tâche `split`, et modifiier
+Vous devez introduire un nouveau modèle de tâche pour la tâche `split`, puis modifier
 le modèle de la tâche `libu`. Il faut ensuite modifier
 la topologie du TCG en définissant explicitement  toutes les intances de tâches et tous
 les canaux de communication nécessaires.
 Le code de la tâche `split` doit analyser octet par octet le flux MJPEG, pour détecter
+Le code de la tâche `split` doit analyser octet par octet le flux MJPEG, précisement en détectant
 le marqueur de début d'image (SOI = 0xffd8), de façon à l'aiguiller vers le bon canal de sortie.
 Le pseudo core correspondant à l'algorithme de split est:
+Le pseudo-code correspondant à l'algorithme de `split` est :
 {{{
 canal de sortie = le premier
 toujours:
+toujours :
    b = lire un octet
    si b == 0xff
 …
          envoyer le bloc
          changer de canal de sortie
       ecrire b dans la sortie
       ecrire m dans la sortie
       retourner au debut de la boucle
    ecrire b dans la sortie
+      écrire b dans la sortie
+      écrire m dans la sortie
+      retourner au début de la boucle
+   écrire b dans la sortie
 }}}
 Pour valider fonctionnellement cette nouvelle description de l'application logicielle,
 déployez-la sur station de travail POSIX. vous devez voir les mêmes images qu'avant, dans le même ordre.
+déployez-la sur une station de travail POSIX. Vous devez normalement voir les mêmes images qu'avant, dans le même ordre.
 = 2. Architecture matérielle multi-processeur clusterisée =
 …
 Pour supporter la charge induite par ces nouvelles tâches, il faut augmenter
 le nombre d'unités de traitement (processeurs ou coprocesseurs).
 Pour éviter que l'accès à la mémoire devienne un goulot d'étranglement,
+Afin d'éviter que l'accès à la mémoire ne devienne un goulot d'étranglement,
 il est également souhaitable d'augmenter le nombre de bancs mémoire physique, de façon
 à répartir les données. Et lorsque le nombre d'entités communicantes (initiateurs ou cibles) augmente,
 il est utile de structurer l'architecture en sous-systèmes.
+il est utile de structurer l'architecture en sous-systèmes distincts.
 Cette structuration a des justifications fonctionnelles:
+Cette structuration a des justifications fonctionnelles :
  * On cherche à regrouper dans un même sous-sytème les différents composants
    matériels qui réalisent une même partie de l'application, et communiquent fortement entre eux.
  * Elle facilite également la réalisation matérielle : Chaque sous-système pourra être implanté
+   matériels qui réalisent une même partie de l'application, et qui communiquent fortement entre eux.
+ * Elle facilite également la réalisation matérielle : chaque sous-système pourra être implanté
    physiquement dans un même domaine synchrone, et utiliser sa propre horloge,
    conformément au principe GALS (Globally Asynchronous, Locally Synchronous).
+   conformément au principe ''GALS'' (Globally Asynchronous, Locally Synchronous).
 [[Image(MjpegCourse/ClusteredNoirqMulti:clustered_noirq_multi.png, align=right)]]
 Chaque sous-système constitue un ''cluster'', et contient des processeurs,
+Chaque sous-système constitue un ''cluster'' (ou encore ''grappe''), et contient des processeurs,
 de la mémoire, et dispose de son propre mécanisme d'interconnexion local.
 Les différents clusters sont interconnectés entre eux par une micro-réseau à interface
 VCI/OCB, qui pourra être modélisé par un composant `Vgmn`.
+Les différents clusters sont interconnectés entre eux par un micro-réseau à interface
+VCI, qui pourra être modélisé par un composant `Vgmn`.
 On utilisera comme mécanisme d'interconnexion interne à chaque cluster le composant
 !LocalCrossbar (voir SoclibComponents). Ce composant matériel est un petit crossbar,
+!LocalCrossbar (voir SoclibComponents). Ce composant matériel est un petit crossbar (tous les composants initiateur sont physiquement reliés à tous les composants cible),
 qui possède un nombre variable de ports ''initiateur'' et ''cible''
 permettant de connecter les composants matériels appartenant au cluster. Il possède également
 …
 Cette structuration aboutit donc à l'utilisation d'un mécanisme d'interconnexion à deux niveaux
 (interconnect global: `Vgmn`, et interconnect local: `LocalCrossbar`), bien que tous les
+(interconnect global : `Vgmn`, et interconnect local : `LocalCrossbar`), bien que tous les
 composants matériels (initiateurs et cibles) continuent à partager le même espace d'adressage.
 {{{
 …
 Un processeur d'un cluster peut adresser directement un banc mémoire ou un périphérique
 appartenant à un autre cluster. La principale conséquence est que tous les composants matériels
 de l'architecture doivent maintenant être identifiés par un double index:
+de l'architecture doivent maintenant être identifiés par un double index :
  * un index global définissant le cluster.
  * un index local identifant le composant dans le cluster.
 …
 = 3. Déploiement et exploration architecturale =
 Modifiez la description DSX de l'application MJPEG:
+Modifiez la description DSX de l'application MJPEG :
  * Remplacez l'instanciation de !VgmnNoirqMulti par
 {{{
 …
 Dans ce type d'architecture multi-clusters, les temps d'accès à la mémoire sont très différents,
 suivant qu'un processeur adresse la mémoire locale au sous-système, ou à un autre sous-système.
 On parle d'architecture NUMA (Non Uniform Memory Access).
+suivant qu'un processeur adresse la mémoire locale à son propre sous-système, la mémoire locale à un autre sous-système.
+On parle ainsi d'architecture ''NUMA'' (Non Uniform Memory Access).
 Refaites le placement des canaux de communication de manière ''intelligente''. Essayez ensuite de
 varier sur le placement de l'état par rapport au placement du canal, de placer le canal plutôt du
+faire varier le placement de l'état par rapport au placement du canal, de placer le canal plutôt du
 côté de la consommation, ou de la production, ...
 …
 = 4. Compte-Rendu =
 Comme pour les TP précédents, vous rendrez une archive contenant:
 {{{
+Comme pour les TP précédents, vous rendrez une archive contenant :
+{{{
 $ tar tzf binome0_binome1.tar.gz
 tp4/