Context Navigation

Changes between Version 11 and Version 12 of MjpegCourse/Coproc

Timestamp:: Mar 5, 2007, 8:16:12 PM (17 years ago)
Author:: alain
Comment:: --

Legend:

: Unmodified
: Added
: Removed
: Modified

MjpegCourse/Coproc

-                      v11
+                      v12
 puisqu'il doit être configuré par le logiciel. C'est ce même
 contrôleur MWMR qui a déjà été utilisé pour interfacer les composants matériels RAMDAC et TG.
 Nous repartirons de la plateforme du [MjpegCourse/Multipro TP3]: !VgmnNoirqMulti.
 Nous modifierons cette plateforme comportant trois processeurs Mips, pour remplacer
+Nous repartirons de la plateforme du [MjpegCourse/Multipro TP3]: !VgmnNoirqMulti, pour une architecture comportant 3 processeurs.
+Nous modifierons cette architecture, pour remplacer
 un des processeurs programmable par un coprocesseur matériel dédié à la transformation IDCT.
 == Mettre ici le dessin de la plate-forme matérielle complête avec 2 processeurs et 3 controleurs MWMR ==
+== Mettre ici le dessin de la plate-forme matérielle complête avec 2 processeur et 3 controleurs MWMR ==
 Reprenez les fichiers du TP3:
 …
 [[Image(MjpegCourse:q.gif)]] Q1.  Rappelez le temps
 nécessaire pour décoder 25 images, dans le cas d'une implantation
 utilisant trois processeurs, lorsque la tâche {{{idct}}} est placée sur un processeur,
 que la tâche {{{vld}}} est placée sur un second processeur, et que toutes les autres
 tâches logicielles se partagent le troisième processeur.
+nécessaire pour décoder 25 images, dans le cas d'un déploiement
+utilisant 2 processeurs, lorsque la tâche {{{idct}}} est placée sur le premier processeur,
+que la tâche {{{vld}}} est placée sur le second processeur,
+et que toutes les autres tâches logicielles se partagent le troisième processeur.
 = 1. Coprocesseur virtuel =
 …
 En pratique, la simulation dans ce mode consiste à exécuter un programme parallèle comportant
 deux processus UNIX communicant entre eux par des ''pipes'' UNIX.
  * Le premier processus est le simulateur SystemC modélisant l'architecture matérielle (y compris le ''contrôleur MWMR'' et le composant ''threader'').
  * Le second processus est la tâche logicielle {{{idct}}} encapsulée dans le composant ''threader''.
+Le premier processus est le simulateur SystemC modélisant l'architecture matérielle
+(y compris le contrôleur MWMR et le composant ''threader''). Le second processus est la tâche logicielle encapsulée.
+Pour utiliser ce mode d'émulation, il faut modifier deux choses dans la description DSX:
+== mettre ici le dessin contenant le threader ==
+Pour utiliser un tel coprocesseur ''virtuel'', il faut modifier deux choses dans la description DSX:
  * dans la définition du modèle de la tâche {{{idct}}}, il faut ajouter l'implémentation `SyntheticTask()`
 {{{
 …
                                                  sources = [ 'src/idct.c' ],
                                                  defines = [ 'WIDTH', 'HEIGHT' ] ),
+                                 Synthetic()
+                                 ] )
+                              SyntheticTask()   ] )
 }}}
  * Dans la partie déploiement, il faut déployer la tâche {{{idct}}} comme une tâche matérielle (comme on l'a fait pour les tâches {{{ramdac}}} ou {{{tg}}}.
 …
 }}}
 Le coprocesseur matériel IDCT (comme beaucoup de coprocesseurs matériels de type ''flot de données'')
+Après synthèse, le coprocesseur matériel IDCT (comme beaucoup de coprocesseurs matériels de type ''flot de données'')
 exécute une boucle infinie dans laquelle il effectue successivement les actions suivantes:
 . recopie d'un bloc de 64 coefficients du canal MWMR d'entrée vers une mémoire locale BUFIN,
 …
 . recopie de ces 64 pixels de la mémoire locale BUFOUT vers le canal MWMR de sortie.
+Compte-tenu des caractéristiques
+Pour modéliser le temps de traitement la tâche matérielle virtuelle plus exacte en temps de simulation, on peut ajouter des directives
+dans le code source C des tâches pour préciser le temps qu'il faudrait pour réaliser la même action en matériel:
+`srl_busy_cycles` (voir SrlApi).
+[[Image(MjpegCourse:q.gif)]] Q2. Combien de coefficients sont transférés par cycle sur  l'interface FIFO d'entrée? Combien  de pixels sont
+transférés par cycle sur l'interface FIFO de sortie? En déduire les durées minimales (en nombre de cycles) pour les étapes 1 et 3 ci-dessus.
+Il n'existe aucune référence au temps de calcul dans le code C de la tâche {{{idct}}} logicielle.
+En lisant le code de l'implémentation matérielle du coprocesseur `Idct`, déduisez les temps
+nécessaires aux différentes parties du traitement.
+our introduire un coprocesseur matériel,
+il faut commencer par modifier le modèle de la tâche {{{idct}}},
+en définissant une implémentation matériellel:
+Les temps de communication correspondant aux étapes 1 et 3 sont précisément décrits par le simulateur SystemC,
+qui reproduit (cycle par cycle) le comportement des interfaces FIFO entre le threader et le contrôleur MWMR
+(y compris en cas de contention pour l'accès à la mémoire).
+[[Image(MjpegCourse:q.gif)]] En utilisant un coprocesseur virtuel, pour la tâche {{{idct}}},
+détermidez quel est le gain en performances apporté par le coprocesseur, pour
+différents temps de traitement (1 cycle, 8 cycles, 64 cycles, 512 cycles ou 2048 cycles
+pour traiter un bloc de 64 pixels).quel est le temps
+nécessaire pour décoder 25 images ?
+En revanche, le nombre de cycles nécessaires pour exécuter l'étape 2 ci-dessus (temps de calcul "interne" à la tâche logicielle)
+n'est pas défini par le code de la tâche logicielle. Si on ne précise rien, cela correspond à un temps d'exécution du calcul
+en ""zéro" cycles. Pour préciser un nombre de cycles d'exécution, il faut modifier le code C de la tâche {{{idct}}}, et insérer,
+entre les deux primitives ''srl_mwmr_read()'' et '''srl_mwmr_write()'',
+un appel à la  la fonction bloquante srl_busy_cycles( ncycles ). L'argument ''ncycles'' est le nombre de cycles d'attente entre les
+deux primitives de communication, et il modélise donc le temps de calcul (voir SrlApi).
+{{{
+...
+srl_mwmr_read();
+...
+srl_busy_cycles( n );
+...
+srl_mwmr_write();
+...
+}}}
+[[Image(MjpegCourse:q.gif)]] Q3. pour quelle raison peut-on affirmer sans aucune expérimentation (c'est à dire sans aucune simulation),
+qu'il est sans intérêt de synthétiser un coprocesseur matériel dont le temps de calcul pour traiter un bloc de
+pixels soit inférieur à 64 cycles?
+Modifier la description DSX pour déployer l'application MJPEG sur une architecture comportant 2 processeurs MIPS et un coprocesseur
+''virtuel'' pour la tâche {{{idct}}}.
+[[Image(MjpegCourse:q.gif)]] Q4. Mesurez le nombre de cycle pour décompresser 25 images, en faisant varier la valeur du paramètre ''ncycles'' de la fonction ''srl_busy_cycles()'', dans le code C de la tâche {{{idct}}}. On essaiera les valeurs 8, 64, 512, et 4096 cycles.
+En déduire un objectif de performance "raisonnable" pour la synthèse du coprocesseur IDCT.
 = 3. Coprocesseur matériel =
+Remplacez la déclaration `Synthetic()` par une déclaration de coprocesseur matériel virtuel `HwTask( IdctCoproc )`.
+On va maintenant utiliser un "vrai" coprocesseur matériel IDCT, disponible dans la bibliothèque SoCLib.
+Ce coprocesseur matériel est générique, en ce sens qu'on peut paramètrer le nombre de cycles
+pour effectuer la transformation d'un bloc de 64 pixels. Les valeurs possibles de ce paramètre
+sont 8, 64, 512, et 4096 cycles.
+[[Image(MjpegCourse:q.gif)]] Quel est maintenant le temps de simulation nécessaire pour 25 images ?
+Remplacez dans le modèle DSX de la tâche {{{idct}}, la déclaration `SyntheticTask()` par
+une déclaration de coprocesseur matériel `HwTask( IdctCoproc )`, et relancez la simulation
+de cette nouvelle plate-forme, pour les 4 valeurs possibles du paramètre.
+[[Image(MjpegCourse:q.gif)]] Qu'en déduisez-vous sur la différence entre les deux possibilités pour tester
+une implémentation matérielle ?
+[[Image(MjpegCourse:q.gif)]] Quel intérêt y a-t-il à pouvoir caractériser précisément le temps de traitement
+d'une tâche matérielle à partir d'un code en C ?
+[[Image(MjpegCourse:q.gif)]] Q5. Comment expliquez-vous les différences entre les performances
+obtenues, suivant qu'on utilise un processeur réel ou virtuel?
 = 4. Compte-Rendu =