Outils logiciels

page précédente
table des matiéres
[ table des matiéres ]
page suivante
les différentes étapes de récupération d'un ".doc"

1/ Position du problème

Le site comprend actuellement (juillet 2002) 541 fichiers.
Chaque fichiers doit être lié en moyenne au moins 3 fois (au précédent, au suivant et au noeud d'index supérieur). Les liens sont dupliqués en haut et bas de page. Il y a d'autre lien ( sur des logo, sur des pages de navigation ou de licence...)
On doit donc entretenir sans erreur 4538 liens... Toutes les pages doivent avoir un aspect homogène et intégrer des info communes (auteur, barre de navigation...).
Il faut mettre en ligne un HTML "propre" permettant par la suite des retraitement et des utilisations à d'autre fins que la simple lecture en ligne.
Les documents fournis par les contributeurs sont en formats propriètaire, en général du Word .doc.
L'entretien d'un système de ce type "à la main" est une charge trop lourde.

1.1/ Outils utilisés

Le site de dévellopement du CIP est fabriqué et entretenu sous Linux (Mandrake 8.0).
L'utilisation d'un unix est logique vu la facilité à traiter des fichiers texte (donc du HTML).
Afin de faciliter le découpage des pages la maintenance de liens j'ai crée une série de petits scripts en Bash ou en perl.

1.1.1/ récupération des formats propriètaires.

Il s'agit presque toujours de format Word (.doc ou .rtf). Leurs récupération se fait avec Star Office 5.2 avec sortie en HTML. Le HTML de Star Office est pratiquement propre. Un nettoyage des quelques attributs de styles restant se fait avec un script Perl et un contrôle avec Tidy.
Le script perl "htmlsoclean" (voir doc) s'occupe de ce nettoyage
Tidy est un programme GPL disponible sur sourceforge et des rpm pour toutes les distrib existe sur rpmfind.
Les etapes de cette récupération sont décrite dans étapes de récupération d'un document word.
Ces étapes fournissent donc un fichiers HTML structurée hiérachiquement à deux ou trois niveaux (H1, H2, H3). Si le document original ne comportait pas une structure correcte il faut la mettre en place "à la main" soit en retouchant l'orginal sous Star Office soi en éditant le HTML à la main.
Les liens sur les figures sont placés dans les sources, avec leurs chemin relatif. Il est souhaitable pour permettre un bon fonctionnment du script "cart"que les figures soit placées dans le même répertoire que les fichiers HTML cibles sur le site.
Ces fichiers HTML constituent les "sources" du site.
Un petit script perl "numer" permet de numéroter si nécessaire les têtes de chapitres.

1.1.2/ Prépartion de la mise en ligne, découpage des fichiers, création des liens.

Les "sources" sont découpés par chapitres, au niveau des balises (H1). Chaque chapitres deviendra une page HTML.
Les "haut" et "bas" de page HTML sont fabriqués à la main une fois pour toute. Il contiennent les liens de navigations, les indications sur l'auteur, la licence.
Un ou plusieurs "fichiers de structure" fixent la structure des répertoires du site à produire.
Le script bash "fait" (voir doc) utilise ces trois types de fichiers pour produire le site découpé et lié. La page d'accueil du site est à produire "à la main".
Dans le cas du site du CIP, la page d'index des "cours niveau 4" est également produite à la main.

1.1.3/ Préparation de la liste exhaustive des fichiers du site

Il est utile de permettre un accés direct à tous les fichiers du site pour au moins trois raisons : Le script "cart" (pour CARTographie) (voir doc) réalise cette liste au format HTML avec les liens correspondant.

1.2/ Fichiers "haut" et "bas" de page

On trouvera ici des exemples de fichiers "haut" et "bas" qui sont utilisés pour le site du CIP
Ces fichiers doivent être nommés respectivement tete_html.txt et fin_html.txt pour être reconnu par le script fait (dans son sous programme "decoup4").
Ils doivent contenir à minima le debut et la fin d'un fichier HTML :
tete_html.txt :
======================================
<HTML>
<HEAD>
</HEAD>
<BODY>
======================================
fin_html.txt :
======================================
</BODY>
</HTML>
======================================
Tout le reste est libre dans le respect du formatage HTML.
page précédente
table des matiéres
[ table des matiéres ]
page suivante
les différentes étapes de récupération d'un ".doc"
logo CIP Les Glenan, l'école :
http://cip.glenans.free.fr
© copyright CIP Glenan