Outils logiciels

page précédente
Position du problème
[ table des matiéres ]
[ Retour a la page d'accueil ]
[ liste générale des documents ]
page suivante
Script htmsoclean

2/ les différentes étapes de récupération d'un ".doc"

  1. Nettoyage éventuel sous Word si le document est très mal formaté.
  2. Sortie en HTML pas STAR OFFICE
  3. Nettoyage de la sortie Star Office avec "htmsoclean" (script pearl)
  4. Nettoyage avec "Tidy"
  5. Numérotation avec "numer" (script pearl)
  6. Mise en forme et linkage au site avec "fait" (script sh sous script "decoup4")

Les programmes "htmlsoclean", "tidy" et "numer" fonctionnent en filtre et peuvent être "pipés"

Exemple de ligne de commande

htmlsoclean fichier_d'entrée   |   tidy -uc    -latin1  -f fichier_erreur  |   numer  >  fichier_de_sortie.htm


Les option de tidy choisies sont les suivantes : Tidy peut utiliser un fichier de config pour passer des options plus sophistiquées que sur la ligne de commande.

"numer" numérote automatiquement les titres (H1 H2 et H3) les niveau au delà ne sont pas considérés.
La numérotation est de type 1/... 1.1/ ... 1.2.1/
Bien entendu "numer" est optionnel...

l'étape suivante est de pouvoir refournir un source en .doc pour les corrections et les amélioration du document. Star Office doit pouvoir récupérer le "html source" pour en faire un .doc.

2.1/ Cas des documents comportants des images

2.1.1/ Les images sont fournis à part

  1. contrôle et retouche des images avec Gimp
  2. Implantation des liens dans les .htm de l'étape 4 ou 5

2.1.2/ Les images sont fournies intégrés au document DOC

  1. Faire une sortie en HTML par Word pour récuperer les GIF ( les sorties SO peuvent comprendre des erreurs).
  2. contrôle et retouche des images avec Gimp
  3. Intégrer les liens au .htm

2.2/ Bogues

Un bogue se Star Office 5.2 l'empêche de traiter correctement les titres numérotés et les listes numérotés de Word.
Il faut que les .doc ne comporte pas ce type de mise en page.

J'ai testé ce système avec un fichier Word assez long sans problème, ainsi qu'avec des doc CTR formatés sans précaution.
page précédente
Position du problème
[ table des matiéres ]
[ Retour a la page d'accueil ]
[ liste générale des documents ]
page suivante
Script htmsoclean
logo CIP Les Glenan, l'école :
http://cip.glenans.free.fr
© copyright CIP Glenan