2/ les différentes étapes de récupération d'un ".doc"
- Nettoyage éventuel sous Word si le document est très mal formaté.
- Sortie en HTML pas STAR OFFICE
- Nettoyage de la sortie Star Office avec "htmsoclean" (script pearl)
- Nettoyage avec "Tidy"
- Numérotation avec "numer" (script pearl)
- Mise en forme et linkage au site avec "fait" (script sh sous script "decoup4")
Les programmes "htmlsoclean", "tidy" et "numer" fonctionnent en filtre et peuvent être "pipés"
Exemple de ligne de commande
htmlsoclean fichier_d'entrée | tidy -uc -latin1 -f fichier_erreur | numer > fichier_de_sortie.htm
Les option de tidy choisies sont les suivantes :
- u : sortir les tags en majuscules (u = uppercase).
- c : remplacer FONT, NOBR, et CENTER avec des styles (à priori ces balises sont déjà flinguées par "htmlsoclean")
- latin1 : jeu de caractère ISO 8859-1 pour les accentués.
- -f fichier_erreur : envoi des erreurs relevés par Tidy sur un fichier pour lecture ultérieure. Sinon sorties d'erreur au terminal.
Tidy peut utiliser un fichier de config pour passer des options plus sophistiquées que sur la ligne de commande.
"numer" numérote automatiquement les titres (H1 H2 et H3) les niveau au delà ne sont pas considérés.
La numérotation est de type 1/... 1.1/ ... 1.2.1/
Bien entendu "numer" est optionnel...
l'étape suivante est de pouvoir refournir un source en .doc pour les corrections et les amélioration du document. Star Office doit pouvoir récupérer le "html source" pour en faire un .doc.
2.1/ Cas des documents comportants des images
2.1.1/ Les images sont fournis à part
- contrôle et retouche des images avec Gimp
- Implantation des liens dans les .htm de l'étape 4 ou 5
2.1.2/ Les images sont fournies intégrés au document DOC
- Faire une sortie en HTML par Word pour récuperer les GIF ( les sorties SO peuvent comprendre des erreurs).
- contrôle et retouche des images avec Gimp
- Intégrer les liens au .htm
2.2/ Bogues
Un bogue se Star Office 5.2 l'empêche de traiter correctement les titres numérotés et les listes numérotés de Word.
Il faut que les .doc ne comporte pas ce type de mise en page.
J'ai testé ce système avec un fichier Word assez long sans problème, ainsi qu'avec des doc CTR formatés sans précaution.
© copyright CIP Glenan