Outils logiciels

page précédente
les différentes étapes de récupération d'un ".doc"
[ table des matiéres ]
[ Retour a la page d'accueil ]
[ liste générale des documents ]
page suivante
Script "FAIT"

3/ Script htmsoclean

3.1/ Principe

"htmlsoclean" Vise à supprimer les formatage "physiques" du HTML par des formatages logiques.

# "htmlsoclean" supprime toutes les balises sauf :

                     H1
                     H2             # Niveau de titre
                     H3
                     P              # Niveau de texte
                     SPAN
                     BR
                     BLOCKQUOTES
                     DIV
                     TABLE          # Tableau
                     TR
                     TD
                     THEAD
                     TBODY
                     TFOOT
                     CAPTION
                     COLSPAN
                     ROWSPAN
                     ALIGN
                     VALIGN
                     BORDER
                     UL             #listes
                     LI
                     OL
                     ACRONYM        #  Type de texte (formatage logique)
                     EM             #  (texte mis en évidence)
                     STRONG         # (autre mise en évidence)
                     PRE            # (pré-formaté)
                     CITE           # (origine d'une citation)  
                     ADDRESS
                     ABBR           #   (abréviation)
                     CODE           # (code programme informatique.)
                     DEL            # (texte supprimé)
                     INS            # (texte inséré)
                     SUB            #  indice
                     SUP            #  exposant
                     A              # texte barré (strike)
                     S              #  Liens 
                     IMG            #  Images
                     HTML
                     HEAD
                     BODY

# remplacement de toutes les formatages physiques par des formatages logique <EM> sauf le S (Strike : barré) :

# Remplacement des <font size> agrandi par des STRONG

# Remplacement des balises anciennes <CENTER> par <DIV ALIGN="CENTER">

# La balise P ne doit garder que l'attribut ALIGN avec les valeurs possibles : CENTER, LEFT, RIGHT, JUSTIFY
# Remplacement des ALIGN="LEFT" par rien dans les balise P

# les balises de formatage logique sont vidées :

           H1
	   H2
	   H3
	   UL             #listes
	   LI
	   OL 
	   ACRONYM        #  Type de texte (formatage logique)
	   EM             #  (texte mis en evidence)
	   STRONG         # (autre mise en évidence)
	   PRE            # (préformaté)
	   CITE           # (origine d'une citation)  
	   ADDRESS
	   ABBR           #   (abreviation)
           CODE           # (code programme informat.)
	   DEL            # (texte supprimé)
	   INS            # (texte inséré)
	   SUB            #  indice
	   SUP            #  exposant
           S              # texte barré (strike)
	   BODY

3.2/ Synopsis

htmsoclean fichier-a-traiter

3.3/ Arguments

Un seul argument : le nom du fichier html à traiter
Le fichier traité est sortie sur la sortie standard.

3.4/ Options

Pas d'options

3.5/ Environnement

Pas de variables d'environnement.

3.6/ Licence

Licence GPL.
Ce script est distribué tel quel sans aucune garantie.

3.7/ Auteur

Sylvain Pujolle, CIP Glenan
CIP glenan
BP 525
29185 CONCARNEAU CEDEX

cip.glenans@free.fr

3.8/ Bogues

Il n'y a aucun traitement des erreurs.
Le script a été conçu pour les fichiers sorties par Star Office uniquement.
page précédente
les différentes étapes de récupération d'un ".doc"
[ table des matiéres ]
[ Retour a la page d'accueil ]
[ liste générale des documents ]
page suivante
Script "FAIT"
logo CIP Les Glenan, l'école :
http://cip.glenans.free.fr
© copyright CIP Glenan