domenica 29 marzo 2009

Translator English Italian

Ripulire l'HTML generato da Word con Tidy

Come sapete Microsoft Word consente di salvare i suoi documenti anche in formato HTML, quindi subito pronti per il web. Fra le opzioni disponibili c'è anche quella di salva come "Pagina web (filtrata)" che consente di generare un HTML più pulito. Comunque sia, l'HTML generato è pieno di codice inutile ed illeggibile.

HTML Tidy nasce proprio per questo scopo: correggere l'HTML non valido e riordinare il codice sorgente di una pagina. Inizialmente sviluppato da un membro del W3C, è poi passato nelle mani dei volontari di sourceforge. Scritto in C è un'applicativo ma anche una libreria.

L'applicativo è a linea di comando ed ha tante opzioni. Ad esempio si può ripulire un html utilizzando un file di configurazione in questo modo:
tidy -config config.txt -m test.html

o passando direttamente i parametri
tidy –m –-uppercase-tags no –-word-2000 yes test.html

Nota: esiste uno speciale parametro word-2000 utilizzato per rimuovere tutte le cose in più inserite da Word durante il salvataggio.

Nessun commento:

Posta un commento