Conversão HTML -> TXT com Lynx
Colaboração: Rubens Queiroz de Almeida
Data de Publicação: 22 de Fevereiro de 2002
Para converter documentos no formato HTML para texto puro podemos usar o lynx, que é um browser Web que emprega o formato texto.
Podemos empregar a seguinte sintaxe:
lynx -dump -nolist arquivo.html
Se você quiser converter milhares de documentos, você pode tentar algo do tipo:
#!/bin/bash for file in *.html do lynx -dump -nolist $file > ``echo $file | sed 's/html/txt/'`` done
ou ainda, para converter toda uma árvore de diretórios:
#!/bin/bash -x for file in ``find . -type f -name \*html`` do lynx -dump -nolist $file > ``echo $file | sed 's/html/txt/'`` done
Existem binários para diversas plataformas além do Unix, como Macintosh, Windows, VMS.
Mais informações sobre o Lynx podem ser encontradas em http://lynx.browser.org/