unaccent - Remoção de acentuação de arquivos ou strings de texto
Colaboração: Rubens Queiroz de Almeida
Data de Publicação: 03 de junho de 2016
No portal Dicas-L a url dos textos é uma representação, sem acentuação e sem espaços em branco, do título da mensagem.
Por exemplo, o título "Remoção de acentuação" irá gerar a url "remocao_de_acentuacao".
Existem várias maneiras de se fazer isto, porém a mais simples dela é por meio do comando
unaccent
, de autoria de Loic Dachary. OBS.: os espaços em branco na url são substituídos
por meio do comando sed
.
O uso é bastante simples, basta especificar a codificação do texto a ser convertido e fornecer o texto desejado:
$ unaccent ISO-8859-1 João
Para retirar a acentuação do texto contido em um arquivo:
$ unaccent ISO-8859-1 < arquivo_COM_acentuacao.txt > arquivo_SEM_acentuacao.txt