Como obter uma lista de palavras a partir de um dicionário Aspell

Há algum tempo eu estava precisando de uma grande lista de palavras em português para fazer um teste sobre encoding e collation no PostgreSQL. A solução que eu encontrei foi fazer um dump de um dicionário pt_BR do Aspell.

Para extrair um dump no formato de uma palavra por linha, utilize o seguinte comando:

aspell -l pt_BR dump master | aspell -l pt_BR expand | tr ' ' '\n' > palavras.txt

O comando acima extrairá todas as palavras (inclusive as variações) do dicionário pt_BR do Aspell e salvará a lista no arquivo “palavras.txt”.

A partir desse arquivo você pode carregar as palavras (na versão do Aspell que estou usando – a versão 0.60.6.1 – a lista contém 9.533.294 palavras) para bancos de dados ou planilhas.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *