Uma pergunta que sempre me fazem quando converso com alguém sobre análise de dados é: “que software devo usar para isso”? E a resposta é, invariavelmente, “depende”.
Existem ótimas opções open-source e comerciais que fazem basicamente a mesma coisa, de modo mais fácil ou mais difícil. Informo aqui as principais opções existentes hoje em dia.
As principais alternativas comerciais “na moda” hoje em dia são:
- Stata (http://www.stata.com/)
- SAS (http://www.sas.com/)
- SPSS (http://www.ibm.com/analytics/us/en/technology/spss/)
- MATLAB (http://www.mathworks.com/products/matlab.html)
As principais alternativas open-source hoje em dia são:
- R (http://www.r-project.org/)
- Python (http://www.python.org/)
- GNU Octave (http://www.gnu.org/software/octave/)
O Stata, SAS, SPSS e R são softwares de análise estatística que evoluíram para incluir muitas outras ferramentas.
O Python não é um software estatístico, é uma linguagem de programação, mas conta com inúmeros packages de análise de dados e ferramentas avançadas, e hoje já é uma alternativa viável e bastante utilizada.
O MATLAB e o Octave são mais voltados à matemática mas também contam com packages opcionais que os tornam ferramentas poderosas para análise de dados.
Em resumo:
- Se você quer as melhores ferramentas disponíveis, e de graça, vá de R, Octave e Python: você terá todas as ferramentas de análise mais avançadas disponíveis hoje em dia por um custo/benefício imbatível: nada. Obviamente a curva de aprendizado será bem maior. ATENÇÃO: de graça aqui não quer dizer ruim! O R hoje é considerado a lingua franca da análise de dados e está tornando-se o padrão mundial nesse campo.
- Se você quer o MATLAB ao invés do Octave, para começar a aprender (sem uso comercial) pode gastar até uns 300 dólares para adquirir a licença “Student” ou “Home”. Se for usar comercialmente reserve mais ou menos 3.000 dólares para a licença padrão. ATENÇÃO: um dos objetivos do Octave é ser 100% compatível com o MATLAB portanto, você pode aprender com o Octave e depois migrar facilmente para o MATLAB.
- Se você quer um sistema comercial com interface gráfica amigável com um custo/benefício razoável, adquira o Stata por certa de 1.700 dólares (de todos os softwares comerciais, é o que tem o melhor custo benefício).
- Se você quer um sistema com interface gráfica amigável e tem mais dinheiro para gastar, pode ir de SPSS ou SAS.
E quais eu uso hoje em dia?
- R: basicamente para quase tudo
- Octave e MATLAB: para algumas coisas bem específicas
- Python: para algumas coisas bem específicas
- Stata: para algumas coisas bem específicas
Não uso o SPSS e o SAS por dois motivos: não tenho a licença e a lista acima resolve todas as minhas necessidades.
Meu conselho é: comece com o R e o Octave; quando precisar de funcionalidades que uma linguagem de programação oferece, acrescente o Python. E para necessidades específicas, o Stata e o MATLAB!
Além desses softwares citados existem centenas de outros disponíveis, cada um com suas vantagens e desvantagens e aplicações específicas, por exemplo: se preciso fazer uma análise rápida estritamente epidemiológica, não utilizo nenhum dos que citei anteriormente mas, sim, o Epi Info (http://www.cdc.gov/epiinfo/). O importante é você ter claro a necessidade de análise e saber qual o software mais adequado (ou o mais fácil ou rápido, pois todos fazem basicamente a mesma coisa).