Prof. Tiago Almeida

Prof. Tiago Almeida

A análise estatística, bem conduzida, é uma dissecação delicada de incertezas, uma cirurgia de suposições. ~ M.J. Moroney

R ou Python para ciência de dados?

29 de maio de 2020

Há muita discussão acalorada sobre o tópico, mas também existem artigos excelentes e atenciosos. Alguns sugerem que o Python é preferível como uma linguagem de programação de uso geral, enquanto outros sugerem que a ciência de dados é mais bem servida por uma linguagem e uma cadeia de ferramentas dedicadas. As origens e os arcos de desenvolvimento das duas línguas são comparados e contrastados, geralmente para apoiar conclusões diferentes.

Para cientistas de dados individuais, alguns pontos comuns a serem considerados:

  • Python é uma ótima linguagem de programação geral, com muitas bibliotecas dedicadas à ciência de dados.
  • Muitos (se não a maioria) dos cursos gerais de programação introdutória começam a ensinar com o Python agora.
  • Python é a linguagem preferida para muitos fluxos de trabalho de ETL e Machine Learning.
  • Muitos (se não a maioria) dos cursos introdutórios de estatística e ciência de dados ensinam R agora.
  • O R se tornou o maior repositório de conhecimento estatístico do mundo, com implementações de referência para milhares, se não dezenas de milhares, de algoritmos que foram examinados por especialistas. A documentação para muitos pacotes R inclui links para a literatura primária sobre o assunto.
  • O R tem uma barreira muito baixa à entrada para fazer análises exploratórias e converter esse trabalho em um ótimo relatório, painel ou API.
  • R com o RStudio é frequentemente considerado o melhor local para fazer análise exploratória de dados.

Fonte: https://blog.rstudio.com/2019/12/17/r-vs-python-what-s-the-best-for-language-for-data-science/