Letícia Silva - 04/09/2019
Ciência de Dados vem ganhando força e não é por acaso. A área, que deu seus primeiros passos na década de 60, quando a expressão foi citada no artigo “The Future of Data Analysis” por John Turkey, tem ganhado espaço considerável desde 2012, quando Data Scientist foi citada como a profissão mais sexy do séc. XXI num artigo da Harvard Business Review, uma das principais revistas de negócios do mundo corporativo (confira a matéria aqui).
Mas afinal, o que é essa tal de Data Science tão falada nos últimos tempos?
São percepções obtidas por representações feitas através de dados já existentes.
Essa foi a definição que consegui alcançar após ler artigos, livros e sites sobre o assunto. A ciência, que utiliza de milhares de dados para responder perguntas e solucionar problemas, se apropria da quantidade gigantesca de dados que são produzidos a todo momento para gerar insigths sobre um determinado tópico e obter respostas (que muitas vezes, nem se tinha conhecimento sobre sua existência).
O tema é mulidisciplinar, e engloba diversos aspectos da programação, matemática, estatística e probabilidade, e business. Não é a toa que cientista de dados é praticamente o próprio “unicórnio da programação”.
Raspagem de Dados, Cloud, Visualização de Dados, Machine Learning, Mineração de Dados, Álgebra Linear, Business Intelligence, Deep Learning, Análise de Dados, Inteligência Artificial e Estatística Bayesiana são só alguns dos conceitos e habilidades que podem ser “considerados” na hora de contratar um profissional para esse cargo.
A verdade é: você não precisa saber ou ter trabalhado com tudo isso, mas deverá estar muito disposto a aprender e desenvolver suas habilidades.
Programação
A linguagem predominante aqui é Python. Desenvolvida em 90, tem sintaxe que se assemelha muito ao inglês, é de fácil aprendizado e possui bibliotecas muito utilizadas pelos profissionais e iniciantes da área, como Pandas, SciKit Learn, Numpy, Matplotlib, SciPy, Scrapy e BeautifulSoup.
É utilizada principalmente para visualização, manipulação e modelagem de dados, desenvolvimento de modelos preditivos e aprendizado de máquina.
-
Materiais
-
Sempre indico para quem quer começar a aprender a linguagem, o curso gratuito Python para Zumbis do Fernando Masanori (nosso entrevistado no ep. 3 do Coluna7);
-
O livro Pense em Python 2e, disponibilizado gratuitamente pela comunidade Python;
-
A Programmer’s Guide to Data Mining traz explicações de como aplicar o conceito utilizando a linguagem Python;
- Python Data Science Handbook: como o próprio nome diz, consiste em um manual de Ciência de Dados voltado para Python;
-
O Coursera costuma disponibilizar diversos cursos da área de Data Science. Esse é sobre gráficos e a representação de dados com Python;
- A documentação da linguagem, que é bem completa, pode ser encontrada aqui.
-
A próxima linguagem da lista é o R. Queridinha dos estatísticos, ela nasceu no meio acadêmico e veio ganhando mercado nos últimos tempos. Aplicações nas áreas de Bioinformática, Climatologia, Engenharia e Mercado Financeiro são só alguns dos eixos em que R tem atuado.
É muito utilizada na plotagem de gráficos, criação de modelos matemáticos e manipulação de dados. Pacotes mais conhecidos: ggplot2, plotly, dplyr, shiny, caret, randomforest.
-
Materiais
-
O curso de Estatística da UFF (Universidade Federal Fluminense) mantém um site cheio de conteúdos, o Estatística com R. Nele há vários conteúdos de qualidade, todos em português;
-
Assim como a comunidade de Python, a de R costuma ser bem ativa nos conteúdos. O livro Hands-On Programming with R é uma boa forma de começar;
-
E se você já tem uma base na liguagem e quer se aprofundar em Ciência de Dados, R for Data Science é para você. Ele é focado em transformação, visualização e modelagem dos dados em R;
-
Caso queira ir direto no assunto, nesse link há um curso sobre visualização de dados;
-
Os termos da linguagem podem ser pesquisados aqui e a documentação do R-Project conferida aqui.
-
SQL (Structured Query Language) ou Linguagem de Consulta Estruturada é utilizada para fazer consultas em bancos de dados relacionais, interagir com diferentes tipos de dados, extrair as informações desejadas e modelar as informações de acordo com a sua categoria.
É muito utilizada para realizar acessos a base de dados e consultar informações.
Também existe o NoSQL, termo usado para falar sobre banco de dados não relacionais. Estão fortemente ligados ao Big Data.
-
Materiais
-
Curso de Análise de Dados com SQL, feito pela Codecademy;
-
Nesse curso, o SQL é ensinado a partir do princípio que seus alunos não tem conhecimento sobre o tema. Ele vai evoluindo gradativamente, até entrar na parte de Ciência de Dados.
-
Aqui você pode ler um artigo da Lauren Ferreira falando sobre a diferença entre SQL e NoSQL (acredite, é importante!).
-
Você já ouviu falar em Julia? A linguagem de programação possui múltiplos paradigmas, e foi desenvolvida para computação científica e técnica. Tem ganhado visibilidade por sua rapidez, que chega a ser mais até 30 vezes maior que o Python. Também é possível trabalhar com bibliotecas de outras linguagens dentro da linguagem (chamando bibliotecas de Python e R, por exemplo).
-
Materiais
-
O livro Think Julia: How to Think Like a Computer Scientist está disponível gratuitamente para visualização;
-
A Julia Academy possui cursos abertos e gratuitos para quem quiser se aprofundar no assunto;
-
Nessa série de vídeos o autor dá dicas, desde qual editor usar até ensinar como fazer uma regressão simples, utilizando a linguagem;
-
Sua documentação pode ser vista aqui.
-
Scala (Scalable Language) é uma linguagem baseada em Java, muito utilizada para soluções de Ciência de Dados escaláveis, desde a aquisição até a visualização dos dados. Não é tão popularizada por aqui, mas já é bem conhecida no exterior. Twitter, Github e FourSquare estão entre as empresas que aderiram seu uso.
-
Materiais
-
A primeira edição do livro Programming in Scala está disponível gratuitamente na web;
-
Sua documentação pode ser encontrada aqui.
-
De origem brasileira, Lua foi projetada, implementada e desenvolvida por uma equipe na PUC-RIO (Pontifícia Universidade Católica do Rio de Janeiro), e tem o objetivo de ser leve, poderosa e eficiente. Em Data Science, é muito utilizada para automatizar tarefas, como a coleta de dados, por exemplo.
-
Materiais
Matemática e Estatística e Probabilidade
Considerada o maior desafio de quem pensa em seguir na área,é muito utilizada quando se fala em modelos, algoritmos, predições e até análises. Tópicos como álgebra linear, estatística bayesiana, regressão linear, modelagem, quantificação e análise de incerteza são alguns dos conteúdos abordados.
-
Materiais
-
Essential Math for Machine Learning: Python Edition, disponível no EdX;
-
Fundamentals of Statistics, oferecido pelo MIT;
-
Curso de Estatística em português, pelo professor Thiago Marques;
-
Livro An Introduction to Statistical Learning with Applications in R;
-
Think Stats, livro sobre Probabilidade e Estatística para programadores;
-
Curso de Matemática da Khan Academy.
-
Business
Entender do negócio para conseguir solucionar o problema é parte crucial do processo, e nada melhor do que fazer isso trabalhando num projeto, certo?
Porém, muitas vezes o cientista de dados está iniciando na área e não teve oportunidade de desenvolver ou trabalhar em um projeto. Para ajudar nisso, há algumas plataformas e projetos que você pode contribuir, e ainda rechear seu portfólio!
-
Materiais
-
Nesse texto, Layla Comparin traz 20 portais com repletos de conjuntos de dados para análise;
-
O Kaggle propõe vários desafios com Data Science. São mais de 16.000 conjuntos de dados públicos e 200.000 anotações disponíveis;
-
Data Science for Social Good é projeto da Universidade de Chicago que ensina iniciantes na área a mexer com mineração de dados, aprendizado de máquina, big data e projetos com foco no impacto social.
Tem a duração de três meses.
-
Bônus! :D
E aqui, resolvi trazer algumas informações adicionais sobre tópicos que acho importante ou considero gerais. Saca só:
Inglês
É considerado indispensável em qualquer profissão ultimamente, e Ciência de Dados não fica fora disso. A parte legal de aprender algo obrigatório é que tem muito conteúdo bom e disponível na internet, como:
-
Esse curso, que tem plano gratuito e conta com aulas de professores nativos;
-
Nosso Duolingo de cada dia;
-
O LingoDeer, que também ajuda no inglês enquanto você tá dentro do ônibus indo pra faculdade, trabalho, rolê…
-
Kultivi, que tem cursos de idiomas de qualidade e gratuitos.
Repositórios, podcasts e afins
-
Materiais de estudo de R por Beatriz Milz;
-
Newsletter Harvard Data Science Review (agradecimentos ao Bruno Morassuti);
-
Guia do Cientista de Dados das Galáxias por Leticia Portella;
-
Plano de Estudos em Machine Learning, em português, por Italo José;
-
O site do Paulo Vasconcellos;
-
Blog do Brasil.io, por Álvaro Justen;
-
Beginner’s Guide to Machine Learning with Python por Oleksii Kharkovyna;
-
Newsletter Technology Review do MIT (agradecimentos a Carla Vieira);
-
Blog da Escola de Dados;
-
Podcast Pizza de Dados.
Conteúdos pagos
Eu tomei o cuidado de só disponibilizar conteúdos gratuitos até aqui, mas vou deixar nomes de alguns materiais pagos que acredito valer a pena a aquisição:
-
Python Fluente do querido Luciano Ramalho;
-
Data Science do Zero por Joel Grus;
OBS: Está escrito em Python 2. A edição com Python 3 deve ser lançada em breve;
-
Python para Análise de Dados de Wes McKinney;
-
Introdução À Mineração de Dados - Com Aplicação Em R por Leandro Augusto da Silva, Sarajane Marques Peres e Clodis Boscarioli;
-
Data Science Para Todos do DataBootcamp;
-
Nanodegree em Data Science pela Udacity;
-
Introdução ao Machine Learning com R da Curso-R;
-
Curso de Data Science da Digital House.
OBS: Desses conteúdos, só não tive a oportunidade ainda de adquirir os cursos citados.
Eu espero que esse pequeno manual te ajude a compreender melhor o que é Ciência de Dados e por onde começar. Ah, e o mais importante: não é preciso ser formado em TI, ter duas especializações, um PHD e 15 anos de experiência para migrar pra área, viu?! É só você querer e ter muita força de vontade e não desistir!
Ficou com dúvidas ou quer conversar sobre o assunto? Você pode me encontrar aqui.
Beijinhos, Lê <3