Letícia Silva - 04/09/2019

Ciência de Dados vem ganhando força e não é por acaso. A área, que deu seus primeiros passos na década de 60, quando a expressão foi citada no artigo “The Future of Data Analysis” por John Turkey, tem ganhado espaço considerável desde 2012, quando Data Scientist foi citada como a profissão mais sexy do séc. XXI num artigo da Harvard Business Review, uma das principais revistas de negócios do mundo corporativo (confira a matéria aqui).

Mas afinal, o que é essa tal de Data Science tão falada nos últimos tempos?

São percepções obtidas por representações feitas através de dados já existentes.

Essa foi a definição que consegui alcançar após ler artigos, livros e sites sobre o assunto. A ciência, que utiliza de milhares de dados para responder perguntas e solucionar problemas, se apropria da quantidade gigantesca de dados que são produzidos a todo momento para gerar insigths sobre um determinado tópico e obter respostas (que muitas vezes, nem se tinha conhecimento sobre sua existência).

O tema é mulidisciplinar, e engloba diversos aspectos da programação, matemática, estatística e probabilidade, e business. Não é a toa que cientista de dados é praticamente o próprio “unicórnio da programação”.

Raspagem de Dados, Cloud, Visualização de Dados, Machine Learning, Mineração de Dados, Álgebra Linear, Business Intelligence, Deep Learning, Análise de Dados, Inteligência Artificial e Estatística Bayesiana são só alguns dos conceitos e habilidades que podem ser “considerados” na hora de contratar um profissional para esse cargo.
A verdade é: você não precisa saber ou ter trabalhado com tudo isso, mas deverá estar muito disposto a aprender e desenvolver suas habilidades.


Programação

A linguagem predominante aqui é Python. Desenvolvida em 90, tem sintaxe que se assemelha muito ao inglês, é de fácil aprendizado e possui bibliotecas muito utilizadas pelos profissionais e iniciantes da área, como Pandas, SciKit Learn, Numpy, Matplotlib, SciPy, Scrapy e BeautifulSoup.
É utilizada principalmente para visualização, manipulação e modelagem de dados, desenvolvimento de modelos preditivos e aprendizado de máquina.

  • Materiais

    • Sempre indico para quem quer começar a aprender a linguagem, o curso gratuito Python para Zumbis do Fernando Masanori (nosso entrevistado no ep. 3 do Coluna7);

    • O livro Pense em Python 2e, disponibilizado gratuitamente pela comunidade Python;

    • A Programmer’s Guide to Data Mining traz explicações de como aplicar o conceito utilizando a linguagem Python;

    • Python Data Science Handbook: como o próprio nome diz, consiste em um manual de Ciência de Dados voltado para Python;
    • O Coursera costuma disponibilizar diversos cursos da área de Data Science. Esse é sobre gráficos e a representação de dados com Python;

    • A documentação da linguagem, que é bem completa, pode ser encontrada aqui.

A próxima linguagem da lista é o R. Queridinha dos estatísticos, ela nasceu no meio acadêmico e veio ganhando mercado nos últimos tempos. Aplicações nas áreas de Bioinformática, Climatologia, Engenharia e Mercado Financeiro são só alguns dos eixos em que R tem atuado.
É muito utilizada na plotagem de gráficos, criação de modelos matemáticos e manipulação de dados. Pacotes mais conhecidos: ggplot2, plotly, dplyr, shiny, caret, randomforest.

  • Materiais

    • O curso de Estatística da UFF (Universidade Federal Fluminense) mantém um site cheio de conteúdos, o Estatística com R. Nele há vários conteúdos de qualidade, todos em português;

    • Assim como a comunidade de Python, a de R costuma ser bem ativa nos conteúdos. O livro Hands-On Programming with R é uma boa forma de começar;

    • E se você já tem uma base na liguagem e quer se aprofundar em Ciência de Dados, R for Data Science é para você. Ele é focado em transformação, visualização e modelagem dos dados em R;

    • Caso queira ir direto no assunto, nesse link há um curso sobre visualização de dados;

    • Os termos da linguagem podem ser pesquisados aqui e a documentação do R-Project conferida aqui.


SQL (Structured Query Language) ou Linguagem de Consulta Estruturada é utilizada para fazer consultas em bancos de dados relacionais, interagir com diferentes tipos de dados, extrair as informações desejadas e modelar as informações de acordo com a sua categoria.
É muito utilizada para realizar acessos a base de dados e consultar informações.

Também existe o NoSQL, termo usado para falar sobre banco de dados não relacionais. Estão fortemente ligados ao Big Data.

  • Materiais

    • Curso de Análise de Dados com SQL, feito pela Codecademy;

    • Nesse curso, o SQL é ensinado a partir do princípio que seus alunos não tem conhecimento sobre o tema. Ele vai evoluindo gradativamente, até entrar na parte de Ciência de Dados.

    • Aqui você pode ler um artigo da Lauren Ferreira falando sobre a diferença entre SQL e NoSQL (acredite, é importante!).


Você já ouviu falar em Julia? A linguagem de programação possui múltiplos paradigmas, e foi desenvolvida para computação científica e técnica. Tem ganhado visibilidade por sua rapidez, que chega a ser mais até 30 vezes maior que o Python. Também é possível trabalhar com bibliotecas de outras linguagens dentro da linguagem (chamando bibliotecas de Python e R, por exemplo).

  • Materiais

    • O livro Think Julia: How to Think Like a Computer Scientist está disponível gratuitamente para visualização;

    • A Julia Academy possui cursos abertos e gratuitos para quem quiser se aprofundar no assunto;

    • Nessa série de vídeos o autor dá dicas, desde qual editor usar até ensinar como fazer uma regressão simples, utilizando a linguagem;

    • Sua documentação pode ser vista aqui.


Scala (Scalable Language) é uma linguagem baseada em Java, muito utilizada para soluções de Ciência de Dados escaláveis, desde a aquisição até a visualização dos dados. Não é tão popularizada por aqui, mas já é bem conhecida no exterior. Twitter, Github e FourSquare estão entre as empresas que aderiram seu uso.

  • Materiais

    • A primeira edição do livro Programming in Scala está disponível gratuitamente na web;

    • Sua documentação pode ser encontrada aqui.


De origem brasileira, Lua foi projetada, implementada e desenvolvida por uma equipe na PUC-RIO (Pontifícia Universidade Católica do Rio de Janeiro), e tem o objetivo de ser leve, poderosa e eficiente. Em Data Science, é muito utilizada para automatizar tarefas, como a coleta de dados, por exemplo.

  • Materiais

    • Há um manual de referência disponível no site oficial que pode ser encontrado aqui;

    • A UFES (Universidade Federal do Espírito Santo) produziu um material gratuito sobre o assunto;

    • Documentação e dicas de livros podem ser acessados nesse link.


Matemática e Estatística e Probabilidade

Considerada o maior desafio de quem pensa em seguir na área,é muito utilizada quando se fala em modelos, algoritmos, predições e até análises. Tópicos como álgebra linear, estatística bayesiana, regressão linear, modelagem, quantificação e análise de incerteza são alguns dos conteúdos abordados.


Business

Entender do negócio para conseguir solucionar o problema é parte crucial do processo, e nada melhor do que fazer isso trabalhando num projeto, certo?
Porém, muitas vezes o cientista de dados está iniciando na área e não teve oportunidade de desenvolver ou trabalhar em um projeto. Para ajudar nisso, há algumas plataformas e projetos que você pode contribuir, e ainda rechear seu portfólio!

  • Materiais

    • Nesse texto, Layla Comparin traz 20 portais com repletos de conjuntos de dados para análise;

    • O Kaggle propõe vários desafios com Data Science. São mais de 16.000 conjuntos de dados públicos e 200.000 anotações disponíveis;

    • Data Science for Social Good é projeto da Universidade de Chicago que ensina iniciantes na área a mexer com mineração de dados, aprendizado de máquina, big data e projetos com foco no impacto social.
      Tem a duração de três meses.


Bônus! :D

E aqui, resolvi trazer algumas informações adicionais sobre tópicos que acho importante ou considero gerais. Saca só:

Inglês

É considerado indispensável em qualquer profissão ultimamente, e Ciência de Dados não fica fora disso. A parte legal de aprender algo obrigatório é que tem muito conteúdo bom e disponível na internet, como:

  • Esse curso, que tem plano gratuito e conta com aulas de professores nativos;

  • Nosso Duolingo de cada dia;

  • O LingoDeer, que também ajuda no inglês enquanto você tá dentro do ônibus indo pra faculdade, trabalho, rolê…

  • Kultivi, que tem cursos de idiomas de qualidade e gratuitos.


Repositórios, podcasts e afins


Conteúdos pagos

Eu tomei o cuidado de só disponibilizar conteúdos gratuitos até aqui, mas vou deixar nomes de alguns materiais pagos que acredito valer a pena a aquisição:

OBS: Está escrito em Python 2. A edição com Python 3 deve ser lançada em breve;

OBS: Desses conteúdos, só não tive a oportunidade ainda de adquirir os cursos citados.


Eu espero que esse pequeno manual te ajude a compreender melhor o que é Ciência de Dados e por onde começar. Ah, e o mais importante: não é preciso ser formado em TI, ter duas especializações, um PHD e 15 anos de experiência para migrar pra área, viu?! É só você querer e ter muita força de vontade e não desistir!

Ficou com dúvidas ou quer conversar sobre o assunto? Você pode me encontrar aqui.

Beijinhos, Lê <3