O que é Data Science?
“A profissão mais sexy do século” ou “Dados são o novo petróleo”, foram frases popular nos últimos anos, mas o que é mesmo Data Science?
Cientista de Dados é uma profissão que nem existia antes de 2008. Na verdade, até em 2012 quando consegui meu primeiro emprego o nome do cargo é Analista de Business Intelligence, mas de fato eu era uma espécie de Engenheiro de Dados. Acho que aqui no Brasil somente lá para os anos 2014 e 2015 que as empresas começaram a chamar de Cientistas de Dados ou Engenheiros de Dados. Foi o fim dos Departamentos de BI e o Inicio dos departamentos de Dados. Arquitetura de Dados, Data Analytics, Data Engineering e por ai vai.
E por que isso aconteceu? Ué, o mundo todo aumentou a produção de dados e as empresas descobriram o quanto elas podem acelerar os resultados e o suporte na tomada de decisões com os dados coletados.
Ciência de Dados pode salvar empresas, ou falir aquelas que insistem em negligenciar isso em pleno 2021.
Vejam o crescimento da busca por data science e ciência de dados desde 2012:
A necessidade por profissionais de dados cresceu tanto que alguns empregadores tem dificuldade em contratar. Isso faz com que os salários permaneçam altos, nos EUA a média salarial anual estava acima de 100.000 dólares em 2020. No Brasil o salário médio está por volta de R$6.000.
O interessante é que para trabalhar com dados você não é obrigado a ter cursado ciência da computação, temos bons profissionais com as mais diversas formações atuando na área. Por exemplo, se você veio do setor de saúde, como Cientista de Dados você pode trabalhar com médicos para analisar testes de remédios e vacinas, ajudar times esportivos a prever lesões de jogadores ou até criar modelos de precificação para produtos e negócios na área de beleza.
Em boas empresas, o esperado é que a equipe de dados tenha uma boa autonomia e esteja em constante aprendizado. Contudo, empresas que ainda estão começando a se estruturar podem cometer alguns erros como pensar que somente uma pessoa seria capaz de resolver todos os seus problemas com dados ao invés de estruturar uma equipe.
Outro erro clássico é acreditar que modelos de machine learning podem ser construídos imediatamente, sem necessidade de trabalho para preparar e limpar os dados.
Assim como outros profissionais, os cientistas de dados precisam de mentores para guiá-los. Demora um tempo até você aprender que os usuários não irão seguir a risca as suas orientações, que os recursos computacionais serão limitados e a limpeza dos dados não será uma constante e sim uma exceção.
Na verdade, a maior parte do tempo os profissionais de dados trabalham limpando e preparando os dados.
Outra grande dificuldade é trabalhar com os sistemas legados. Muitos erros estatísticos e técnicos podem atrapalhar a geração de relatórios e análise de dados. Infelizmente pouca gente costuma se interessar em corrigir os sistemas que "já estavam funcionando há anos". Sem falar dos relatórios que podem ser solicitados para dar suporte a alguma decisão já tomada pela alta administração. É nesse momento que você aprenderá a torturar os dados.
Chega de enrolação, o que é afinal Data Science?
O que é Data Science?
De modo geral, Ciência dos Dados é o trabalho de utilizar os dados para entender e resolver problemas do mundo real. As pessoas já analisavam tendências de vendas ou de comportamentos naturais desde a época do Egito, por exemplo. Com a cheia do rio Nilo os agricultores faziam estimativas de quanto iriam conseguir produzir no ano seguinte graças ao aumento do fertilidade do solo.
A questão e que na última década, nós ganhamos acesso a uma quantidade exponencial de dados. O avanço dos computadores, internet e sensores apoio o crescimento da análise de dados nas mais diversas área do conhecimento e negócios.
Com programação, os cientistas de dados podem processar e agregar todos esses dados, executar análises estatísticas ou treinar modelos de Machine Learning. Eles podem gerar relatórios e dashboards para o consumo de analistas comerciais, ou até mesmo criar modelos automáticos que recomendam produtos para clientes e tomam decisões autônomas de descontos ou ofertas especiais. O avanço do negócio de computação em nuvem também acelerou a ciência de dados, pois agora o custo de infraestrutura é menor e pago sob demanda.
Há um diagrama popular que explica o que seria a área de Data Science. O diagrama de Drew Conway diz que Data Science é uma junção entre conhecimentos matemáticos estatísticos, habilidades de programação e conhecimento do negócio.
Essa imagem acima possuiu outras variações e é muito usada para descrever a área. Acho interessante ele ter destacada a "Danger Zone", o local onde o profissional sabe programar, entende do negócio mas não sabe estatística. O perigo de fazer as inferências erradas pode acabar prejudicando um negócio no longo prazo, mesmo que "dê certo" no inicio.
Outros autores modificam um pouco essa visão. No livro Building a Career in Data Science os autores propõem esse diagrama abaixo:
Gosto da mudança do diagrama de Venn para um triângulo, pois deixamos de lado a visão que você precisa possuir uma habilidade ou não, como supõe a intuição de conjuntos do diagrama de Venn. Com o triângulo você pode possuir diversos níveis de conhecimento naquela área.
Eu também concordo que as três habilidades são necessárias e que uma formação universitária com certeza lhe ajudará (essa é outra polêmica). Mas você não precisa ser um expert em tudo (programação, estatística ou negócio). O triângulo proposto releva as diferente especialidades e empregos que existem na área. Temos profissionais com papeis diferentes que podem trabalhar em cada um dos lados desse triângulo.
Diferentes empresas vão nomear esses funcionários de nomes diferentes, como comentei no inicio, antigamente todo mundo era Analista de BI.
A depender das oportunidades e suas habilidades, você poderá se desenvolver e tornar um Especialista de Machine Learning (desenvolvendo e testando modelos) ou um profissional de Analytics (analisando os dados e produzindo insights). A minha opinião é que você deve estar preparado para navegar em cada uma dessas pontas até encontrar aquela que você melhor consegue entregar valor. São muitas as oportunidades e o mercado é muito dinâmico, não fique engessado com escolhas que fez no passado. Aproveite as oportunidades que a área de Dados estão oferecendo a todos.
Um dos erros dos formados em computação é não aprender as características do negócio que estão trabalhando
Por exemplo, se você trabalha no varejo e comércio eletrônico, estude e entenda como funciona o mercado. Isso vai lhe ajudar a entregar valor para a empresa e a criar melhores soluções. Imagine uma empresa de varejo que decide abrir uma nova loja em um novo estado. O cientista de dados pode analisar os dados históricos de localização dos endereços de pedidos online e identificar onde está a demanda de clientes. Pode também combinar a localização dos clientes com dados demográficos e de renda de acordo com o Censo ou pesquisas privadas daquela região. Com esses dados em mãos, a empresa pode decidir qual é o local ótimo para construir uma nova loja e o setor responsável pode fornecer opções e projeções para a área responsável.
Um outro exemplo são os sistemas de recomendação que podem aumentar as vendas online de itens que os consumidores "nem sabiam" que precisavam.
Você percebeu como de repente todos os sites possuem sistemas de recomendação?
Para essas aplicações, o cientista de dados carregaria os dados históricos e criaria um modelo que dado um certo carrinho de compras de um cliente, quais os produtos ele teria mais chances de também comprar. Existem diversas variações de técnicas de recomendação que não mencionaremos aqui, mas acho que deu para entender as oportunidades não é?
Nas próximas semanas vou abordar as dificuldades para começar uma carreira em Data Science e as dúvidas comuns: o que estudar, qual linguagem, quais tipos de vagas de emprego, como montar portfolio e etc.
Siga nas redes sociais ou no site para mais informações:
@aprendadatascience
www.aprendadatascience.com
Referências:
Farei outros artigos baseados no livro abaixo, mas se você quiser consumir direto da fonte, segue a recomendação: