Fundamentos de Análise Exploratória de Dados

O que é? Onde mora? O que come essa tal de EDA?

EDA - Exploratory Data Analysis

Dados podem ser uma coleção de objetos, números, palavras, eventos, fatos, medidas ou mesmo apenas uma descrição de coisas do mundo real. Tais dados são coletados e armazenados devido a eventos ou processos que ocorrem em diversas disciplinas como biologia, economia, engenharia e marketing.

O processamento desses dados produz informação. Essa informação analisada em um determinado contexto produz conhecimento.

Dados se transformam em informação e informação vira conhecimento

A maioria das empresas já "tem uma noção" da importância dos dados, mas possuem muitas dúvidas em como utilizar esses dados no seu negócio.

"Como transformar dados em informação útil e com significado para o meu negócio?"

A resposta para essa pergunta tem três letras: EDA (Exploratory Data Analisys). O termo em português é Análise Exploratória dos Dados. Significa o processo de examinar os conjuntos de dados disponíveis para descobrir padrões, anomalias, testar hipóteses e validar suposições utilizando medidas estatísticas.

A seguir, você irá aprender algumas das etapas necessárias para realizar uma análise exploratória dos dados e começar a compreender melhor os dados de uma organização.


Hoje em dia, o Cientista de Dados não é responsável somente por criar um modelo, é importante que ele consiga explicar os resultados obtidos e que o resultado possa ser utilizado para melhorar o negócio. Por isso, as pessoas costumam dizer que a ciência de dados envolve conhecimentos multi-disciplinar de Ciência da Computação, Dados, Estatística e Matemática.

Um cientista de dados pode estar envolvido em várias fases da análise de dados, incluindo os requisitos para os dados, coleta, processamento, limpeza, exploração, modelagem, algoritmos, implantação em produção e comunicação.

Os componentes principais da análise exploratória de dados incluem a sumarização de dados, análise estatística e visualização de dados.

O Python possui muitas ferramentas para isso: pandas para sumarização; scipy para análise estatística; matplotlib e plotly para visualizações.

Etapas na Análise Exploratória de Dados

Basicamente, existem quatro etapas diferentes; Vamos defini-las brevemente:

Definição do problema:

Antes de sair por aí tentando extrair informação útil ou um insight a partir dos dados, é essencial definir o problema de negócio que precisa ser resolvido. A definição do problema funciona como a força motora para um plano de análise de dados, ter essa motivação bem clara é essencial para o sucesso. As principais tarefas dessa etapa são definir o objetivo da análise, quais os entregáveis, listar os papéis e responsabilidades dos membros, obter o status atual dos dados, definir o tempo para finalização e quando pretendem utilizar a informação e o definir também o custo benefício desse trabalho.

Preparação dos Dados:

Essa etapa envolve métodos para preparar os dados para a análise de fato. Aqui são definidas as fontes dos dados, os schemas e tabelas assim como as principais características dos dados. Também é realizada a limpeza e deleção dos dados não relevantes para o problema. Os dados são transformados e divididos em pedaços nessa etapa.

Fontes Heterogêneas: Atualmente os dados são coletados das mais diversas fontes (pesquisas, sistemas internos, internet, vendas). Tratar esses dados e uni-los em uma única plataforma vem se tornando um desafio pro setor.

Análise de Dados:

Essa é efetivamente a etapa mais importante. Lida com estatística descritiva e análise dos dados. As principais tarefas são sumarização dos dados, busca de correlações "ocultas" e relacionamentos entre os dados, desenvolvimento de modelos preditivos, avaliação de modelos e cálculo de precisão. São utilizadas tabelas, grafos, estatística descritiva, inferência, busca e agrupamento, além de modelos matemáticos nessa etapa.

Desenvolvimento e Representação dos Resultados:

Essa etapa envolve a apresentação dos resultados para a audiência/stakeholders através de gráficos, resumos, mapas e diagramas. É uma etapa essencial. Durante muito tempo foi desprezada pelos técnicos, mas cada vez mais as habilidades de storytelling tem sido valorizadas. Os resultados precisam ser interpretados pelas áreas de negócio e clientes, na verdade esse é o principal objetivo de toda a EDA. Entre os gráficos utilizados podemos citar o gráfico de dispersao (scattering plots), histogramas, box plots e outros. Habilidades em visualização de dados são muito exigidas também e vale a pena investir um certo tempo para aprender mais sobre isso.


Conclusão


A Análise Exploratória de Dados tem um papel muito importante no novo cenário data-driven que as organizações vem enfrentando.

O sucesso do planejamento e execução de cada uma das etapas entregará o melhor resultado para o cliente.

Quando comparamos com a análise clássica dos dados, fica fácil de enxergar que agora o foco está nos dados, sua estrutura, outliers e representação. Não no modelo de previsão.

Nos siga em @aprendadatascience para mais informações.