Ciência de dados

A Estatística se dedica à coleta, análise e interpretação de dados e se preocupa com os métodos de obtenção, organização, resumo, apresentação e interpretação deles, para extrair conclusões sobre as características das fontes de onde estes foram retirados a fim de melhor compreender as situações (Wikipédia). 

A Ciência de Dados extrai insights significativos para os negócios. É uma abordagem multidisciplinar que combina princípios e práticas das áreas de matemática, estatística, inteligência artificial e engenharia da computação para analisar grandes quantidades de informações (Amazon).

A Dennis Caceta Consultoria em Gestão Empresarial é apta a estudar as bases de dados dos clientes para, com ferramentas estatísticas apropriadas e adotando técnicas de pesquisa operacional, estruturar modelos preditivos (simulação e otimização) que reduzem os desperdícios e maximizam as receitas, além de criar formas para acompanhamento e visibilidade dos resultados (dashboards). 

Conheça abaixo alguns exemplos das ferramentas esta´tisitcas que são utilizadas:

Predição e Séries Temporais

As séries temporais formadas por informações históricas podem ser utilizadas para criar modelos de predição que considerem, a existência ou não, de tendência e/ou sazonalidade e gerar estimativas futuras.

Os dados da movimentação total do Porto de Santos, pertinentes ao período entre 2018 e 2023 (fonte: Autoridade Portuária de Santos¹) aplicados ao método de Winters geraram as previsões mensais para o ano de 2024 e sugerem, para um intervalo de predição de 95% que, o atingimento anual da movimentação seja em torno de 198 milhões de toneladas.

¹https://www.portodesantos.com.br/informacoes-operacionais/estatisticas/mensario-estatistico/

Correlação linear e regressão

A correlação entre duas variáveis de tipo quantitativo descreve a associação entre essas variáveis. A forma da nuvem de pontos, representada no diagrama de dispersão, pode mostrar uma associação linear entre as duas variáveis, que pode ser expressa numericamente pelo coeficiente de correlação amostral de Pearson. (https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3576830).


Caso sejam analisadas as quantidades de soja (em ton.) embarcadas nos últimos 5 anos (fonte: MDIC) pelos principais portos do Brasil, será percebido que existe entre Santos e Manaus, uma correlação positiva quase que "muito-forte", ou seja, quando o volume de um aumenta/diminui, o do outro acompanha através de uma equação quadrática que, com significância estatística, pode explicar praticamente 80% desta variação.

Mapa de calor

Mapas de calor indicam de forma visual e intuitiva, a evolução de variáveis ao longo do tempo.

Tenha-se o INPC- Índice Nacional de Preços ao Consumidor /fonte: IBGE - e a intensidade de sua variação demonstrada no período de  janeiro/2012 à outubro/2023.

Regressão Múltipla

A regressão múltipla traz a oportunidade de projetar resultados únicos, através da relação existente entre eles e diversos fatores, como a variação do consumo de combustível em virtude da idade do veículo, peso transportado, velocidade média performada, etc. 

Como exemplo tenha-se a determinação da temperatura do ar através de sua umidade relativa, da velocidade do vento e da pressão atmosférica.

Com os dados históricos obtidos pelo INMET (Instituto Nacional de Metereologia) e referentes à cidade de Rondonópolis/MT, durante o ano de 2023, (https://portal.inmet.gov.br/dadoshistoricos), pode-se estimar a temperatura por:

T = -42908 - 24,25 X1 + 0,943 X2 + 88,27 X3 - 0,1920 X1^2 - 0,04536 X3^2 - 0,00884 X1*X2 + 0,02661 X1*X3 - 0,001147 X2*X3

Sendo:

  •  T: Temperatura do ar;
  • X1: Velocidade do Vento;
  • X2: Umidade relativa do ar e 
  • X3: Pressão atmosférica.

Teste de hipóteses

Um teste de hipóteses é o tipo de análise estatística que verifica, baseado em dado nível de significância se, há evidências suficientes para aceitar (estatisticamente) uma dada afirmação.

Os gráficos a seguir foram construídos com as informações que estão publicadas/disponíveis no website de um dos maiores operadores portuários brasileiros e, demonstram o tempo de atracação (em horas) dos navios que lá operaram neste ano (até 31/10/23) para um mesmo serviço, porém, em viagens de sentidos diferentes (Vg1 e Vg2). 

Suponha que haja a intenção de utilizar, em estudos futuros de ocupação de berço, um único valor para o tempo de atracação sem considerar o sentido da viagem pois, o histórico demonstra que as médias (m1 e m2) são "muito próximas" e assim, separá-las demandaria tempo e seria um "preciosismo desnecessário"... 

Então, antes de agir deste ou daquele modo, decide-se validar a ideia com um teste de hipóteses e comprova-se que SIM, as médias são estatisticamente diferentes pois uma quantidade de eventos (presentes nas amostradas) maior que o nível de significância (5%) adotado demonstra isto (P=0,0019) e, desta forma, considera-las iguais incorreria em um erro!

Correlograma

Correlograma pode ser um gráfico que demonstra por cores, a força da correlação (positiva ou negativa) entre duas ou mais grandezas. 


Aqui é estudado, para algumas mercadorias, a correlação das quantidades movimentadas por todas as concessionárias ferroviárias e entre o período de 2006 à 2022. (https://www.gov.br/antt/pt-br/assuntos/ferrovias/anuario-do-setor-ferroviario/arquivos-tabelas-excel)

Neste caso pôde-se observar que, os Granéis Minerais e a Celulose têm uma correlação negativa¹ "muito forte" (-0,92) enquanto que uma correlação positiva² muito forte (+0,90) acontece entre Soja/Farelo e Celulose.

¹correlação negativa = supõe que as grandezas evoluem em sentidos opostos (p.ex.: quando uma aumenta a outra diminui)²correlação positiva = supõe que as grandezas evoluem no mesmo sentido (p.ex.: quando uma aumenta/diminui a outra acompanha).

Carta de controle

Cartas de controle são ferramentas que podem ser utilizadas para acompanhar a evolução de um processo, antes e após uma dada intervenção e/ou período, a fim de verificar se houve (ou não) mudança significativa nas variáveis controladas conforme desejado/esperado.

Logo, tanto a média quanto a variabilidade (desvio padrão) dos valores em relação a ela são analisados dentro de um determinado nível de significância. A resposta pode ser gráfica e analítica. Tenha como exemplo a verificação da qualidade de água das praias, baseada na densidade de enterococos encontradas nas amostras (fonte: CETESB – Companhia Ambiental do Estado de São Paulo). Ao comparar os resultados obtidos, em uma delas, nos anos de 2012 e 2022 (gráfico abaixo) percebe-se que, houve um aumento significativo nas médias e, pouco representativo nas variabilidades, sendo estes resultados, comprovados por teste estatístico (P=0,715 e P=0,003, respectivamente).