Estatística e Big Data: união indispensável

A estatística está presente em grande parte dos cursos universitários. Com frequência, é vista como aquela disciplina chata, trabalhosa, pouco atrativa. Até pouco tempo atrás, a profissão de estatístico não despertava muita atenção, era pouco “sexy”. O avanço tecnológico na captura de dados, no entanto, mudou esse panorama. Hoje, além de ser uma das carreiras mais promissoras do mercado, a estatística se tornou a chave para compreender a avalanche de informações geradas pelos mais diversos setores, motor mesmo de economias nacionais.

Para começar, é preciso ter claro que a importância da estatística não é novidade. Historicamente, foi fator fundamental para o desenvolvimento social, para a gestão governamental, para a tomada de decisões em diversos âmbitos. Está fortemente presente no progresso científico e tecnológico, nas estratégicas econômicas. Esteve na origem dos estudos demográficos, há mais de três séculos. Essas evidências apontam que a estatística já tinha relevância muito antes de conhecermos o termo Big Data.

A possibilidade de analisarmos gigantescos volumes de dados em tempo real, entretanto, realça o papel dessa área de conhecimento. De nada serve ter muita informação sem que se possua a capacidade de interpretá-la. Por outro lado, as características do Big Data desafiam alguns preceitos da estatística, baseada em modelos rígidos para garantir a conformidade de seus resultados. Assim, se buscam métodos que permitam a confluência entre os conhecimentos estatísticos e as peculiaridades das bases de dados. Não é à toa que se criou a carreira de “cientista de dados”. Além de modelos matemáticos, esses profissionais devem entender também de TI, tendências e soluções de problemas.

Big Data na estatística oficial

Um dos setores que está sendo desafiado pelo Big Data é da estatística oficial. Quem nunca duvidou dos dados fornecidos pelo governo sobre inflação? Tentativas políticas de mascarar informações já são célebres, não só no Brasil. Também previsões apresentadas por institutos renomados já foram postas em questão. A grande quantidade de informações que pessoas e empresas geram a cada minuto alteram essa perspectiva, já que o conhecimento não estaria à disposição somente de organismos oficiais ou poderosos.

De outra parte, o custo envolvido em atividades censitárias ou de cálculo do PIB, por exemplo, passou a ser questionado. Em sociedades mais avançadas tecnologicamente, a realização de censos pode ser substituída pelo acompanhamento de práticas cotidianas. Número de documentos expedidos, registros de saúde, segurança social, educação. Claro, ainda há uma imensa dificuldade de implantar esse tipo de metodologia em sociedades não digitais. Mas a rapidez da expansão tecnológica deixa entrever que em breve isso não será mais um problema.

A integração de Big Data na estatística oficial deve transformar a forma como as pesquisas são conduzidas. Combinando informações administrativas e grandes fontes de dados, novas modelagens devem surgir nos institutos oficiais. Ampliação de fontes e redução de custos, bem como a busca por precisão, justificam essa significativa mudança de cultura. Para isso, governos e instituições precisam estar atentos às possibilidades oferecidas pelo Big Data. Se não o fizerem, correm o risco de serem atropelados pelo mercado.

Estatística e Big Data ampliam alcance das informações

Os desafios para a estatística

Reunir estatística e Big Data depende de conciliar as peculiaridades do grande volume de dados produzidos hoje. Talvez o maior desafio possa ser definido pelos cinco Vs do Big Data: volume muito grande, velocidade muito alta, variedade complexa, veracidade duvidosa, valor difícil de calcular. Essas incertezas não combinam com o rigor estatístico. Por isso é tão fundamental o papel do profissional que vai administrar o fluxo e a gestão das informações.

As oportunidades oferecidas pelo Big Data demanda mudanças de paradigma e metodologia, o que pode desafiar o profissional de estatística. Atualmente, boa parte do trabalho está voltada a limpar, organizar e validar as grandes bases de dados. Por isso a “ciência de dados” tem ocupado cada vez mais esses espaço, reunindo competências na interseção da tradicional estatística, da computação e das ciências sociais.

Outros aspectos também são fundamentais nesse momento de transição:

  • A privacidade dos dados é um dos principais temas quando se fala de Big Data. Pessoas e empresas estão de acordo com o uso dos dados que geram? Podemos lembrar do recente caso de Mark Zuckerberg com o Congresso norte-americano. Quanto estamos expostos? Quanto sabemos sobre isso?
  • A governança de dados também é um tema importante, principalmente quando se fala de Big Data na estatística oficial. Pode um órgão governamental ficar à mercê de informações que são disponibilizadas por entidades privadas? Qual o impacto disso nos dados oficiais, caso estes dependam de proprietários de fontes de dados particulares?
  • Ainda no mesmo âmbito está a confiança do público sobre as informações. Os censos nacionais construíram sua história e credibilidade, baseados na transparência. O que seria precisa (e quanto tempo) para que tivéssemos confiança em dados oferecidos por fontes privadas? Qual o nível de transparência oferecido por esses métodos?
  • Mais um desafio: a adequação dos dados. Informações coletadas para determinado fim podem ser usadas corretamente para outro? Se foram captadas por diferentes métodos e conceitos, oferecem a precisão necessária para gerar o conhecimento esperado?
  • Dados não estruturados oferecem uma variabilidade de difícil harmonização, além de serem parciais em representatividade. Países ou populações com menor índice de digitalização não oferecem representatividade nos dados existentes. Públicos específicos, como idosos, por exemplo, muitas vezes ficam fora das amostras.

Já destacamos muitas vezes aqui no Excelência em Pauta a importância do Big Data para as empresas. Sem dúvida, esse manancial de informações também são de uso fundamental para todos nós como sociedade. Bioestatística, geoestatística, conhecimentos  ambientais, energéticos, de turismo, saúde, criminalidade, transportes… Enfim, o uso da união de estatística com Big Data é infinito. Para isso, porém, precisamos estar atentos ao rigor e à transparência da informação. Só assim poderemos criar conhecimento.

Para ficar por dentro de tudo que acontece na interação entre excelência operacional e tecnologia, siga nossos posts no Facebook. E se precisa de ajuda para implementar melhorias na sua empresa,  fale com a gente!

Edição: Svendla Chaves – jornalista

Imagens: Designed by Freepik e Gerd Altmann/Pixabay