Cada projeto de BI – OLAP é planejado buscando o máximo de acoplamento as necessidades do negócio com o máximo de desempenho. Ou seja, apresentar a verdade dos dados no tempo ótimo para o cliente.
No primeiro momento os dados são tratados, regras são aplicadas, dados limpos e armazenados. Essa atividade de forjar dados brutos em algo valioso, chamamos de ETL (Extract – Transform – Load), trabalho árduo. Em seguida inicia-se uma parte não menos importante, e sim complementar, a outra face da moeda (BI).
O grande fator motivador do OLAP é a natureza multifacetada dos problemas de negócio. Através do OLAP análises estatísticas mais avançadas se tornaram possíveis, agregações, pivoteamento, previsões, habilidades que os SGBDs tradicionais não possuíam. O OLAP permite a análise estatística especializada de grande volume de dados.
OLAP: definição através dos métodos de acesso e armazenamento dos dados
- ROLAP (Relational Online Analytical Processing): Utilizando esta tecnologia as ferramentas acessam os sistemas gerenciadores de banco de dados relacionais diretamente. A consulta é gerada e enviada para o servidor, que processa os dados e os devolve para o servidor OLAP, que pode ou não realizar novos cálculos ou agregações.
Ponto positivo: Dados são constantemente alterados/atualizados.
Ponto negativo: Para uma análise multidimensional, várias tabelas precisam ser processadas, o que acaba gerando alto tempo de resposta.
- MOLAP (Multidimensional Online Analytical Processing): O servidor gera consultas que são processadas em dados que já estão armazenados de forma multidimensional, data marts, data warehouses, etc.
Ponto positivo: Maior velocidade quando comparado com ROLAP.
Ponto negativo: Grande quantidade de dados.
- HOLAP (Hybrid Online Analytical Processing): Combinação do MOLAP com ROLAP para entregar a performance do MOLAP com a grande capacidade de dados do ROLAP.
Ponto Positivo: Adaptabilidade a necessidade de dados.
Ponto Negativo: Se não for planejado de forma correta pode causar tanto sobrecarga de processamento quanto de armazenamento de dados.
Diretrizes para a seleção:
Seguem abaixo algumas diretrizes feitas por E. F. Codd para seleção de uma ferramenta OLAP:
Visão Conceitual Multidimensional: A ferramenta deve prover ao usuário um modelo conceitual que corresponda aos problemas de negócio.
Transparência: A tecnologia do sistema on-line, assim como, arquitetura de servidores, gateways e heterogeneidade das fontes de dados devem ser transparente para o usuário. Ele não deve ter que se preocupar em somente montar seu relatório.
Acessibilidade: A ferramenta deve acessar somente as bases necessárias para responder a análise criada pelo usuário, mas deve ter acesso a todas as bases disponíveis.
Performance consistente: Não existe um tempo de execução ótimo ou um número mágico que defina o melhor. O importante é lembrar que mesmo que a quantidade de dimensões e registros retornados o usuário não deve sentir tanta diferença no tempo.
Arquitetura Cliente/Servidor: O sistema OLAP deve atender aos princípios da arquitetura cliente/servidor para performance, flexibilidade, adaptabilidade e interoperabilidade.
Dimensionalidade genérica: Cada dimensão deve ser equivalente em estrutura e capacidade operacional.
Suporte a vários usuários: Permitir vários usuários conectados ao mesmo tempo, podendo ou não estar trabalhando no mesmo modelo de dados.
Operações irrestritas entre dimensões: O sistema deve ser capaz de suportar hierarquias e realizar agregação de valores através de dimensões diferentes.
Manipulação de dados intuitiva: A experiência do usuário deve fornecer uma curva de aprendizado aceitável.
Relatórios de design flexível: O usuário deve poder realizar personalizações de look’n feel em seus relatórios.
Quantidade ilimitada de dimensões e de níveis de agregação: Dependendo da necessidade do negócio, um modelo de dados pode ter uma quantidade muito grande de dimensões e de hierarquias. O sistema OLAP não deve impor limitações a quantidade de dimensões ou de agregações.
Retirado do livro Data Warehousing, Data Mining and OLAP por Alex Berson e Stephen J. Smith, ISBN:0-07-006272-2
Desafios atuais do OLAP
Os sistemas OLAP vêm amadurecendo e evoluindo juntamente com as técnicas de BI. Com o Big Data, o desafio fica ainda maior.
Atualmente acredito que os maiores desafios são:
-
Volume de dados sem perda de performance
Este não é somente um problema para os sistemas OLAP mas sim para quase todos os projetos de BI. Geramos e temos acesso a muito mais dados atualmente, e estamos criando a necessidade de análise desses dados. Em muitos casos nossas arquiteturas para processamento são o que há de mais moderno, mas mesmo assim já não são capaz de processar tudo sozinhas. Precisamos analisar dados de sensores que atualizam a cada 3 segundos, guardamos todos os cliques de um cliente navegando no website de uma loja. Todos têm um smartphone e estão filmando e tirando fotos com marcações georreferenciadas.
-
Estruturas variadas dos dados
Os negócios estão evoluindo, uma empresa que era especializada em sapatos ontem, hoje trabalha com roupas de todos os tipos. A farmácia só podia vender remédio, agora é quase um mercadinho onde você encontra de tudo. Conforme os negócios vão evoluindo, suas necessidades se alteram, o modelo de dados de ontem já não responde as necessidades atuais. Algumas ferramentas trabalham somente com modelos fixos de dados. Não suportam hierarquias ou têm pouca inteligência para navegar modelos mais complexos. Sem falar dos novos tipos de dados que analisamos hoje, como áudio ou vídeo.
-
Agregações complexas
A complexidade das bases de dados das empresas estão cada vez mais complexas. As agregações de dados acontecem entre diversas dimensões. Em alguns casos a agregação deve ser diferente para cada dimensão, aumentando a complexidade e para realização da agregação. O sistema precisa ser maleável quanto as regras de negócio, sempre que houver novas regras ele precisa se acoplar fielmente as necessidades.
Evolução
Com o advento do Big Data, a necessidade de visualizações altamente adaptáveis fez com que muitos sistemas OLAP parecessem obsoletos.
Pela imensa quantidade de dados, seria necessário uma máquina monstruosa para armazenar tudo aquilo em memória. Estatísticos querem rodar modelos em toda a base de dados, e as funções embarcadas em minha ferramenta não tem tudo que é necessário. Estatística Aplicada, aprendizado de máquina, personalização de todo o ambiente.
Ao perceber a mudança que o Big Data representa, várias empresas e desenvolvedores se moveram para atender a essa demanda. Limitações de conexão ou de personalização não são mais aceitas.
O cientista de dados precisa de todas as funções estatísticas, e ele já possui modelos em R, sem problema, várias ferramentas já apresentam APIs ou formas de utilizar estas funções legadas. Nada é perdido, as duas soluções se fundem e atendem a necessidade. Tanto de apresentação quanto de funcionalidade.
Quanto a quantidade de dados, é sabido que agora processamos quantidades astronômicas e o servidor OLAP pode não ser poderoso o suficiente. Mais uma vez deve ser utilizada a capacidade de processamento que o Big Data fornece, conexão ao Spark e Hadoop por exemplo.
O ambiente de Big Data é projetado para processamento massivo e altas quantidades de dados. Através destas conexões todos os dados disponíveis podem ser analisados. As necessidades e perguntas avançam com o passar do tempo, a tecnologia não deve nunca se render as dificuldades. Se as soluções no mercado não atendem, esta deve ser produzida em casa.
O OLAP precisa evoluir conforme a tecnologia avança ou mais rápido, as ferramentas precisam se adequar as necessidades dos clientes, não o contrário.
Saiba mais:
Tem curiosidade sobre Analytics e quer alcançar a Excelência Operacional? Fale com a gente e siga nossos posts no Facebook.
Profissional de Excelência Operacional e Business Intelligence!
Sou um eterno aprendiz ou seja um pseudo-Engenheiro e Administrador de Empresas, embora nunca tenha sido um exemplo de “excelência” em Matemática, ao longo dos anos passo a maior parte do meu tempo tentando aprender a mesma e, particularmente, a estatística uma vez que, salvo muito engano, é ela que rege nossas vidas na busca da Excelência seja como pessoa ou como profissional.