Tudo o que você precisa saber para gerir dados Big Data usando DMM

ProMoveMelhorias de ProcessoTudo o que você precisa saber para gerir dados Big Data usando DMM

Antes de relacionar Big Data e DMM, dois temas da moda, é importante fazer uma definição do que são estes dois termos, certo?

O primeiro termo, Big Data, que está na moda, mas é bem antigo. Se formos traduzir literalmente do inglês seria Imenso Volume de Dados.

Mas, este termo significa muito mais do que grandes volumes de dados, temos mais dois V´s para conseguir definir o termo: Velocidade e Variedade.

Mas o que significam estes 3 V´s sobre Big Data?

Volume: está relacionado a quantidade de dados que existem dentro e fora da empresa.

Velocidade: está ligado a quantidade de dados que são gerados a cada segundo, principalmente por causa da internet

Variedade: está relacionada a variedade de fontes que podem ser consultadas para a obtenção de um dado (sistemas, blogs, reviews, redes sociais, etc).

Mas existem outros termos para definir Big Data. No artigo do SAS, são discutidos dois outros termos que possuem a mesma importância, veja abaixo:

Variabilidade. Os fluxos destes dados podem ser inconsistentes e com picos periódicos e sazonais. Imagine algo postado nas redes sociais? Dados não estruturados e sazonais são difíceis de gerenciar.

Complexidade. Os dados têm origem em diversas fontes, conseguir os dados não é o maior desafio. O que torna esta missão mais complexa, é exatamente estabelecer hipóteses em relações e correspondências entre estes dados.

Juntando estes três ou cinco pilares, concluo que Big Data é: tudo que está público pode ser analisado e utilizado para um determinado contexto.

Isso pode acontecer mesmo que estes dados sejam estruturados (quando a estrutura de armazenamento é conhecida) ou não estruturados (quando a estrutura de armazenamento não é conhecida), tais como: imagens, vídeos, áudios e documentos.

Incluindo algo de tecnologia neste post, vou citar o Hadoop, que é uma tecnologia comum para BigData.

Por exemplo: O Hadoop é uma plataforma Open Source, que roda em cima do servidor Apache em distribuições Linux.

O Hadoop precisa de APIs (Application Programming Interface). Mas, o melhor custo x benefício, muitas vezes, é contratar provedores de serviços que oferecem plataforma prontas.

As maiores são: a Amazon, que possui uma plataforma que é comercializada pelo Amazon Web Services; a Microsoft, que possui uma plataforma própria que se chama Windows Azure; e a Google tem o Google Big Query.

Mas e o DMM? O que é?

Bom, com os conceitos básicos de Big Data já esclarecidos, vamos ao segundo termo.

O segundo termo, o DMM (Data Management Maturity), é um modelo de melhoria de maturidade e capacidade de processo para a gestão de ativos de dados e atividades relacionadas, de uma organização.

Ele contém melhores práticas para o estabelecimento, a construção, a manutenção e a otimização efetiva da gestão de dados através do seu ciclo de vida, desde a criação até a entrega, manutenção, arquivamento e descarte.

Este modelo é aplicável a qualquer indústria e a qualquer objetivo de gestão de dados.

Conforme o próprio DMM: o modelo é composto por 20 áreas de processos de gestão de dados e cinco áreas de processos de apoio (que são comuns as áreas do CMMI).

Podemos classificar as áreas de processos em categorias, essas áreas servem como o mecanismo principal para comunicar os temas, objetivos, práticas e exemplos de produtos de trabalho do modelo.

A execução das práticas de cada área de processo permite que uma organização alcance uma capacidade e, em conjunto com as Práticas de Suporte de Infraestrutura, alcancem a maturidade em gestão de dados.

Categorias e as áreas de processos correspondentes

Estratégia de Gestão de Dados

Esta categoria engloba as áreas de processo Estratégia de Gestão de Dados, Função da Gestão de Dados, Comunicações, Função de Gestão de Dados, Caso de Negócio, Financiamento do Programa.

Abaixo, uma explicação sucinta de cada área de processo pertencente a esta categoria.

Estratégia de dados

A área de processo Estratégia de Gestão de Dados defende que, mesmo nos níveis mais baixos de maturidade em gestão de dados, é primordial a existência de envolvimento das partes interessadas.

Dessa forma, é possível alcançar um mesmo entendimento e fundamentação comum em toda a organização, demonstrando o valor desta estratégia para o negócio, considerando os objetivos e prioridades estabelecidos pela Alta Direção.

Alcançar este alinhamento das metas com os objetivos do negócio é fundamental para agregar um real valor para a organização.

Comunicações

A área de processos Comunicações define práticas em relação a uma comunicação bidirecional das partes interessadas definidas na Estratégia de Gestão de Dados.

Esta abordagem deve facilitar a colaboração contínua e determinar que tipos de informação, frequência e canais são mais adequados para cada fase do processo e/ ou stakeholder.

Como um programa de gestão de dados é normalmente contínuo, essas comunicações devem estar em constante revisão, buscando mecanismos cada vez melhores.

Função de Gestão de Dados

A área de processo Função de Gestão de Dados expõe a importância da definição de um escopo, o estabelecimento de um planejamento e recursos para as atividades de gestão de dados, lembrando da sustentabilidade necessária ao negócio.

O que eu gostei nesta área de processo é a preocupação no desenvolvimento de uma liderança forte, onde a abordagem de papéis e responsabilidades compartilhadas entre as partes interessadas fortalece o programa de gestão de dados em uma organização.

Caso de Negócio

A área de processo Caso de Negócio estabelece práticas onde a organização passa a ser capaz de enquadrar, justificar e possibilitar a aprovação das iniciativas de gestão de dados com base no escopo e plano de atividades criados na função da Gestão de Dados.

Financiamento do Programa

A área de processo Financiamento do Programa estabelece a necessidade de desenvolver um programa de financiamento e  escolher um modelo de financiamento, iterativo e contínuo, mais adequado para o programa de gestão de dados e os projetos que o compõem.

Governança de Dados

Esta categoria engloba as áreas de processo: Gestão de Governança, Glossário de Negócios e Gestão de Metadados.

Abaixo, uma explicação sucinta de cada área de processo pertencente a esta categoria.

Gestão de Governança

A área de processo Gestão de Governança estabelece requisitos, que se cumpridos, facilitam a tomada de decisão colaborativa.

Além disso, permite que a organização implemente com eficácia, a criação e a manutenção de funções de conformidade dos órgãos de governança.

Glossário de Negócios

A área de processo Glossário de Negócios estabelece requisitos que podem ajudar a organização a alcançar uma fundamentação comum sobre os crescentes termos de negócios existentes.

Também faz parte desta área a priorização, o sequenciamento do seu desenvolvimento e o gerenciamento destes termos ao longo do seu ciclo de vida.

Gerenciamento de Metadados

A área de processo Gerenciamento de Metadados oferece uma abordagem top-down para que a organização possa realizar a arquitetura dos dados, incluir e gerenciar o repositório de metadados para que seja possível descrever completamente os ativos de dados da organização.

Qualidade de Dados

Esta categoria engloba as áreas de processo: Estratégia de Qualidade de Dados, Perfil de Dados, Avaliação da Qualidade dos  Dados e Limpeza de Dados.

Abaixo, uma explicação sucinta de cada área de processo pertencente a esta categoria.

Estratégia de Qualidade dos Dados

A área de processo Estratégia de Qualidade dos Dados é considerada pelo modelo DMM a base para todas as atividades de gestão de Qualidade de Dados.

Ela descreve práticas que têm como objetivo apoiar a organização a desenvolver, definir e aprovar um plano integrado que garanta principalmente que a qualidade dos dados seja suficiente para o alcance das necessidades definidas para o negócio, ou seja, um custo x benefício deve ser analisado neste ponto.

Perfil de Dados e Avaliação da Qualidade dos dados

As áreas de processos Perfil de Dados e Avaliação da Qualidade dos Dados contêm requisitos que referentes a avaliação dos dados que estão sendo gerenciados, considerando o conjunto de objetivos de qualidade definidos na área de processo Estratégia de Qualidade dos Dados.

Limpeza de Dados

A área de processo Limpeza de Dados deve apoiar a organização a alcançar a eficiência na gestão de dados, onde estas atividades devem reduzir o esforço e diminuir os custos de armazenagem e/ou de processamento, permitindo que a organização garanta que seu conjunto de dados e seus arquivos de dados físicos estejam “adequados aos objetivos”.

Operações de Dados

Esta categoria engloba as áreas de processo: Definição dos Requisitos dos Dados, Gestão do Ciclo de Vida dos Dados e Gestão de Provedor

Abaixo, uma explicação sucinta de cada área de processo pertencente a esta categoria.

Definição dos Requisitos dos Dados

A área de processo Definição dos Requisitos dos Dados contém práticas que verificam se as especificações para dados que são utilizadas por um determinado processo de negócio:

  1. satisfaçam os objetivos de negócio;
  2. sejam validadas pelas partes interessadas;
  3. sejam priorizadas e;
  4. sejam bem documentadas por meio de uma sistemática institucionalizada.
Gestão de Ciclo de Vida dos Dados

A área de processo Gestão de Ciclo de Vida dos Dados contém práticas que apoiam uma organização a garantir que seus fluxos de dados sejam bem mapeados aos processos de negócios em todas as fases do ciclo de vida.

Gestão de Provedor

A área Gestão de Provedor contém requisitos para orientar a organização a selecionar fontes de dados e ter interações controladas e bidirecionais com seus fornecedores internos e externos.

Plataforma e Arquitetura

Esta categoria engloba as áreas de processo: Abordagem Arquitetural, Padrões Arquiteturais, Plataforma de Gestão de Dados, Integração de Dados, Dados Históricos e Arquivamento e Retenção.

Abaixo, uma explicação sucinta de cada área de processo pertencente a esta categoria.

Abordagem Arquitetural

A área de processo Abordagem Arquitetural possui práticas que auxiliam a organização na definição de uma abordagem para projetar uma arquitetura de dados com o objetivo de minimizar os dados duplicados e maximizar o compartilhamento de dados.

Práticas de Padrões Arquiteturais

A área de processo Práticas de Padrões Arquiteturais possui práticas que apoiam a organização no desenvolvimento e na de padrões para: a representação de dados, o acesso a dados e para a distribuição de dados.

Plataforma de Gestão de Dados

A área de processo Plataforma de Gestão de Dados define a importância do envolvimento das partes interessadas e da governança nas decisões que afetam a seleção e implementação da plataforma de gestão de dados.

Integração de Dados

A área de processo Integração de Dados possui práticas que apoiam a organização a criar e manter o alinhamento com as necessidades do negócio.

Dados Históricos, Arquivamento e Retenção

As áreas de processos Dados Históricos, Arquivamento e Retenção estabelecem práticas que abordam o controle de versão, retenção de registros e arquivamento.

Estas práticas vão ajudar a organização a garantir que os dados satisfaçam às necessidades de disponibilidade, necessidades de negócios e dos requisitos regulatórios (caso seja necessário).

Processos de Suporte

Esta categoria engloba as áreas de processo: Medição e Análise, Gerência de Processos, Garantia da Qualidade de Processo, Gestão de Risco e Gestão de Configuração

Abaixo, uma explicação sucinta de cada área de processo pertencente a esta categoria.

Medição e Análise

A área de processo Medição e Análise vai apoiar a organização a medir e controlar os processos de gestão de dados. É bom lembrar que: “quem não mede não controla” !

Gestão de Processos

A área de processo Gestão de Processos possui práticas para tratar as melhorias em uma organização, desde o recebimento das melhorias, passando pelo planejamento, implementação e implantação desta melhoria na organização.

Garantia da Qualidade do Processo

A área de processo Garantia da Qualidade do Processo fornece para a equipe e a gerência uma visão objetiva de como está a execução de processos e a utilização da Biblioteca de Ativos na organização.

Gestão de Risco

A área de processo Gestão de Risco possui práticas que apoiam a organização na identificação e análise dos problemas potenciais.

Ao realizar esta análise, a organização deve planejar e executar ações adequadas, garantindo que os objetivos estabelecidos para o programa de gestão de dados sejam alcançados.

Gestão de Configuração

A área de processo Gestão de Configuração trata da integridade do ambiente operacional, usando, para isso algumas práticas, tais como: a identificação de itens de configuração, o controle destes itens, a contabilidade de situação e a execução de auditorias.

Por que adotar o DMM quando se está trabalhando com Big Data?

Através do crescimento da capacidade e de práticas disciplinadas, o DMM facilita que a organização reconheça que a gestão de dados é uma infraestrutura crítica e fundamental.

O DMM define os requisitos e atividades para uma gestão de dados efetiva, porém ele não é prescritivo sobre como uma organização deve alcançar essa capacidade.

O DMM é estruturado de tal forma que possa ser usado pelas organizações não só para avaliar sua capacidade atual, mas também para construir um roteiro personalizado para implementação da gestão de dados.

Óbvio que Big Data pode ser aplicado em diversos cenários diferentes e a sua estratégia é sempre muito particular e sob medida.

Neste sentido, muitas empresas precisam destes dados para vender seus produtos ou serviços. 

Dessa forma elas podem entender o comportamento dos consumidores da sua empresa (por sexo, idade e até por gostos musicais) para manter os seus clientes ou entrar em novos mercados.

Mas, o que então, pode ser algo em comum entre estes dois temas?

A forma como a empresa pode sistematizar esta gestão Big Data, a fim de estabelecer boas práticas, garantir uma sistematização deste processo, potencializar os ganhos e disseminar de forma mais fácil as boas práticas.

Curtiu? Já quer saber mais como implantar realmente esse procedimento em sua empresa?  Entre em contato com a gente!

Sobre o Autor

Mestre em Engenharia de Sistemas e Computação pela Universidade Federal do Rio de Janeiro (2009), Pós-graduada em Análise, Projeto e Gerência de Sistemas pela PUC-RJ (1999). Graduada em Informática pela Universidade Federal Fluminense (1996). Possui experiência na coordenação de projetos, gerência de métricas, gerência e implantação de fábricas de software e de um Project Management Office (PMO). É consultora na implantação de processos aderentes a ISO 9001, Métodos Ágeis e aos modelos de qualidade CMMI e MPS. Atuou na concepção e desenvolvimento de um framework na linguagem Java. Apresentou dois painéis na RioInfo sobre a TI diante da crise global (2009) e fábricas de software (2007). Recentemente foi convidada como palestrante do ScrumGathering Rio 2015. É certificada PMP e CSM. É implementadora credenciada e avaliadora líder do modelo MPS para Software e Serviços. É Avaliadora Líder do CERTICS.