Inteligencia de Negocios con Pentaho

Etapas para la construcción del DataWareHouse (Cont.)

Modelo lógico del DataWareHouse

Los modelos conceptuales son representaciones generales de la información y no determinan la forma en que serán representados; en esta siguiente etapa se diseñará el modelo lógico para contener la estructura del depósito de datos. Primeramente se seleccionará el tipo de modelo a utilizar, posteriormente se definirán las dimensiones, los hechos y las uniones correspondientes.

Tipo de modelo lógico del DataWareHouse

En este paso se debe elegir el tipo de esquema que se utilizará, se debe elegir el esquema más adecuado a los requerimientos y necesidades de los usuarios. Los modelos que se pueden emplear son esquemas en estrella, constelación o copo de nieve.

Tablas de dimensiones

En este paso se definen las tablas de dimensiones que contendrá el DataWareHouse, cada perspectiva del modelo conceptual constituirá una tabla dimensión; para ello se deben realizar las siguientes actividades:

Se debe elegir un nombre que identifique a la tabla dimensión y que represente de manera adecuada la perspectiva que representa.
Seleccionar el campo que represente su clave principal
Se redefinirán los nombres de los campos en caso que sus nombres no sean lo suficientemente específicos de la información que representan.

Tablas de Hechos

La tabla de hechos contiene la representación de los indicadores que se pretende analizar o estudiar; para su construcción se deben realizar las siguientes actividades:

Se debe seleccionar un nombre para la tabla de hechos
Se definirá su clave primaria, que se compone de la combinación de las claves primarias de cada tabla de dimensión relacionada.

Uniones

Las uniones representan las relaciones entre las tablas de dimensión y de hechos.

Integración de Datos

Una vez construido el modelo lógico se debe realizar el poblado de las estructuras físicas en apego a las políticas y reglas definidas para tal propósito.

Carga inicial

La carga de datos en el Data WareHouse requiere llevar a cabo algunas tareas que tienen relación con la calidad de los datos, limpieza de los mismos y procesos de ETL (Extract, Transform and Load, del inglés Extracción, Transformación y Carga).

En este paso se realizan las estrategias comentadas en "Procesamiento de Datos", con el propósito de que la información que se utilice cumpla con las condiciones y restricciones de calidad establecidas.

Las herramientas de ETL representan el soporte principal para las tareas de integración de datos, la mayor cantidad de esfuerzo para la construcción y actualización recaen en éstas.

El motor ETL de Pentaho ejecuta los trabajos (Job) y transformaciones (Transform) creados con las herramientas de Pentaho Data Integration (PDI, también conocido como Spoon).

El motor ETL es parte de la estructura del BI, pero puede correr en diferentes servidores o aún en múltiples servidores en modo de Cluster.
Para la carga de datos se requiere que primeramente se carguen las tablas de dimensiones y al final las tablas de hechos, teniendo en cuenta siempre la correcta correspondencia entre las claves de las tablas dimensiones y de hecho.

Cuando se utilicen esquemas copo de nieve, si existen jerarquías se deben comenzar cargando las tablas de dimensiones del nivel más general al más detallado.

Actualización

La información de los Data WareHouse son dinámicos y los análisis deben realizarse sobre información nueva que se debe actualizar periódicamente, independientemente que el Data WareHouse contenga información histórica.

Ralph Kimball, inventor del modelo multidimensional, propuso tres diferentes estrategias para llevar a cabo las actualizaciones, también conocidas como Slowly Changing Dimensions (SCD, del inglés Dimensiones Lentamente Cambiantes), los cuales se describen a continuación:

SCD Tipo 1.- Sobrescribir
Las columnas son pobladas con la información nueva, desechando y sin conservar los valores anteriores.

SCD Tipo 2.- Añadir renglón

Esta estrategia permite conservar información y preservar información histórica, extrayendo datos actualizados cuando se realizan las consultas a las tablas de dimensión.

Para seguir la pista de los cambios realizados es necesario agregar campos adicionales, lo más común es agregar campos de tipo TimeStamp al registro de la dimensión; normalmente el campo de Valid_From (válido desde...) y Valid_To (válido hasta...). Además se pueden utilizar campos que definen el registro válido actualmente (Current_Record), llenándose con valores incrementales cada vez que existe un registro nuevo.

SCD Tipo 3.- Añadir columna

Esta estrategia necesita, al menos una columna extra en la tabla dimensión. Cuando el valor de una columna cambia se añade una columna extra que contiene el valor anterior. Para este caso sólo es posible almacenar una versión extra.

La estrategia a utilizar dependerá del tipo de datos y la periodicidad de las actualizaciones, por lo que se recomienda analizar cuidadosamente la opción seleccionada.