Trece causas de la empresa …

Trece causas de la empresa ...

Figura 1-1. Procesos que afectan a la calidad de los datos.

El grupo de la izquierda muestra los procesos que aportan datos en la base de datos desde fuera – ya sea manualmente o por medio de diversas interfaces y técnicas de integración de datos. Algunos de estos datos de entrada pueden ser incorrectos en el primer lugar y simplemente migrar de un lugar a otro. En otros casos, los errores son introducidos en el proceso de extracción de datos, la transformación, o la carga. Grandes volúmenes de tráfico de datos magnifican drásticamente estos problemas.

En este capítulo vamos a discutir de manera sistemática los 13 procesos que se presentan en la Figura 1-1 y explicar cómo y por qué afectar negativamente la calidad de los datos.

Causa No. 1 de los problemas de calidad de datos empresariales: la conversión de datos inicial

La conversión de datos no es diferente. Millones de elementos de datos confiados en silencio hacen su trabajo todos los días hasta – BANG – la conversión de datos viene lanzando contra ellos. Muchos datos nunca llega a la nueva base de datos; muchos de los afortunados mutan tanto en la transición que simplemente mueren lentamente en la secuela. La mayoría de las empresas viven con las consecuencias de las conversiones de datos malos durante años o incluso décadas. De hecho, algunos problemas de datos se pueden remontar a "abuelos de conversiones de datos," es decir, la conversión en el sistema desde el que los datos fueron posteriormente convertidos al sistema desde el que los datos se convierte en el nuevo sistema …

El resultado fue desastroso. La mitad de los registros de ejemplo que miraba no coincide con los informes de resumen impreso desde el viejo sistema. La gran reunión fue llamada por la mañana siguiente, y en las primeras horas de la noche, yo tenía una presencia de ánimo para dejar de buscar errores en el código y meter en los datos de origen. Los datos ciertamente no se suman a lo que se muestra en los informes de resumen, sin embargo, los informes fueron producidos a partir de estos mismos datos! Este rompecabezas matemático me mantuvo despierto hasta el amanecer. Por entonces yo tenía la mayor parte de lo planeado.

Media docena de códigos de compensación incluidas en los importes totales que faltaban de nuestra lista. De hecho, incluso se les faltan en el diccionario de datos! Ciertos códigos se utilizan en algunos años, pero ignoran en otros años. Los registros con importes negativos – ajustes retroactivos – Se agregan en el mes anterior, lo que técnicamente pertenecían, en lugar del mes del cheque de pago. Al parecer, el viejo sistema tenía un montón de código que aplican todas estas reglas para el cálculo de los ingresos pensionables mensuales adecuados. El nuevo sistema ciertamente no fue programado para hacerlo, y nadie se acordó para indicar toda esta lógica en el documento de mapeo.

Nos llevó ocho semanas de extensa perfilado de datos, el análisis y la evaluación de la calidad para completar esta parte del proyecto, mientras que un semana estuvo presupuestado. Tuvimos suerte, sin embargo, que el problema era relativamente fácil para exponer. En muchos proyectos de conversión, los datos se convierten en función de las especificaciones de mapeo que son ridículamente fuera de sincronía con la realidad. El resultado es predecible – extinción masiva de los datos y de los equipos de proyecto.

Entonces, ¿qué es lo que hace la conversión de datos tan peligroso? En el corazón de la cuestión es el hecho de que cada sistema se compone de tres capas: la base de datos, reglas de negocio, y la interfaz de usuario. Como resultado de lo que ven los usuarios no es lo que se almacena en la base de datos. Esto es especialmente cierto para los mayores "legado" sistemas. Durante la conversión de datos es la estructura de datos que es por lo general el centro de atención. Los datos se asigna entre las viejas y las nuevas bases de datos. Sin embargo, ya que las capas de reglas de negocio de los sistemas de origen y de destino son muy diferentes, este enfoque falla en su intento. Los datos convertidos, mientras que técnicamente correcto, es inexacta para todos los fines prácticos.

El segundo problema es la típica falta de meta datos fiable sobre la base de datos de origen. Piense en ello, ¿con qué frecuencia nos encontramos con códigos de valores en los datos que faltan en los documentos de mapeo? La respuesta es: Todo el tiempo. Pero ¿cómo podemos creer cualquier meta datos cuando incluso un componente tan básico es incorrecto? Sin embargo, una y otra vez, las conversiones de datos se hacen a las especificaciones basadas en los metadatos incompletas, incorrectas y obsoletas.

Para resumir, la calidad de los datos después de la conversión es directamente proporcional a la cantidad de tiempo dedicado para analizar y el perfil de los datos y descubrir el verdadero contenido de los datos. En un proyecto de conversión de datos ideal, el 80% del tiempo se dedica al análisis de datos y el 20% en la codificación de algoritmos de transformación.

Para concluir, la conversión de datos es la parte más difícil de cualquier implementación del sistema. La tasa de error en una nueva base de datos recién poblado es a menudo un orden de magnitud por encima de la del sistema de edad, de las que se convierte los datos. Como fuente principal de los problemas de datos, conversión de datos debe ser tratado con el máximo respeto que se merece.

Causa No. 2 de problemas de calidad de datos de la empresa: consolidaciones del sistema

Un anciano una vez montó su Pontiac tres millas en el tráfico en sentido contrario antes de ser detenido. Se sorprendió mucho qué todo el mundo iba por el camino equivocado. Eso es exactamente lo que siento cuando se involucren en un proyecto de consolidación de datos.

En lugar de dos coches pequeños tenemos una gran pila de hierro, plástico y caucho.

La consolidación de datos se enfrenta a los mismos retos que la conversión de datos inicial, pero magnificado en gran medida. Ya he hablado de qué conversiones causan problemas de calidad de datos. La idea de la consolidación añade toda la dimensión nueva de la complejidad. En primer lugar, los datos a menudo se combinó en una base de datos no vacío existente, cuya estructura puede ser cambiado poco o ninguno en absoluto. Sin embargo, a menudo los nuevos datos simplemente no se ajusta! Los esfuerzos para exprimir clavijas cuadradas en agujeros redondos son dolorosas, incluso a un observador exterior.

En algún momento, la matriz de ganador-perdedor es tan complejo, que nadie entiende realmente lo que está pasando. Los programadores discuten con los analistas de negocios sobre el significado exacto de la palabra "a no ser que," y el consumo de antidepresivos va en aumento. Es el momento de desechar el enfoque y empezar de nuevo.

Voy a discutir la metodología adecuada para la consolidación de los datos en el siguiente capítulo. Por ahora sólo nos queda la conclusión de que la consolidación de datos es una de las principales causas de problemas de datos y debe ser tratada con gran temor. Caminar por la cuerda floja es un juego de niños en comparación.

Causa No. 3 de problemas de calidad de datos empresariales: la entrada de datos manual

tasa de error común en la entrada de datos es mucho mayor. Con el tiempo he recogido mis datos indicativos de diversas bases de datos personales. Mi colección incluye ocho diferentes grafías de mi nombre de pila, junto con una docena de mi apellido, y cuatro fechas de nacimiento; Me marcó como masculina, femenina, e incluso el infame ‘U’. formularios de entrada de datos complejos, y los inconvenientes suelen complicar aún más el reto de entrada de datos. Lo mismo se aplica a las ventanas de entrada de datos e interfaces basadas en web. La frustración en el uso de un formulario dará lugar a aumento exponencial en el número de errores. Los usuarios a menudo tienden a encontrar la manera más fácil de completar el formulario, incluso si eso significa cometer errores deliberados.

Un problema común de entrada de datos es el manejo de los valores que faltan. Los usuarios pueden asignar el mismo valor en blanco a diversos tipos de valores que faltan. Cuando "blanco" No está permitido, los usuarios a menudo entran en sustitutos de valor sin sentido. Los valores por defecto en los formularios de entrada de datos a menudo se dejan sin tocar. La primera entrada de cualquier cuadro de lista se selecciona con más frecuencia que cualquier otra entrada.

Buenas formas de entrada de datos e instrucciones de algún modo mitigan los problemas de entrada de datos. En un mundo de fantasía ideal, a la entrada de datos es tan fácil para el usuario como sea posible: los campos están etiquetados y organizada con claridad, repeticiones de entrada de datos son eliminados, y no se requiere de datos cuando no está disponible todavía o ya se ha olvidado. La realidad de la entrada de datos, sin embargo, no es tan color de rosa (y probablemente no será en los próximos años). Por lo tanto hay que aceptar que la entrada manual de datos seguirá siendo siempre una causa importante de problemas de datos.

Causa No. 4 de problemas de calidad de datos de la empresa: los alimentos por lotes

alimentaciones por lotes son grandes las interfaces regulares de intercambio de datos entre sistemas. El número cada vez mayor de bases de datos en el universo corporativo se comunica a través de telarañas complejas de alimentos por lotes.

Entonces, por qué los programas de alimentación por lotes bien probados fallan? El sistema de fuente de alimentación que se origina en el lote está sujeto a frecuentes cambios estructurales, actualizaciones y mejoras. Probar el impacto de estos cambios en los datos de feeds a múltiples bases de datos independientes en sentido descendente es un paso difícil y, a menudo poco práctico. La falta de pruebas de regresión y el aseguramiento de la calidad conduce inevitablemente a numerosos problemas de datos con el lote se alimenta cada vez que se modificó el sistema de fuente – que es todo el tiempo!

El otro problema con el lote se alimenta es que se propagan rápidamente los malos datos de la base de datos a la base de datos. Cualquier error que de alguna manera encontrar su camino en el sistema de origen por lo general fluir inmediatamente a través del lote de alimentos para el ganado como los virus y pueden mezclarse suficientemente bien con el resto de los datos del lote para venir desapercibida y causar el mayor daño.

Causa No. 5 de los problemas de calidad de datos empresariales: las interfaces en tiempo real

Cada vez más se intercambian datos entre los sistemas a través de tiempo real (o casi en tiempo real) interfaces. Tan pronto como los datos entra en una base de datos, se dispara procedimientos necesarios para enviar transacciones a otras bases de datos aguas abajo. La ventaja es la propagación inmediata de los datos a todas las bases de datos pertinentes. es menos probable que sea fuera de la sincronización de datos. Puede cerrar los ojos e imaginar los millones de pequeñas piezas de datos con vuelos de base de datos para la base de datos a través de grandes distancias a gran velocidad, lo que hace la vida más fácil. Usted ve el triunfo de la era de la información! Veo el Coyote en su interminable búsqueda de la Road Runner. ¡Yendo! ¡Yendo! Gosh!

El problema básico es que los datos se propaga demasiado rápido. Hay poco tiempo para verificar que los datos sean exactos. A lo sumo, la validez de los atributos individuales generalmente se comprueba. Incluso si un problema de los datos se puede identificar, a menudo hay nadie en el otro extremo de la línea de reaccionar. La transacción debe ser aceptado o rechazado (cualesquiera que sean las consecuencias). En caso de rechazo de datos, es posible que se pierda para siempre!

Además, los datos vienen en paquetes pequeños, cada uno tomado totalmente fuera de contexto. Un paquete de datos en sí puede parecer inocente, pero los datos en ella puede ser totalmente errónea. Una vez recibí un correo electrónico de un complejo de Disney World agradeciéndome por allí. El texto era gramaticalmente perfecto y me han hecho sentir muy bien, excepto que yo no fui a Disney ese año.

Causa Nº 6, de problemas de calidad de datos de la empresa: Procesamiento de datos

La primera parte del problema es el cambio en los programas responsables de procesamiento de datos regular. pequeños cambios y ajustes son tan regulares como el uso normal. Estos a menudo no se han probado de manera adecuada en base a la idea errónea de que los cambios pequeños no pueden tener mucho impacto. Por supuesto, un pequeño error en el código aplicado a un millón de discos puede crear un millón de errores más rápido que se puede leer esta frase.

Un problema más sutil es cuando el proceso se hace por accidente en el momento equivocado. A continuación, el programa correcto puede dar resultados erróneos debido a que los datos no se encuentra en el estado en el que se supone que es. Un ejemplo sencillo se está ejecutando el programa que calcula la compensación semanal antes de se introdujeron los números de las horas sistema de rastreo.

En teoría, la documentación de la imagen completa de lo que está pasando en la base de datos y cómo los diversos procesos están relacionados entre sí nos permitiría mitigar el problema por completo. De hecho, alguien podría entonces analizar las implicaciones de calidad de datos de cualquier cambio en el código, procesos, estructura de datos, o los procedimientos de recopilación de datos y así eliminar los errores de datos inesperados. En la práctica, esta es una tarea insuperable. Por esa razón, el procesamiento de datos regular dentro de la base de datos será siempre una causa de los problemas de datos.

Causa Nº 7, de problemas de calidad de datos de la empresa: Limpieza de datos

El tema de la calidad de datos ha alcanzado gran popularidad en los últimos años, y cada vez más empresas están tratando de limpiar los datos. En los viejos tiempos, la limpieza se realiza de forma manual y era bastante seguro. Las nuevas metodologías que han llegado uso automatizado normas de limpieza de datos para hacer correcciones en masa. Estos métodos son de gran valor y yo mismo soy un ardiente promotor del enfoque basado en reglas para la limpieza de datos automatizada. Por desgracia, los riesgos y complejidades de limpieza automática de datos rara vez se conocen bien.

limpieza de datos es peligroso debido principalmente a problemas de calidad de datos suelen ser complejos e interrelacionados. La fijación de un problema puede crear muchos otros en el mismo u otros elementos de datos relacionados. Por ejemplo, la historia de empleo está estrechamente vinculada con la historia posición, la historia pagar la tasa, y muchos otros atributos de los datos de empleo. Hacer correcciones a cualquiera de estas categorías de datos hará que los datos inconsistentes con todas las demás categorías.

Para resumir, la limpieza de datos es una espada de doble filo que puede dañar más que ayudar si no se usa con cuidado. Voy a discutir la metodología adecuada para la limpieza de datos en el siguiente capítulo.

Causa Nº 8, de problemas de calidad de datos de la empresa: la purga de datos

Los datos antiguos se purga de forma rutinaria a partir de sistemas para dar paso a más datos. Esto es normal cuando un límite de retención de datos ya no satisfechos y viejos necesario. Sin embargo, la purga de datos es muy arriesgado para la calidad de datos.

Otro factor que complica las cosas es la presencia de datos erróneos en la base de datos. Los datos erróneos pueden ajustarse accidentalmente los criterios de purga y se eliminan cuando debería ser dejado solo, o viceversa. Por ejemplo, si el sistema de recursos humanos está configurado para purgar los datos de todos los empleados que se terminaron hace más de cinco años, entonces se borrará registros para algunos empleados con fechas de terminación introducidos incorrectamente.

Dado que la purga a menudo es igual a la destrucción, que ha de ejercerse con gran cuidado. El hecho de que haya funcionado razonablemente bien el año pasado no garantiza que va a trabajar de nuevo este año. Los datos son demasiado volátiles para un compuesto se deje engañar con. Esto requiere un diseño más sofisticado de los programas de purga que se utiliza a menudo para una tarea técnica, tales trivial. Después de todo, parece bastante fácil simplemente acabar con unos cuantos millones de registros. Así que vivimos con las consecuencias de calidad de datos de datos de purga en casi todas las bases de datos.

Próximos pasos

Lea acerca de la necesidad de medidas de calidad de datos mejorada

Descubre cómo los procesos de calidad de datos de una compañía se rompió

Aprender cómo mejorar la calidad de datos comienza con los procesos de negocio

Cómo mantener la calidad de los datos y proporcionar información de alta calidad de gestión y análisis

PUESTOS RELACIONADOS

También te podría gustar...