Esta consiste en detectar todos los datos que tienen alguna clase de error y eliminarlos o descartarlos.
Su objetivo es seleccionar de forma coordinada los datos más relevantes del proceso pues esta información recolectada puede tener datos erróneos o faltantes.
Una de las actividades dentro de la limpieza de datos es el tratamiento de datos ausentes. Esto quiere decir que le falta un valor a algún atributo y para corregirlo hay que rellenar este valor tomando alguna estrategia como la media o la moda.
También nos ayuda a resolver las redundancias “es cuando se repite la misma información intensificada con otra palabra que significa lo mismo, “LIBRERÍA DE LIBROS”,”.
Chequea y resuelve problemas de ruido, valores perdidos, elimina outliers “valores atípicos” significa que es una observación que es numéricamente distante del resto de los datos.
Resuelve inconsistencias y conflictos entre datos.También se puede realizar mediante la distribución gausiana la cual es una de la que con mayor frecuencia se aproxima a fenómenos reales.
Acciones de datos anómalos o faltantes:
- Se pueden ignorar, que sería lo más fácil.
- Filtrar (eliminarlo o sustituirlo) la columna.
- Filtrar la fila.
- Reemplazar el valor por otro valor.
- Segmentar las filas entre los datos correctos y el resto trabajar separadamente.
- Desistir y modificar la política de datos para la próxima vez.
Técnicas de Limpieza de Datos.
- Bayes: Este tipo de algoritmo comparte elementos de la biología, inteligencia artificial y estadística. Están definidos por un grafo donde existen nodos que representan variables aleatorias junto con sus enlaces, los cuales hacen referencia a dependencias entre las mismas. El éxito de las redes bayesianas se debe a su habilidad para manejar modelos probabilistas complejos al descomponerlos en componentes más pequeños y digeribles.
Árboles de decisión:Un árbol de decisión es un modelo de clasificación que divide un conjunto de análisis, buscando el mayor grado de pureza entre los grupos resultantes. En todo árbol hay un nodo inicial denominado raíz, que contiene la totalidad de la información. Este grupo se subdivide en dos o más grupos denominados como internos, si continúan sub dividiéndose, o terminales u hojas, si no enfrentan más segmentación.
Ruido ( Datos con Ruido )
![]() |
| Ruido: error aleatorio o varianza en una variable medida |
Valores de atributos incorrectos debido a:
- Instrumentos de medición erróneos.
- Problemas en la entrada de datos.
- Problemas en la transmisión.
- Limitaciones tecnológicas.
Otros problemas que requieren “data cleaning”.
- Registros duplicados.
- Datos incompletos.
- Datos inconsistentes.
¿Cómo tratar los datos con ruido?
Método de “cubas” (Binning method):
- Ordenar primero los datos, y particionarlos en “cubas” de igual profundidad (=cant. de valores).
- Luego se puede suavizar (smooth) por media de cubas, mediana de cubas, frontera de cubas, etc.


No hay comentarios.:
Publicar un comentario