CIPA Ponal: Limpieza de Datos

Esta consiste en detectar todos los datos que tienen alguna clase de error y eliminarlos o descartarlos.

Su objetivo es seleccionar de forma coordinada los datos más relevantes del proceso pues esta información recolectada puede tener datos erróneos o faltantes.

Una de las actividades dentro de la limpieza de datos es el tratamiento de datos ausentes. Esto quiere decir que le falta un valor a algún atributo y para corregirlo hay que rellenar este valor tomando alguna estrategia como la media o la moda.

También nos ayuda a resolver las redundancias “es cuando se repite la misma información intensificada con otra palabra que significa lo mismo, “LIBRERÍA DE LIBROS”,”.

Chequea y resuelve problemas de ruido, valores perdidos, elimina outliers “valores atípicos” significa que es una observación que es numéricamente distante del resto de los datos.

Resuelve inconsistencias y conflictos entre datos.También se puede realizar mediante la distribución gausiana la cual es una de la que con mayor frecuencia se aproxima a fenómenos reales.

Acciones de datos anómalos o faltantes:

Se pueden ignorar, que sería lo más fácil.
Filtrar (eliminarlo o sustituirlo) la columna.
Filtrar la fila.
Reemplazar el valor por otro valor.
Segmentar las filas entre los datos correctos y el resto trabajar separadamente.
Desistir y modificar la política de datos para la próxima vez.

Técnicas de Limpieza de Datos.

Bayes: Este tipo de algoritmo comparte elementos de la biología, inteligencia artificial y estadística. Están definidos por un grafo donde existen nodos que representan variables aleatorias junto con sus enlaces, los cuales hacen referencia a dependencias entre las mismas. El éxito de las redes bayesianas se debe a su habilidad para manejar modelos probabilistas complejos al descomponerlos en componentes más pequeños y digeribles.
Árboles de decisión:Un árbol de decisión es un modelo de clasificación que divide un conjunto de análisis, buscando el mayor grado de pureza entre los grupos resultantes. En todo árbol hay un nodo inicial denominado raíz, que contiene la totalidad de la información. Este grupo se subdivide en dos o más grupos denominados como internos, si continúan sub dividiéndose, o terminales u hojas, si no enfrentan más segmentación.
Agrupación: También denominados procedimientos de clustering, buscan generar nuevos conjuntos a partir de los datos analizados, tales que los individuos en un mismo grupo sean lo más parecidos posible y que, simultáneamente, cada grupo sea lo más diferente posible.

Ruido ( Datos con Ruido )

Ruido: error aleatorio o varianza en una variable medida

Valores de atributos incorrectos debido a:

Instrumentos de medición erróneos.
Problemas en la entrada de datos.
Problemas en la transmisión.
Limitaciones tecnológicas.

Otros problemas que requieren “data cleaning”.

Registros duplicados.
Datos incompletos.
Datos inconsistentes.

¿Cómo tratar los datos con ruido?

Método de “cubas” (Binning method):

Ordenar primero los datos, y particionarlos en “cubas” de igual profundidad (=cant. de valores).
Luego se puede suavizar (smooth) por media de cubas, mediana de cubas, frontera de cubas, etc.

Clustering

Detectar y remover “outliers”.

Inspección combinada humano-computadora.

Detectar valores sospechosos automáticamente y contrastarlos con opinión humana.

Regresión.

Suavizar ajustando los datos a través de funciones de regresión.

Uno de los problemas más difíciles en la limpieza de datos es la eliminación de los datos ruidosos. Estos casos corresponden con ejemplos que son significativamente diferentes o son inconsistentes con el conjunto de datos. El tratamiento de los datos ruidosos es una de las tareas más difíciles del conjunto de actividades que engloba la minería de datos. Para detectar qué es un dato ruidoso y qué no, pueden utilizarse diversas estrategias, basándose algunas de ellas en umbrales de probabilidad de determinadas distribuciones de probabilidad. Muchos algoritmos de minería de datos tratan de minimizar el impacto de los datos ruidosos en el modelo final, o incluso eliminarlo. Los datos ruidosos pueden provenir de errores en los aparatos de medidas, reales y correctas pero altamente improbables, o de casos excepcionales. Por lo tanto, el rechazo de este tipo de datos debe realizarse con mucha precaución.

Musica

jueves, 4 de mayo de 2017

Limpieza de Datos

Técnicas de Limpieza de Datos.

Ruido ( Datos con Ruido )

¿Cómo tratar los datos con ruido?

Método de “cubas” (Binning method):

Clustering

Detectar y remover “outliers”.

Clustering

Inspección combinada humano-computadora.

Detectar valores sospechosos automáticamente y contrastarlos con opinión humana.

Inspección combinada humano-computadora.

Regresión.

Regresión.

No hay comentarios.:

Publicar un comentario

Conclusiones

Musica

jueves, 4 de mayo de 2017

Limpieza de Datos

Técnicas de Limpieza de Datos.

Ruido ( Datos con Ruido )

¿Cómo tratar los datos con ruido?

Método de “cubas” (Binning method):

Clustering Detectar y remover “outliers”.

Clustering

Inspección combinada humano-computadora. Detectar valores sospechosos automáticamente y contrastarlos con opinión humana.

Inspección combinada humano-computadora.

Regresión.

Regresión.

No hay comentarios.:

Publicar un comentario

Conclusiones

Clustering

Detectar y remover “outliers”.

Inspección combinada humano-computadora.

Detectar valores sospechosos automáticamente y contrastarlos con opinión humana.