CIPA Ponal: mayo 2017

viernes, 5 de mayo de 2017

Conclusiones

Conclusiones

Permite realizar el proceso La Inteligencia de Negocios
Brinda herramientas para el análisis de los datos

Bibliográfia

Bibliografia

http://intelempresariall.blogspot.com.co/
https://es.wikipedia.org/wiki/OLAP
https://yoshibauco.wordpress.com/2011/03/21/pre-procesamiento-de-datos-tecnicas
http://www.monografias.com/trabajos24/bodega-de-datos/bodega-de-datos.shtml
http://www.cepal.org/sites/default/files/events/files/trabajemos_con_los_datos.pdf
http://cs.uns.edu.ar/~cic/dm2007/downloads/transparencias/06_Sobre_Preprocesamiento_datos.pdf
https://yoshibauco.wordpress.com/2011/03/21/pre-procesamiento-de-datos-tecnicas/
https://www.youtube.com/watch?v=Qg_yO_VOi2s&list=PLAg_UedXEwpadgxB4lHqHZ8KwQR-R-7Cx
https://prezi.com/pac9x_tffozc/bodega-de-datos-sispro/
http://disi.unal.edu.co/profesores/eleonguz/cursos/md/presentaciones/Sesion3_preprocesamiento.pdf
http://wwwae.ciemat.es/~cardenas/docs/lessons/PreprocesadoDatos.pdf
http://www.vitutor.com/estadistica/descriptiva/a_18.html
http://www.acis.org.co
http://www.jazzwarehous.blogspot.com
http://www.monografias.com
http://www.bodegadedatos.com
http://www.mtbase.com
http://www.estudiagratis.com

Integración de datos

La integración de los datos se realizan para eliminar las redundancias que pueden ser detectadas por un análisis correlacional. Por ejemplo, la correlación entre dos atributos se puede medir de la siguiente manera: P(A^B)/P(A)P(B) Si el resultado es mayor a 1, hay correlación entre los datos positivamente y uno de los dos puede ser eliminado como redundancia. Si el resultado es igual a 1 no existe correlación entre los datos. Si el resultado es menor a 1, hay correlación entre los datos negativamente.

Si se realiza la integración de datos con cuidado se puede evitar la inconsistencia y la redundancia entre los datos, además de mejorar la calidad de la información obtenida a partir de esos datos.

Transformación de datos

Normalización

– Normalización Min-Max: ejecuta una transformación lineal de los datos originales, con base en los valores mínimos y máximos de un atributo, se calcula un valor de normalización v’ con base en el valor v. Este método conserva las relaciones entre los datos originales.

– Normalización z-core: los valores para un atributo A son normalizados basados en la media y la desviación estandar de A. Este método se utiliza cuando el máximo y el mínimo son desconocidos o cuando hay valores anómalos que predominan al usar la normalización min-max.

– Normalización de escala decimal: normaliza moviendo los puntos decimales de los valores del atributo A.

Hay que considerar que la normalización cambia un poco los datos con los que se cuenta al principio. Además es interesante guardar los parámetros como media o desviación estándar para uso futuro.

Suavizado

Algunas técnicas de suavizado son clustering, binning y regresión.

Agregación

Se utiliza generalmente en los cubos de datos para el análisis de datos en diferentes granularidad

jueves, 4 de mayo de 2017

Reducción de Datos

Selección de características, muestreo o selección de instancias, discretización.

Selección de características:

menos datos / los algoritmos pueden aprender más rápidos/ Mayor exactitud /el clasificador generaliza mejor /Resultados más simples /más fácil de entender /Menos atributos / evitar obtenerlos posteriormente.

Selección de instancias:

muestreo aleatorio/ Selección de prototipo: selección basada en reglas NN/selección basada en eliminación ordenada/algoritmos evolutivos.

Discretización:

proceso que transforma datos cuantitativos en datos cualitativos.

El atributo es transformado de valores numéricos en valores categóricos. La discretización suaviza el efecto del ruido y permite modelos más simples; y por lo tanto, menos propensos al sobreajuste. Algunos algoritmos de minería de datos solo trabajan con datos categóricos. Por lo tanto en estos casos es necesario transformar los datos continuos en categóricos.

Estadística de resumen.

Estadística:

es la ciencia que comprende la recopilación, ordenación, clasificación, tabulación, análisis e interpretación de los datos cuantitativos para poder hacer comparaciones y sacar conclusiones.

Estadística descriptiva:
tabula y representa datos que pueden ser cualitativos o cuantitativos, sin sacar conclusiones.
Estadística inferencial:
infiere en las propiedades de grandes números de datos recogidos de una muestra tomados de la población.

Después de haber recolectado los datos y construido las tablas y gráficos se requieren realizar unas medidas más exactas.

La estadística de resumen, proporciona medidas para describir un conjunto de datos, y existen tres tipos de medidas de resumen:

De tendencia central:
Las medidas de tendencia central son valores que se ubican al centro de un conjunto de datos ordenados según su magnitud. Generalmente se utilizan 4 de estos valores también conocidos como estadigrafos, la media aritmética, la mediana, la moda y al rango medio.
De dispersión:Parámetros estadísticos que indican como se alejan los datos respecto de la media aritmética. Sirven como indicador de la variabilidad de los datos. Las medidas de dispersión más utilizadas son el rango, la desviación estándar y la varianza.
De la forma de la distribución:nos permiten identificar la forma en que se separan o aglomeran los valores de acuerdo a su representación gráfica. Estas medidas describen la manera como los datos tienden a reunirse de acuerdo con la frecuencia con que se hallen dentro de la información.

Conceptos de Estadística

Población: Una población es el conjunto de todos los elementos a los que se somete a un estudio estadístico.
Individuo: Un individuo o unidad estadística es cada uno de los elementos que componen la población.
Muestra: Una muestra es un conjunto representativo de la población de referencia, el número de individuos de una muestra es menor que el de la población.
Muestreo: El muestreo es la reunión de datos que se desea estudiar, obtenidos de una proporción reducida y representativa de la población.
Valor: Un valor es cada uno de los distintos resultados que se pueden obtener en un estudio estadístico.
Dato: Un dato es cada uno de los valores que se ha obtenido al realizar un estudio estadístico.

Variables

Variable cualitativa

Las variables cualitativas se refieren a características o cualidades que no pueden ser medidas con números. Podemos distinguir dos tipos:

Variable cualitativa nominal:Una variable cualitativa nominal presenta modalidades no numéricas que no admiten un criterio de orden.
Variable cualitativa ordinal o variable cuasi-cuantitativa:Una variable cualitativa ordinal presenta modalidades no numéricas, en las que existe un orden.

Variable cuantitativa

Una variable cuantitativa es la que se expresa mediante un número, por tanto se pueden realizar operaciones aritméticas con ella. Podemos distinguir dos tipos:

Variable discreta:
Una variable discreta es aquella que solo puede tomar un número finito de valores entre dos valores cualesquiera de una característica.
Variable continua:Una variable continua es aquella que puede tomar un número infinito de valores entre dos valores cualesquiera de una característica.

Limpieza de Datos

Esta consiste en detectar todos los datos que tienen alguna clase de error y eliminarlos o descartarlos.

Su objetivo es seleccionar de forma coordinada los datos más relevantes del proceso pues esta información recolectada puede tener datos erróneos o faltantes.

Una de las actividades dentro de la limpieza de datos es el tratamiento de datos ausentes. Esto quiere decir que le falta un valor a algún atributo y para corregirlo hay que rellenar este valor tomando alguna estrategia como la media o la moda.

También nos ayuda a resolver las redundancias “es cuando se repite la misma información intensificada con otra palabra que significa lo mismo, “LIBRERÍA DE LIBROS”,”.

Chequea y resuelve problemas de ruido, valores perdidos, elimina outliers “valores atípicos” significa que es una observación que es numéricamente distante del resto de los datos.

Resuelve inconsistencias y conflictos entre datos.También se puede realizar mediante la distribución gausiana la cual es una de la que con mayor frecuencia se aproxima a fenómenos reales.

Acciones de datos anómalos o faltantes:

Se pueden ignorar, que sería lo más fácil.
Filtrar (eliminarlo o sustituirlo) la columna.
Filtrar la fila.
Reemplazar el valor por otro valor.
Segmentar las filas entre los datos correctos y el resto trabajar separadamente.
Desistir y modificar la política de datos para la próxima vez.

Análisis De Relevancia De atributos

Es la capa de integración de datos es eficiente y de acceso flexible para generar informes, analizar la información de forma dinámica y simular escenarios hipotéticos de negocio. Esta capa debe funcionar con navegadores de datos agregados, optimizadores de consultas complejas, y con interfaces gráficas de usuario de fácil manejo. Es necesario estudiar a fondo la diferencia arquitectónica entre los almacenes de datos y los data marts.

Los componentes señalados como un data warehouse son frecuentemente llamados data warehouse primario o data warehouse corporativo que actúan como un sistema de almacenamiento centralizado para todos los datos que se resumen.

Ejemplos de procesamieto:

OLAP:

Es una solución utilizada en el campo de la llamada Inteligencia de negocios (o Business Intelligence) cuyo objetivo es agilizar la consulta de grandes cantidades de datos. Para ello utiliza estructuras de datos diversas, normalmente multidimensionales (o Cubos OLAP), que contienen datos resumidos de grandes Bases de datos o Sistemas Transaccionales (OLTP). Se usa en informes de negocios de ventas, marketing, informes de dirección, minería de datos y áreas similares.

Funcionalidad

En la base de cualquier sistema OLAP se encuentra el concepto de cubo OLAP (también llamado cubo multidimensional o hipercubo). Se compone de hechos numéricos o medidas, que se clasifican por dimensiones. El cubo de metadatos es típicamente creado a partir de un esquema en estrella o copo de nieve, esquema de las tablas en una base de datos relacional. Las medidas se obtienen de los registros de una tabla de hechos y las dimensiones se derivan de la dimensión de los cuadros.

Tipos de sistemas OLAP

1) ROLAP

Implementación OLAP que almacena los datos en un motor relacional. Típicamente, los datos son detallados, evitando las agregaciones y las tablas se encuentran desnormalizadas. Los esquemas más comunes sobre los que se trabaja son estrella ó copo de nieve, aunque es posible trabajar sobre cualquier base de datos relacional. La arquitectura está compuesta por un servidor de banco de datos relacional y el motor OLAP se encuentra en un servidor dedicado. La principal ventaja de esta arquitectura es que permite el análisis de una enorme cantidad de datos.

2) MOLAP

Esta implementación OLAP almacena los datos en una base de datos multidimensional. Para optimizar los tiempos de respuesta, el resumen de la información es usualmente calculado por adelantado. Estos valores precalculados o agregaciones son la base de las ganancias de desempeño de este sistema. Algunos sistemas utilizan técnicas de compresión de datos para disminuir el espacio de almacenamiento en disco debido a los valores precalculados.

3) HOLAP (Hybrid OLAP)

Almacena algunos datos en un motor relacional y otros en una base de datos multidimensional.

miércoles, 3 de mayo de 2017

Jerarquías de conceptos

El concepto de jerarquías organiza los valores de los atributos o dimensiones en niveles graduales de abstracción. Ellos son una forma de discretización . La generación automática del concepto de jerarquías para datos categóricos debe estar basada en el número de valores distintos de los atributos definidos en la jerarquía. Para datos numéricos, las técnicas que pueden ser usadas son: segmentación por reglas de partición, análisis de histogramas y análisis de clustering. El Chi-Merge también es un algoritmo de discretización automático que analiza la calidad de múltiples intervalos utilizando el estadístico Chi Cuadrado (ǘ 2 )

Jerarquías de conceptos : Datos numéricos.

Para datos numéricos hay gran diversidad de rangos de valores posibles y frecuentes actualizaciones. Es difícil construir jerarquías de conceptos para atributos numéricos La generación automática de jerarquía de conceptos se basa en el análisis de la distribución de los datos

Binning: representante de bin (media, mediana) ➽ binning recursivo.
Análisis de Histogramas: recursivo con mínimo tamaño de intervalo.
Clustering: clustering recursivo.
Basados en Entropía: particionamiento binario con evaluación de ganancia de información.
Segmentación 3-4-5: intervalos uniformes con límites redondeados.

Jerarquías de conceptos : Datos categóricos.

Atributos categóricos: número finito (pero posiblemente grande) de valores diferentes, sin ordenamiento entre ellos :

Especificación de ordenamiento parcial de los atributos por usuarios o expertos.
Especificación de una porción de la jerarquía por agrupamiento de datos explícito.
Especificación de un conjunto de atributos, pero no del ordenamiento parcial.
Especificación de conjunto parcial de atributos.
Especificación de ordenamiento parcial de los atributos por usuarios o expertos.

Calle X ⇐ Bogota ⇐ Cundinamarca ⇐ Colombia
Especificación manual.
Conjunto de atributos que forman la jerarquía, sin orden, que puede intentar generarse automáticamente.
Especificación de conjunto parcial de atributos Especificación manual.

Discretización

La discretización se usa para reducir el número de valores para un atributo continuo, dividiendo el rango del atributo en intervalos. Las etiquetas de los intervalos se usan para reemplazar los valores reales de los datos.
Algunos algoritmos de data mining solamente aceptan atributos categóricos y no pueden manejar un rango de valores continuos.
La discretización puede reducir el conjunto de datos, y puede usarse para generar jerarquías de conceptos automáticamente.

Musica

viernes, 5 de mayo de 2017

Conclusiones

Bibliográfia

Integracion y Transformacion

Integración de datos

Transformación de datos

jueves, 4 de mayo de 2017

Reducción de Datos

Selección de características:

Selección de instancias:

Discretización:

Estadística de resumen.

Conceptos de Estadística

Variables

Variable cualitativa

Variable cuantitativa

Limpieza de Datos

Análisis De Relevancia De atributos

miércoles, 3 de mayo de 2017

Jerarquías de conceptos

Jerarquías de conceptos : Datos numéricos.

Jerarquías de conceptos : Datos categóricos.

Discretización

Conclusiones