Los futuros desafíos de la
Inteligencia de Negocios
Richard Weber
Departamento de Ingeniería Industrial
Universidad de Chile
rweber@dii.uchile.cl
El Vértigo de la Inteligencia de Negocios
Data OLAP:
Warehouse / Online
CRM: Customer Data Mart
Relationship Analytical
Management Processing
(Gestión de la
relación con el
cliente)
Data
Inteligencia de Negocios Mining:
(Business Intelligence) Minería de
CMR: ???
datos
Knowledge
Management
Balanced KPI: Key
Scorecard Performance
Inteligencia Indicators
Artificial
Business Intelligence – Definición
Business Intelligence
The term Business Intelligence (BI) represents the tools and systems that play a
key role in the strategic planning process of the corporation. These systems allow
a company to gather, store, access and analyze corporate data to aid in
decision-making.
Generally these systems will illustrate business intelligence in the
areas of customer profiling, customer support, market research, market segmentation,
product profitability, statistical analysis, and inventory and distribution analysis
to name a few.
http://www.webopedia.com/TERM/B/Business_Intelligence.html
Llamamos Inteligencia empresarial o Inteligencia de negocios (business intelligence, BI)
al conjunto de estrategias y herramientas enfocadas a la administración y creación de
conocimiento mediante el análisis de datos existentes en una organización o empresa.
http://es.wikipedia.org/wiki/Inteligencia_de_negocios
Proceso de KDD
Knowledge Discovery in Databases
Transformación Data Mining
Preprocesamiento
Selección
Patrones
Datos
Datos pre- transformados Interpretación y
procesados Evaluación
Datos se-
Datos leccionados
KDD es el proceso no-trivial de identificar patrones previamente
desconocidos, válidos, nuevos, potencialmente útiles y
comprensibles dentro de los datos
Futuros Desafíos
Metodológico:
1. Distintos formatos de “datos” (text mining, video mining, …)
2. Data Mining dinámico – Seguimiento de los Modelos
3. Combinación con Teoría de Juegos
Organizacional:
1. Gestión del Cambio (Change Management)
2. Rediseño de Procesos (BPM)
Metodología de
Procesamiento de los Textos 1/10
1. Limpieza de los textos
2. “Stemming”, es decir reducir palabras a su raiz
3. Creación de matriz “Opinión x Palabra”
4. Determinación de los pesos de cada palabra en cada opinión (TF*IDF)
5. Representación de cada opinión por un vector de palabras
6. Agrupamiento (“clustering”) de opiniones en base a
los vectores de palabras
7. Extracción de grupos (“clusters”) de opiniones
8. Identificación de opiniones originales que pertenecen a cada cluster
9. Interpretación semántica de los textos pertenecientes a cada opinión
original
Metodología de
Procesamiento de los Textos 2/10
1. Limpieza de los textos
Eliminar palabras poco relevantes:
Por ejemplo: y, o, la, el, uno, un, una, que, muy, …
Aplicación de sinónimos:
Por ejemplo: hijo, hijos, hija, hijas, niño, niños, niña, niñas -> niño
Metodología de
Procesamiento de los Textos 3/10
2. “Stemming”, es decir reducir palabras a su raiz
Por ejemplo:
Reducir las palabras como, comió, comida, … a su raiz COMER
Metodología de
Procesamiento de los Textos 4/10
3. Creación de matriz “Opinión x Palabra”
Calidad Formación … … … …
Opinión 1:
II_Apoderados1.txt 0 1 1 1 0 0
Opinión 2:
II_Apoderados2.txt 1 1 0 0 1 1
Opinión 3:
II_Apoderados3.txt 1 0 0 1 1 0
…… … … … … … …
Metodología de
Procesamiento de los Textos 5/10
4. Determinación de los pesos de cada palabra en cada opinión (TF*IDF)
TF*IDF: Text Frequency * Inverse Document Frequency
El peso de una palabra en un documento (aquí: opinión) es igual a su
frecuencia en el texto entero multiplicado por la inversa de la frecuencia
en el documento (opinión).
Pesoi,j = peso de palabra i en documento j
Metodología de
Procesamiento de los Textos 6/10
5. Representación de cada opinión por un vector de palabras
Opinión 1: II_Apoderados1.txt 0.8 1 0.1 1 0 0.8
Pasos 1. – 5.: “Del texto real al modelo”
Metodología de
Procesamiento de los Textos 7/10
6. Agrupamiento (“clustering”) de opiniones en base a los vectores de
palabras
Cada cluster contiene vectores similares (Homogeneidad dentro de los
clusters).
Vectores de distintos clusters son diferentes (Heterogeneidad entre los
clusters).
Técnicas para encontrar clusters:
K-medias (estadística), Self-organizing feature maps de Kohonen (redes
neuronales), … …
Comparando documentos
En su notación vectorial, las opiniones se pueden comparar.
oi → (m1i ,..., mRi ) o j → (m1 j ,..., mRj )
R
∑ mki mkj oi
dp (oi , o j ) = cos θ = R
k =1
R
∑ ( mki ) 2
∑ ( mkj ) 2
k =1 k =1 oj
θ
Metodología de
Procesamiento de los Textos 8/10
7. Extracción de grupos (“clusters”) de opiniones
14
12 2
10
8 1 3 5
6 4
Frecuencia del 4
2
ganador 0
0
2
4
6
8 8 10 12
10 6
12 2 4
0
Mapa de Kohonen aquí: 5 clusters
Metodología de
Procesamiento de los Textos 9/10
8. Identificación de opiniones originales que pertenecen a cada cluster
Por ejemplo:
Cluster 1 en Antofagasta contiene las siguientes 8 opiniones:
II_Director9.txt, II_Apoderados22.txt,
II_CentroApoderados12.txt, II_CentroApoderados56.txt,
II_CentroApoderados80.txt, II_CentroApoderados85.txt,
II_CentroApoderados92.txt, II_Consejero1.txt
Pasos 6. – 8.: “Aplicación del modelo, aquí: clustering de opiniones”
Metodología de
Procesamiento de los Textos 10/10
9. Interpretación semántica de las opiniones originales pertenecientes a
cada cluster
Paso 9.: “Paso inverso”: Del modelo al texto real.
Data Mining Dinámico
Clustering:
Descripción de objetos: valores actuales - trayectorias
Estructura de clases: fija - variable con el tiempo
Conjunto de atributos: fijo - variable con el tiempo
Clasificación:
Clasificación de “data streams”
Clasificación dinámica
Data Mining Dinámico
Descripción de objetos: valores actuales - trayectorias
Atributo 2 Atributo 2
Atributo 1 Atributo 1
Situación estática Situación dinámica
Data Mining Dinámico
Estructura de clases: fija - variable con el tiempo
Atributo 2 Atributo 2
Atributo 1 Atributo 1
Situación en tiempo t Situación en tiempo t+1
Data Mining y Teoría de Juegos
Datos Modelo
Data Mining Teoría de Juegos
Clientes
¿Cómo se comportan los clientes? ¿Cómo se deben comportar
los clientes?
Bravo, C., Weber, R. (2007): Modelo de Tarificación en Base
a SVMs y Juegos Repetidos. Congreso Óptima 2007, Puerto Montt, 21-23 de noviembre de 2007
Gestión del Cambio (Change Management)
Change management is the process of developing a planned approach to
change in an organization.
(http://en.wikipedia.org/wiki/Change_management)
www.change-management.com/
Capacitación de los profesionales involucrados.
• “Siempre lo hemos hecho así!”
• “Nunca lo hemos hecho así.”
• “Los demás también lo hacen así!”
Rediseño de Procesos (BPM)
BPM: Disciplina empresarial cuyo objetivo es mejorar la eficiencia a través de
la gestión sistemática de los procesos de negocio (BPR), que se deben
modelar, automatizar, integrar, monitorizar y optimizar de forma continua.
http://es.wikipedia.org/wiki/Business_Process_Management
Integración de los modelos analíticos a los procesos de negocio.
Más información
“Escuela de Verano Latinoamericana en Inteligencia
Computacional" EVIC 2008
15-17 de diciembre de 2008,
Universidad de Chile, Santiago
Diplomado “Inteligencia de Negocios”
DEA, Universidad de Chile
http://www.dii.uchile.cl/educacion_continua/
7 de julio al 15 de octubre de 2008.
Portal de “Knowledge Discovery”:
www.kdnuggets.com
Portal de Inteligencia de Negocios:
www.businessintelligence.com
Los futuros desafíos de la
Inteligencia de Negocios
Richard Weber
Departamento de Ingeniería Industrial
Universidad de Chile
rweber@dii.uchile.cl