Análisis de Datos y Modelos Predictivos en Economía

Análisis de Dispersión

B) Se tienen los siguientes datos: Salario: $ 26.000, $ 39.000, $ 55.000, $ 33.000, $ 57.000 Edad: 21, 52, 55, 44, 58 ¿Cuál de los dos sets de datos (salario o edad) tiene mayor dispersión? Explique.

El conjunto de datos de salario tiene una mayor dispersión. Esto se debe a que la diferencia entre el salario mínimo y máximo ($31.000) es más grande que la diferencia entre la edad mínima y máxima (37 años).

Limpieza de Datos

A) Existe más de una forma de tratar los Missing Values. ¿Cuáles son y cuándo usaría cada una?

  • Eliminación: Elimina registros con valores faltantes cuando son pocos y no representativos.
  • Imputación: Reemplaza valores faltantes con estimaciones (media, mediana, modelos predictivos) para conservar la cantidad total de datos.
  • Modelado de valores faltantes: Predice valores faltantes como una variable dependiente usando otros atributos, útil cuando hay suficiente información disponible.

B) No siempre se deben remover los outliers:

No, depende del contexto. Los outliers pueden contener información valiosa o indicar eventos importantes. Su eliminación puede sesgar el análisis y distorsionar los resultados.

Consultas SQL

Parte 1

1) Los nombres de los pilotos y su país de nacimiento, cuya edad sea mayor a 30 años.

SELECT Nombre, País_nac FROM Pilotos WHERE Edad > 30;

2) Los nombres de los pilotos que nacieron en países cuyo nombre empieza con “R” y el nombre de la escudería a la que pertenecen

SELECT Pilotos.Nombre, Escuderías.Nombre AS Escudería FROM Pilotos JOIN Escuderías ON Pilotos.Escudería_id = Escuderías.Escudería_id WHERE Pilotos.País_nac LIKE 'R%';

3) Los nombres de las escuderías que tienen pilotos nacidos antes de 1990.

SELECT Escuderías.Nombre FROM Escuderías JOIN Pilotos ON Escuderías.Escudería_id = Pilotos.Escudería_id WHERE Pilotos.Fecha_nac < '1990-01-01';

Parte 4

b) Indique qué se obtiene (tabla) a partir de la siguiente consulta

SELECT Nombre AS Piloto, Fecha_nac AS Fecha_nacimiento FROM Pilotos WHERE Piloto LIKE '%o%' AND País_nac IN ('Países Bajos', 'Mónaco', 'Finlandia')

La consulta SQL proporcionada en la pregunta B de la Parte 4 del examen generará una tabla que incluirá los nombres de los pilotos cuyos nombres contienen la letra ‘o’ en cualquier posición y que hayan nacido en los países Países Bajos, Mónaco o Finlandia, junto con sus respectivas fechas de nacimiento.

Conceptos de Análisis de Datos

1) ¿Cómo se le dice a una colección de hechos, tales como números, palabras, medidas u observaciones? Datos

2) En este modelo, los datos son organizados en varias tablas de dos dimensiones. Modelo relacional

3) Seleccione el dato no estructurado. Foto del producto

4) A diferencia de en otros países, en Uruguay la compra y venta de datos es libre y no está regulada. Falso

5) Seleccione un ejemplo de datos internos a la empresa. Datos de contacto de mis clientes

6) A través de RFM llegamos a un segmento qué se denomina “es muy necesario recuperar”. ¿Cuáles de los siguientes subgrupos pertenece a ese segmento? 544

7) ¿Qué estrategia de marketing tomarías sobre clientes 144, 155, 244, 255 de una segmentación RFM?

La estrategia dependería de los criterios específicos utilizados en la segmentación RFM. Por lo general, los clientes con valores más altos en RFM (como 144, 155, 244, 255) suelen ser considerados como clientes de alto valor, por lo que podrías enfocarte en retenerlos ofreciendo promociones especiales, descuentos exclusivos o servicios personalizados para fomentar su lealtad.

8) Tipo de análisis que utiliza datos históricos para comprender como una variable impactará en otra. Análisis Predictivo

9) En un modelo que predice el cáncer, ¿cuál de estas medidas es la más importante? Recall

10) ¿Cuál es la precisión de los siguientes datos? 84,6%

11) De los modelos vistos en clase, ¿cuál usaría una estación de servicio para saber cuanta nafta van a vender el próximo mes? Un modelo predictivo

4) Conjunto de sistemas de información que permite la integración de ciertas operaciones de una empresa. ERP (Planificación de recursos empresariales)

7) Muchas redes sociales como Facebook y Twitter permiten descargar datos conectandose a sus API. Verdadero

8) El procesamiento de lenguaje natural ayuda a las máquinas a comprender cómo se comunican las personas. Verdadero

11) Para que un cliente sea rentable su CLV debe ser ………………. al CAC. Mayor

12) En la fórmula tradicional de CLV: CLV=m*(r/(1+d-r). ¿Qué significa la””? Tasa de retención

15) ¿Qué tipo de gráfico usarías para comparar cambios entre dos puntos en el tiempo? Gráfica de linea

17) De los modelos vistos en clase, ¿cuál usaría una estación de servicio para saber si los que le ponen nafta premium tienen más chances de comprar también un aditivo?

Un modelo de asociación, como el algoritmo Apriori, sería útil para determinar si los clientes que compran nafta premium tienen más probabilidades de comprar un aditivo.

18) De los modelos vistos en clase, ¿cuál usaría un local de ropa vintage que está analizando incorporar carteras a su listado de productos y quiere predecir cuánto sería la facturación realizando la incorporación?

Un modelo de series temporales podría predecir la facturación futura después de incorporar carteras al listado de productos.

20) Mencione tres elementos a tener en cuenta cuando creamos una visualización de datos

Al crear una visualización de datos, considera:

  • Claridad: Asegúrate de que sea fácil de entender.
  • Relevancia: Destaca lo más importante.
  • Diseño: Utiliza un diseño atractivo y coherente.

Knowledge Discovery in Databases (KDD)

1) ¿Qué es el Knowledge Discovery in Databases y cuáles son sus etapas?

KDD es un proceso para descubrir patrones en datos. Etapas: selección, preprocesamiento, minería, interpretación.

2) Desarrolle. ¿Por qué es tan importante el Preprocesamiento de los Datos y que vinculo tiene con el sesgo dentro de la metodología?

El preprocesamiento de datos es esencial para limpiar y preparar los datos para el análisis. Si se hace incorrectamente, puede introducir sesgos al eliminar datos de forma selectiva.

Clustering

1) ¿Cuál es la diferencia entre modelos clusterizadores particionales y jerárquicos? De un ejemplo del funcionamiento de cada uno.

Clustering Particional: Divide los datos en un número fijo de grupos. Ejemplo: K-Means agrupa clientes en segmentos basados en características demográficas y de compra.

Clustering Jerárquico: Construye una jerarquía de grupos. Ejemplo: El clustering jerárquico aglomerativo agrupa gradualmente animales en categorías más amplias (mamíferos, aves) y luego en grupos más específicos (perros, gatos).

Datos e Información

3) Explique la diferencia entre Datos e Información. Elabore y ponga ejemplos

Datos: Son hechos crudos o registros sin procesar que carecen de significado por sí solos. Ejemplo: Números de ventas diarias de productos.

Información: Es el resultado del procesamiento y análisis de datos, proporcionando significado y utilidad. Ejemplo: Análisis de ventas que revela patrones estacionales para ajustar el inventario.

En resumen, los datos son hechos crudos mientras que la información es el conocimiento significativo derivado de esos datos procesados.

Bases de Datos

4) Explique que es una Base de Datos brindando ejemplos de diferentes Bases de Datos que conozca y marcando que diferencias tienen.

Una base de datos es una colección organizada de datos que se almacena de manera estructurada para facilitar su acceso y gestión. Aquí hay ejemplos de diferentes tipos:

  • BBDD Relacionales (SQL): Ejemplo: MySQL, PostgreSQL. Utilizan SQL para consultas. Diferencias: Pueden ser de código abierto o comerciales, varían en rendimiento y características.
  • BBDD NoSQL: Ejemplo: MongoDB, Cassandra. Diseñadas para datos no estructurados o semi-estructurados. Diferencias: Varían en modelo de datos y escalabilidad.
  • BBDD de Grafos: Ejemplo: Neo4j, Amazon Neptune. Almacenan datos en grafos para representar relaciones. Diferencias: Útiles para datos interconectados como redes sociales.
  • BBDD In-Memory: Ejemplo: Redis, Memcached. Almacenan datos en memoria para acceso rápido. Diferencias: Destacan por su velocidad de acceso, pero pueden tener limitaciones de capacidad.

Diseño de Bases de Datos

5) Al diseñar una base de datos hablamos de tres niveles. Explique cada uno marcando las diferencias que los caracterizan.

  • Nivel Conceptual: Vista global y abstracta de la base de datos, centrada en entidades, relaciones y restricciones.
  • Nivel Lógico: Implementación de la base de datos utilizando un modelo específico y un lenguaje de definición de datos.
  • Nivel Físico: Define cómo se almacenan los datos en el disco y cómo se accede a ellos físicamente, optimizando el rendimiento y la eficiencia.

Interpretación y Evaluación en KDD

6) Explique en que consiste la interpretación/evaluación dentro del KDD y porque suele ser necesario volver a pasos anteriores.

La interpretación y evaluación en el KDD consiste en analizar los resultados obtenidos. A veces, es necesario volver a pasos anteriores para corregir errores, validar los resultados, optimizar el proceso y mejorar los modelos de minería de datos. Esto asegura que los resultados sean precisos y útiles.

Web Scraping

7) ¿En qué consiste el Scraping? Brinde un ejemplo de cómo podría utilizarlo para complementar una investigación

El scraping es la técnica de extracción automatizada de datos de páginas web. Por ejemplo, podrías usar scraping para recopilar precios de productos de diferentes tiendas en línea como parte de una investigación sobre comparación de precios. Esto te permite recopilar datos de múltiples fuentes de manera eficiente para obtener insights.

Consultas SQL Adicionales

2) Obtener los clientes (nombre y apellido) de Argentina y Chile.

SELECT nombre, apellido FROM clientes WHERE pais = 'argentina' OR pais = 'chile';

3) Obtener el nombre y la edad de los clientes que han realizado compras de más de $75 y que el cliente es de Uruguay.

SELECT c.nombre, c.edad FROM clientes c LEFT JOIN ventas v ON v.Cliente_ID = c.ID WHERE c.pais = 'uruguay' AND v.total > 75;

4) ¿Qué resultado obtengo con la siguiente consulta?

SELECT c.Nombre, c.Apellido, SUM(v.Total) AS Total_Ventas FROM Ventas v JOIN Clientes c ON v.Cliente_ID = c.ID GROUP BY c.Nombre, c.Apellido;

Me da el total de las compras de cada cliente. Dibujar una tabla con la respuesta (?)

1) Obtener los nombres y apellidos de todos los clientes:

SELECT Nombre, Apellido FROM Clientes;

2) Obtener los clientes (nombre y apellido) de Argentina y Chile

SELECT Nombre, Apellido, Pais FROM Clientes WHERE Pais = 'Argentina' OR  Pais = 'Chile';

3) Obtener el nombre y la edad de los clientes que han realizado compras de más de $100

SELECT c.Nombre, c.Edad, v.Total FROM Clientes c INNER JOIN Ventas v ON c.Id = v.Cliente_ID WHERE v.Total > 100;

4) ¿Qué resultado obtengo con la siguiente consulta?

SELECT c.Nombre, c.Apellido, SUM(v.Total) AS Total_Ventas FROM Ventas v JOIN Clientes c ON v.Cliente_ID = c.ID GROUP BY c.Nombre, c.Apellido;

Suma total de las ventas Agrupada por cada cliente (Nombre y Apellido)

Indique qué se obtiene (tabla)

SELECT Nombre AS Piloto, Fecha_nac AS Fecha_nacimiento FROM Pilotos WHERE Piloto LIKE '%o%' AND Pais_nac IN ('Países Bajos', 'Mónaco', 'Finlandia');

Muestra los nombres y la fecha de nacimiento de los pilotos que nacieron en los países de Mónaco, Finlandia y Países Bajos.

Análisis de Gráficos

Gráfica lineal: Que es una gráfica con distribución asimétrica hacia la izquierda. Los datos se condensan en la primera mitad, la mediana y la moda no coinciden.

Coeficientes: El Área y las Habitaciones son los coeficientes que mayormente influyen en la variable estudiada. Esto debido a su valor positivo y mayor en comparación con el valor del coeficiente de edad, este modelo explica el 83,5% de variabilidad sobre la variable estudiada.

Clustering – Análisis de Gráficos

A. ¿A qué tipo de clustering se corresponde cada uno de los siguientes gráficos?

Correcto, el gráfico de la izquierda corresponde a clustering particional y el de la derecha a clustering jerárquico.

B. Explique brevemente el proceso a través del cual se forman los clusters en cada uno de ellos.

En el clustering particional, se determina la posición inicial de los centroides y se mueven iterativamente hacia la posición media de los puntos asignados a cada centroide. En el clustering jerárquico, se comienza con cada punto como un cluster individual y se fusionan gradualmente en clusters más grandes basados en la distancia entre ellos.

C. En base a los gráficos, ¿cuántos Clusters formaría en cada caso? Explique

En el gráfico de codo, se observa un cambio brusco en la pendiente en el punto 3 o 2, indicando el número óptimo de clusters. En el clustering jerárquico, se traza una línea horizontal en el dendrograma para determinar el número de clusters, como la distancia más grande entre uniones sucesivas.

Regresión Logística

D. 1) ¿Para qué utilizaría una Regresión Logística?

Utilizaría la Regresión Logística cuando tengo datos cualitativos y cuantitativos y necesito predecir una variable binaria, como la obesidad. La variable independiente sería la categoría, como la dieta, y la variable dependiente sería la categoría binaria, como la obesidad.