El dataset correspondiente al caso práctico contiene información con respecto
a la venta de autos usados en la plataforma web cardekho.com. En él se registran las características de los autos ofertados en el sitio web, así como el valor actual del auto (nuevo) y el valor ofertado en el sitio web. Su objetivo es utilizar esta base de datos para responder a la siguiente pregunta: ¿Cuál debería ser el valor al que debería ofrecer mi auto usado para asegurar ofrecer un precio acorde al precio del mercado? ¿Qué variables tienen mayor relevancia para determinar el precio justo?
La solución a estas interrogantes consistirá en el desarrollo de un modelo de
regresión para la predicción del precio de mercado, pero antes de ello la base de datos deberá ser sometida a un análisis exploratorio y preparada con el fin de poder entrenar correctamente el modelo.
Se pide:
1. Explicar (de preferencia mediante un gráfico o diagrama) el flujo de
trabajo (workflow) a seguir para la exploración y limpieza de la base de datos cardeckho.csv
2. En un archivo de Colaboraty, desarrollar cada paso de la exploración y
limpieza, de la base de datos definidas en su flujo de trabajo, haciendo uso de las herramientas aprendidas en las capacitaciones, así como otra técnica que el grupo conozca, siempre que se encuentre correctamente explicado. El grupo deberá explicar en un resumen la información relevante obtenida de la aplicación de cada técnica
3. Exportar la base de datos pre-procesada en un archivo csv
Cada grupo deberá presentar los siguientes entregables:
- Archivo de Colab (.ypinb) que contenga el desarrollo del caso.
- El archivo csv que contiene el dataset pre-procesado - Archivo Word o PDF que contenga el resumen y los hallazgos que el grupo obtuvo del análisis La información contenida en el dataset es la siguiente:
# Nombre Descripción Tipo variable
1 Car_Name Modelo y/o marca del vehículo Texto ofertado 2 Year Año de fabricación del vehículo Numérica discreta 3 Selling_Price Precio de venta del vehículo usado Numérica en el mercado (en $) continua 4 Present_Price Precio de venta de un vehículo Numérica nuevo de dicho modelo en el continua mercado ( en $) 5 Kms_Driven Kilometraje total del vehículo (en Numérica Km) discreta 6 Fuel_Type tipo de combustible que utiliza Categórica de 2 clases 7 Seller_Type Indica si el auto es vendido a Categórica de 2 través de un intermediario o si la clases venta se realiza directamente con el propietario 8 Transmission Tipo de transmisión que posee el Categórica de 2 vehículo clases 9 Owner Indica si el propietario que ofrece Categórica de 4 el vehículo es su primer clases propietario, segundo pro si