Skip to content

Este repositorio contiene la participación en la competencia Playground Series - Season 4, Episode 9 - Regression of Used Car Prices en Kaggle. El objetivo de la competencia es predecir con precisión el valor de la variable objetivo usando un conjunto de características proporcionado.

Notifications You must be signed in to change notification settings

AndresPerelmuter/Regression-of-Used-Car-Prices

Repository files navigation

Regression-of-Used-Car-Prices

Descripción del Proyecto

Este repositorio corresponde a la competencia Playground Series - Season 4, Episode 9 - Regression of Used Car Prices en Kaggle. El objetivo de la competencia es predecir el valor de la variable price.

La competencia está orientada a incentivar la experimentación y la mejora en la implementación de técnicas de Machine Learning y Deep Learning. A continuación, se detallan los pasos clave, enfoques y técnicas que he utilizado para abordar este desafío.

https://www.kaggle.com/competitions/playground-series-s4e9/leaderboard#

Etapas del Proyecto

1 - Preprocesamiento de Datos Se implementaron diversas técnicas para limpiar y preparar los datos para el modelado. Algunos pasos incluyen:

  • Visualización de Valores Faltantes: Se realizó un análisis para identificar la presencia de valores nulos en el dataset.

  • Tratamiento de Valores Nulos: Para manejar los valores faltantes, se aplicó la moda (el valor más frecuente) en las columnas correspondientes, asegurando que no se introdujeran sesgos en el modelo.

  • Codificación de Variables Categóricas: Se utilizó Label Encoder para convertir variables categóricas en valores numéricos, lo que permitió su inclusión en el modelo de manera eficiente.

2 - Análisis Exploratorio de Datos (EDA): Se ha realizado un análisis detallado del conjunto de datos para identificar patrones, anomalías y relaciones entre las variables. Esto incluye:

  • Visualización de distribuciones.
  • Evaluación de correlaciones.

3 - Modelado: Se ha probado una variedad de modelos de Machine Learning, centrándose principalmente en:

  • LightGBM: Un algoritmo de Gradient Boosting optimizado para velocidad y eficiencia en grandes datasets.
  • CatBoost: Especialmente diseñado para trabajar con características categóricas, proporcionando resultados robustos.
  • XGBoost: Conocido por su rendimiento en competiciones de Machine Learning, este modelo es altamente eficiente y eficaz.

Además, se realizó stacking con estos modelos para combinar sus predicciones y mejorar la precisión general del modelo. El stacking permite que los modelos individuales se complementen entre sí, logrando un mayor rendimiento.

4 - Optimización de Hiperparámetros: Se utilizó Optuna, una biblioteca de optimización de hiperparámetros, para mejorar el rendimiento del modelo. Optuna permite la búsqueda automática de los mejores hiperparámetros a través de técnicas como el optimizador de TPE (Tree-structured Parzen Estimator). Esto se traduce en una búsqueda más eficiente y efectiva en comparación con métodos de búsqueda manual o en cuadrícula, ayudando a encontrar configuraciones óptimas que maximizan el rendimiento del modelo.

5 - Evaluación del Modelo: Los modelos fueron evaluados utilizando RMSE (Root Mean Squared Error), que proporciona una medida de la diferencia promedio entre las predicciones del modelo y los valores reales. Esta métrica es especialmente útil en problemas de regresión, ya que penaliza más los errores grandes, ofreciendo una visión clara del rendimiento del modelo.

About

Este repositorio contiene la participación en la competencia Playground Series - Season 4, Episode 9 - Regression of Used Car Prices en Kaggle. El objetivo de la competencia es predecir con precisión el valor de la variable objetivo usando un conjunto de características proporcionado.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published