El dataset "palmer penguins" es un conjunto de datos sobre pingüinos de tres especies diferentes que anidan en una colonia en la isla Torgersen, Península Antártica. Contiene información sobre las medidas corporales de los pingüinos, incluyendo la longitud y profundidad del pico, la longitud de la aleta y la masa corporal, así como información sobre el sexo y la edad de los pingüinos. Este conjunto de datos es ampliamente utilizado en la educación y la investigación para enseñar y ejemplificar técnicas de análisis de datos.
Hay tres especies de pingüinos en el conjunto de datos: Adelie, Gentoo, y Chinstrap. Conocidos cientificamente como Pygoscelis adeliae, Pygoscelis papua, y Pygoscelis antarctica, respectivamente. Cada especie se identifica en el dataset por su nombre común.
El culmen es el borde superior del pico de un ave. La longitud y profundidad del culmen se renombran como variables "bill_length_mm" y "bill_depth_mm" para ser más intuitivas. En este conjunto de datos de pingüinos, la longitud y profundidad del culmen (pico) se miden como se muestra a continuación:
El objetivo es construir un modelo que utilice las características para clasificar los pingüinos con un máximo de precisión.
Para alcanzar este objetivo, vamos a realizar un análisis exploratorio de datos para comprender los datos y elegir las mejores características. Este notebook se centra en explorar y visualizar el conjunto de datos utilizando bibliotecas como Seaborn y Matplotlib. El procesamiento de datos se realiza con Pandas.
- Procesamiento de datos: Pandas.
- Visualización de datos: Seaborn y Matplotlib.
- Información adaptada de https://github.com/allisonhorst/palmerpenguins
- Artwork by @allison_horst
Joseph Santiago Portilla - Ingeniero Electrónico.
- GitHub: https://github.com/JoePortilla
- Twitter: https://twitter.com/JoePortilla
- LinkedIn: https://www.linkedin.com/in/PortillaJoe
- Kaggle: https://www.kaggle.com/joeportilla