Türkçe Açıklama İçin Tıklayınız
Bu GitHub deposu, 2023 BTK Datathon yarışmasına katılarak geliştirilen Alışveriş Müşteri Sınıflandırma projesini içerir.
Bu yarışmanın temel amacı, bir alışveriş firmasının müşterilerinin hangi sınıflara ait olduğunu tahmin etmek ve bu sınıflar için pazarlama stratejileri geliştirmektir.
- Online Link: https://gamma.app/public/Original-BTK-ah8u9n3rgb5h95c
- Sunuma ayrıca
./Presentation/Sunum.pdf
kısmından da ulaşabilirsiniz.
Çalışılan veri seti aşağıdaki özellikleri içerir:
- Cinsiyet
- Yaş Grubu
- Medeni Durum
- Eğitim Düzeyi
- İstihdam Durumu
- Yıllık Ortalama Gelir
- Yaşadığı Şehir
- En Çok İlgilendiği Ürün Grubu
- Yıllık Ortalama Satın Alım Miktarı
- Yıllık Ortalama Sipariş Verilen Ürün Adedi
- Eğitime Devam Etme Durumu
- Yıllık Ortalama Sepete Atılan Ürün Adedi
- Öbek İsmi (Tahmin edilecek olan etiket)
Proje süresince aşağıdaki adımlar takip edildi:
- Keşifsel veri analizi
- İlişkisel veri analizi
- Kümeleme analizi
- Makine öğrenmesi algoritmaları ile en iyi modelin belirlenmesi
- Feature engineering
- Hiperparametre ayarı ile en iyi modelin belirlenmesi
- Çeşitli metriklerle başarı testleri
Random Forest algoritması, çoklu sınıf problemlerinde etkili olması, iyi performans göstermesi, hızlı öğrenmesi, çeşitli hiperparametre seçeneklerine sahip olması, overfittinge karşı dayanıklı olması ve otomatik özellik seçimi yapması nedeniyle tercih edildi.
Yarışmada ilk 10'a kalarak final sunumlarına hak kazandım, ancak ilk 3'te bulunamadım.
Proje hakkında geri bildirim veya sorularınız için lütfen iletişime geçin:
- E-posta: ramazan.erduran@outlook.com.tr
- LinkedIn: ramazan-erduran
This GitHub repository contains the Shopping Customer Classification project developed for the 2023 BTK Datathon.
The main goal of this competition is to predict which classes customers of a shopping company belong to and to develop marketing strategies for these classes.
- Online Link: https://gamma.app/public/Original-BTK-ah8u9n3rgb5h95c
- You can reach the presentation at
./Presentation/Sunum.pdf
The dataset used in the project includes the following features:
- Gender
- Age Group
- Marital Status
- Education Level
- Employment Status
- Annual Average Income
- City of Residence
- Most Interested Product Group
- Annual Average Purchase Amount
- Annual Average Ordered Product Count
- Education Continuation Status
- Annual Average Products Added to Cart
- Cluster Name (the label to be predicted)
Throughout the project, the following steps were followed:
- Exploratory data analysis
- Relational data analysis
- Clustering analysis
- Determining the best model with machine learning algorithms
- Feature engineering
- Determining the best model with hyperparameter tuning
- Performance testing with various metrics
The Random Forest algorithm was chosen due to its effectiveness in multi-class problems, good performance, fast learning, various hyperparameter options, resistance to overfitting, and automatic feature selection.
I made it to the top 10 in the competition and qualified for the final presentations, but I didn't make it to the top 3.
For feedback or questions about the project, please feel free to contact me at:
- Email: ramazan.erduran@outlook.com.tr
- LinkedIn: ramazan-erduran