Bu proje veri madenciliği dersi proje ödevi olarak yapılmıştır.Veri madenciliği için kullanılan bir karar ağacı sınıflandırma modelinin oluşturulması ve değerlendirilmesini içerir. Veri seti olarak yüklenen veriler kullanılarak model eğitilir ve test edilir. Modelin performansı değerlendirilirken doğruluk skorları kullanılır. Ayrıca, farklı max_depth
değerleri için modelin doğruluk skorları çizdirilir ve en iyi performans gösteren max_depth
değeri seçilir. En iyi modelin karar ağacı görselleştirilir ve özelliklerin önem düzeyleri çizdirilir.
Kullanılan Kütüphaneler ve Modüller:
- pandas
- scikit-learn (sklearn)
- matplotlib
Kodun Kullanımı :
- Veri setini yüklemek için, kodu çalıştırdığınız Colab ortamında çalıştırın.
- Dosya yükleme işlemi için, dosya seçme işlemi yapılacaktır. Proje breast cancer data setine göre oluşturulmuştur.
- Veri seti başarıyla yüklendikten sonra, kodun geri kalanını çalıştırabilirsiniz.
- Model eğitimi ve değerlendirme adımlarını takip edebilirsiniz.
- Modelin performansını değerlendirmek için, doğruluk skorlarına ve grafiklere bakabilirsiniz.
- En iyi performans gösteren max_depth değeri seçildikten sonra, modelin test veri kümesi üzerindeki performansını kontrol etmek için ilgili kodu çalıştırabilirsiniz.
- En iyi modelin karar ağacını görselleştirmek ve özelliklerin önem düzeylerini görmebilirsiniz.