Özellikleri belirtildiğinde kişilerin diyabet hastası olup olmadıklarını tahmin edebilecek bir makine öğrenmesi modeli geliştirilmesi istenmektedir.
Modeli geliştirmeden önce gerekli olan veri analizi ve özellik mühendisliği adımlarını gerçekleştirmemiz gerekmekte.
Veri seti ABD'deki Ulusal Diyabet-Sindirim-Böbrek Hastalıkları Enstitüleri'nde tutulan büyük veri setinin parçasıdır.
ABD'deki Arizona Eyaleti'nin en büyük 5. şehri olan Phoenix şehrinde yaşayan 21 yaş ve üzerinde olan Pima Indian kadınları üzerinde yapılan diyabet araştırması için kullanılan verilerdir.
Hedef değişken "outcome" olarak belirtilmiş olup; 1 diyabet test sonucunun pozitif oluşunu, 0 ise negatif oluşunu belirtmektedir.
Pregnancies: Hamilelik sayısı
Glucose: Oral glikoz tolerans testinde 2 saatlik plazma glikoz konsantrasyonu
Blood Pressure: Kan Basıncı (Küçük tansiyon) (mm Hg)
SkinThickness: Cilt Kalınlığı
Insulin: 2 saatlik serum insülini (mu U/ml)
DiabetesPedigreeFunction: Soydaki kişilere göre diyabet olma ihtimalini hesaplayan bir fonksiyon
BMI: Vücut kitle endeksi
Age: Yaş (yıl)
Outcome: Hastalığa sahip (1) ya da değil (0)
Yaş değişkenini katagorilere ayırıp yeni yaş değişkeni oluşturulması
BMI 18,5 asağısı underweight, 10.5 ile 24.9 arası normal, 24.9 ile 29.9 arası Overweight ve 30 üstü obese
Glukoz değerlerini kategorik değişkene çevirme
İnsülin değeri ile kategorik değişken türetme