
Korelasyon Matrisi
20 Haziran 2024
Parametrenin Model Sonucuna Etkisi
11 Temmuz 2025
*Hazırlayan: Umut Kale
Bu video, Titanic veri seti üzerinde farklı makine öğrenmesi modellerinin karşılaştırılmasını ele almaktadır. Amaç, aynı veri seti ve koşullar altında algoritmaların performansını gözlemlemektir.
•Veri Seti ve Ön İşleme: Kaggle’dan alınan 891 yolcu bilgisi içeren Titanic veri seti kullanılmıştır. Kategorik veriler (cinsiyet, bindiği liman) sayısal değerlere dönüştürülmüş, eksik yaş değerleri medyan ile, eksik liman değerleri ise en sık görülen liman ile doldurulmuştur
•Özellik ve Hedef: Modelin karar vermesi için yolcunun sınıfı, cinsiyeti, yaşı, gemideki kardeş/eş sayısı, ebeveyn/çocuk sayısı, bilet ücreti ve bindiği liman gibi özellikler kullanılmıştır. Hedef değişken ise “survived” (hayatta kalıp kalmadığı) sütunudur
•Eğitim ve Test Seti: Verinin %80’i eğitim, %20’si test için ayrılmıştır
Karşılaştırılan Modeller:
◦Lojistik Regresyon: Basit ve hızlı bir sınıflandırma modelidir
◦Support Vector Machine (SVM): Sınıflar arasında sınır çizer.
◦K-Nearest Neighbors (KNN): En yakın K komşuya göre karar verir, ölçekleme önemlidir
◦Karar Ağacı (Decision Tree): If-else sorularıyla tahminde bulunur, görsel ve yorumlanabilirdir ancak aşırı öğrenmeye eğilimlidir
◦Random Forest: Birden fazla karar ağacının oylama ile karar verdiği, güçlü bir modeldir
•Veri Standardizasyonu (StandardScaler): Modellerin (özellikle SVM, KNN, Lojistik Regresyon) veri büyüklüğüne duyarlılığını azaltmak için tüm özellikler standardize edilmiştir
Sonuç: Normalde Random Forest’tan daha yüksek doğruluk beklenirken, bu videoda Karar Ağacı’nın en yüksek doğruluğu verdiği gözlemlenmiştir. Bunun nedeni, Random Forest’ın varsayılan hiperparametrelerle veriyi ezberlemesi olabilir. Video, “en iyi model” diye bir kavram olmadığını, veri setinin, ön işlemenin ve parametrelerin sonuçları değiştirebildiğini vurgular.




