Dağılım Grafikleri Veri Bilimi için Neden Önemli?

Turhan Can Kargın
Machine Learning Turkiye
5 min readApr 7, 2021

--

Herkese merhabalar!! Bu yazıda dağılım grafiklerinin veri bilimi projeleri için neden önemli olduğunu ve yaygın olarak kullanılan dağılım grafiklerini öğreneceğiz. Hadi Başlayalım!!

Photo by Franki Chamaki on Unsplash

Verilerle uğraşıyorsanız, büyük olasılıkla dağılım verileriyle sık sık ilgileneceksiniz. Gözlemleri yönlendiren temel dağılımlar hakkında iyi bir kavrayışa sahip olmak, veri bilimi iş akışınız için paha biçilmezdir.

Dağılımlar neden önemlidir?

Veri dağılımı görselleştirmenin önemli olmasının birçok nedeni var, ancak üç önemli neden olarak şunları söyleyebilirim:

  1. Verilerinizdeki hataları kolayca yakalayabilirsiniz. Belki yanlışlıkla birden fazla gözlemi dahil ettiniz, basit bir ortalama medyan özeti bunu ortaya çıkarmayabilir.
  2. Belki verilerinizde iki tane peak görüyorsunuz, ve modelleme yapıyorsanız, bu ayrı zirveleri oluşturan bir kontrol edici değişken aramanız gerektiğinin bir göstergesi olabilir.
  3. Verilerin dağılımını göstermek, verileri özet istatistiğe sıkıştırmaktan daha doğru ve gerçek bir yöntemdir.

Standart grafikler

Geleneksel olarak, dağıtım verilerine bakarken, görselleştirmeyi motive eden iki farklı senaryoya dayalı olarak kullanılan iki ana görselleştirme türü vardır. İlk görselleştirme histogramdır. Histogram, bu aralıktaki gözlemlerin sayısına karşılık gelen yüksekliğe sahip veri aralığının belirli bir bölmesini kaplayan çubuklar kullanarak verilerin yoğunluğunu göstermeye çalışır. Histogramlar tipik olarak amaç tek bir dağılımın şeklini araştırmak olduğunda kullanılır.

Histogram

İkinci görselleştirme ve senaryo, çoklu dağıtımları karşılaştırmak için kutu grafiklerdir. kutu grafikleri, 25. yüzdelik dilim, medyan ve 75. yüzdelik dilime karşılık gelen bir dizi çizgi ile çeyrekler arası aralığı 1.5 kat genişleten çizgiler ve aykırı değerleri görselleştirmek için noktalar sağlar.

Kuru Grafik (Boxplot)

Histogram’ın Avantajları ve Dezavantajları

Hadi Histogramlar hakkında neyin iyi neyin kötü olduğuna bakalım.

  • Okuyucu için sezgiseldirler. Yoğunluk, çoğu insanın anladığı bir şeydir, çubuk ne kadar yüksekse, o aralıktaki bir değer de o kadar sık ​​veya olasıdır. Ayrıca yorumlanabilirler. Varsayılan biçimlerinde, bir çubuğun y ekseni seviyesi, verilerinizdeki kaç noktanın x bölme aralığı içinde kaldığına karşılık gelir. Bu güzel ve anlaşılması kolay.
  • Çok fazla veriniz olmadığında, histogramda verilerin belirli bir aralığa düşmediği şeklinde yorumlanabilecek boşluklar olabilir, ancak aynı zamanda küçük bir örneklem boyutundan da kaynaklanıyor olabilir. Ayrıca, histogram oluştururken bin parametresini kendimiz ayarlamamız gereklidir. Aksi halde, dağılım çok kötü gözükebilir. Aşağıda görüldüğü gibi verimizin uzunluğu 150'den fazla ise bins parametresini 100 girmek makul olabilir. Fakat, yine de farklı değerlerle denemekte fayda vardır.

Kernel density estimator (Çekirdek Yoğunluğu Tahmincisi)

Kernel density estimator histogramın alternatifidir. Birçok alternatif sayılabilir ama en popülerlerinden biri Kernel density estimatordür. KDE, bir veri kümesi verildiğinde düzgün bir eğri oluşturmanıza izin veren bir tekniktir.

Kernel density estimator

Herhangi “bin” parametresi girmediğimiz için endişelenecek bir bölme genişliğiniz yoktur, ancak kernerlerin ne kadar geniş olmasını istediğinizi seçmeniz gerekir. Standart sapma ne kadar büyükse veya daha genişse, seçtiğiniz kernel o kadar düzgün hale gelecektir.

Histogram ve KDE

Buraya kadar dağılım grafiklerinin görselleştirmesi hakkında bilgiler öğrendik. Ancak, ya sadece belirli bir dağılımın şekli değil, diğer dağıtımlarla nasıl karşılaştırıldığı ile ilgileniyorsak?

Dağılımlar neden karşılaştırılır?

Veri bilimi yaptığınız bağlama göre değişecek birçok motive edici neden vardır. İki mağaza arasındaki satış performansını ölçen bir model oluşturuyor olabilirsiniz ve mağazaların hizmet verdiği popülasyonların temel değişkenler üzerinde dengeli olmasını sağlamak isteyebilirsiniz. . Hızlanan verilerimizle yapacağımız gibi, farklılıkları nihai hedef olarak tanımlamak da ilginizi çekebilir.

Boxplot (Kutu Grafiği)

En yaygın dağıtım karşılaştırma görselleştirmesi kutu grafiğidir. Kutu grafiği basit bir yapıdır. Karşılıklı uçların sırasıyla verilerin 25. ve 75. yüzdelik dilimlerine düşen bir kutudan oluşur. Uçlara ek olarak, verilerin medyanını belirtmek için genellikle kutu içine dikey bir çizgi çizilir ve kutunun uçlarından kutunun genişliğinin 1,5 katı uzunlukta yatay çizgiler (çeyrekler arası aralık veya IQR olarak da bilinir) çizilir. Son olarak, IQR çubuklarının erişiminin dışında kalan noktalar ayrı ayrı çizilir ve “aykırı değerler” olarak kabul edilir.

Avantajları: Çoğu insan bir boxplotun ne olduğunu ve nasıl yorumlanacağını bilir. Bu aşinalık, kutu planlarının verimli olmasına yardımcı olur. Genellikle kutu grafiğinin gösterdiği farklı ölçüleri açıkça etiketlemeye gerek yoktur çünkü okuyucular bunlara zaten aşinadır. Her izleyicinin bu değerleri bileceğini varsaymamaya dikkat etmelisiniz, ancak daha teknik düşünen izleyiciler için genellikle bundan sıyrılabilirsiniz.

Dezavantajları: Potansiyel olarak çok büyük miktarda veri noktası ve verilerdeki karşılık gelen nüanslar, bir kutu grafiği kutusu içinde gizlenebilir. Örneğin bu örneği ele alalım. Bu iki veri kümesinin ikisi de aynı kutu grafiğine sahip ancak işlenmemiş noktalara baktığımızda hikaye biraz farklı!

Boxplot (Kutu Grafik)

Boxplot alternatifi — Violin Plot:

Violin Plot, kategorik eksen etrafında simetrik olmaları dışında, yazının başında öğrendiğimiz kernel density estimator gibidir. Teoride simetrik olamaları, karşılaştırmalar için yan yana daha verimli bir şekilde istiflenmelerini sağlar.

Violin Plot
Boxplot ve Violin Plot

Dağıtım görselleştirmesine genel bakış

Bu yazıda öğrendiğimiz iki ana dağıtım görselleştirme türüne sahibiz. Bunlar tek dağılım ve dağıtımları karşılaştırma grafikleri olarak sıralanabilir. Verinizi dağılım grafiğini görmek istiyor ve hangi dağılım grafiğini kullansam diye düşünüyorsanız ağaşıdaki tablo size yardımcı olabilir.

Dağıtım görselleştirmesine genel bakış

Bu yazıda öncelikle Histogramların güzel ve sezgisel olduğunu, ancak bölme genişliği (bins) ve yerleşimine çok duyarlı olabileceğini gördük. Özellikle düşük veri durumlarında iyi bir alternatif kernel density estimator olduğunu söyledik. Daha sonra, dağılım karşılaştırmak için hangi dağılım grafiklerini kullanmamız gerektiğini ve en yaygın olanlarını öğrendik. Umarım okurken keyif almışsınızdır. Vakit ayırıp okuduğunuz için teşekkür ederim.

Kaynaklar:

--

--