Dağılım Grafikleri Veri Bilimi için Neden Önemli?

Herkese merhabalar!! Bu yazıda dağılım grafiklerinin veri bilimi projeleri için neden önemli olduğunu ve yaygın olarak kullanılan dağılım grafiklerini öğreneceğiz. Hadi Başlayalım!!

Photo by Franki Chamaki on Unsplash

Verilerle uğraşıyorsanız, büyük olasılıkla dağılım verileriyle sık sık ilgileneceksiniz. Gözlemleri yönlendiren temel dağılımlar hakkında iyi bir kavrayışa sahip olmak, veri bilimi iş akışınız için paha biçilmezdir.

Veri dağılımı görselleştirmenin önemli olmasının birçok nedeni var, ancak üç önemli neden olarak şunları söyleyebilirim:

  1. Verilerinizdeki hataları kolayca yakalayabilirsiniz. Belki yanlışlıkla birden fazla gözlemi dahil ettiniz, basit bir ortalama medyan özeti bunu ortaya çıkarmayabilir.
  2. Belki verilerinizde iki tane peak görüyorsunuz, ve modelleme yapıyorsanız, bu ayrı zirveleri oluşturan bir kontrol edici değişken aramanız gerektiğinin bir göstergesi olabilir.
  3. Verilerin dağılımını göstermek, verileri özet istatistiğe sıkıştırmaktan daha doğru ve gerçek bir yöntemdir.

Geleneksel olarak, dağıtım verilerine bakarken, görselleştirmeyi motive eden iki farklı senaryoya dayalı olarak kullanılan iki ana görselleştirme türü vardır. İlk görselleştirme histogramdır. Histogram, bu aralıktaki gözlemlerin sayısına karşılık gelen yüksekliğe sahip veri aralığının belirli bir bölmesini kaplayan çubuklar kullanarak verilerin yoğunluğunu göstermeye çalışır. Histogramlar tipik olarak amaç tek bir dağılımın şeklini araştırmak olduğunda kullanılır.

Histogram

İkinci görselleştirme ve senaryo, çoklu dağıtımları karşılaştırmak için kutu grafiklerdir. kutu grafikleri, 25. yüzdelik dilim, medyan ve 75. yüzdelik dilime karşılık gelen bir dizi çizgi ile çeyrekler arası aralığı 1.5 kat genişleten çizgiler ve aykırı değerleri görselleştirmek için noktalar sağlar.

Kuru Grafik (Boxplot)

Hadi Histogramlar hakkında neyin iyi neyin kötü olduğuna bakalım.

  • Okuyucu için sezgiseldirler. Yoğunluk, çoğu insanın anladığı bir şeydir, çubuk ne kadar yüksekse, o aralıktaki bir değer de o kadar sık ​​veya olasıdır. Ayrıca yorumlanabilirler. Varsayılan biçimlerinde, bir çubuğun y ekseni seviyesi, verilerinizdeki kaç noktanın x bölme aralığı içinde kaldığına karşılık gelir. Bu güzel ve anlaşılması kolay.
  • Çok fazla veriniz olmadığında, histogramda verilerin belirli bir aralığa düşmediği şeklinde yorumlanabilecek boşluklar olabilir, ancak aynı zamanda küçük bir örneklem boyutundan da kaynaklanıyor olabilir. Ayrıca, histogram oluştururken bin parametresini kendimiz ayarlamamız gereklidir. Aksi halde, dağılım çok kötü gözükebilir. Aşağıda görüldüğü gibi verimizin uzunluğu 150'den fazla ise bins parametresini 100 girmek makul olabilir. Fakat, yine de farklı değerlerle denemekte fayda vardır.

Kernel density estimator histogramın alternatifidir. Birçok alternatif sayılabilir ama en popülerlerinden biri Kernel density estimatordür. KDE, bir veri kümesi verildiğinde düzgün bir eğri oluşturmanıza izin veren bir tekniktir.

Kernel density estimator

Herhangi “bin” parametresi girmediğimiz için endişelenecek bir bölme genişliğiniz yoktur, ancak kernerlerin ne kadar geniş olmasını istediğinizi seçmeniz gerekir. Standart sapma ne kadar büyükse veya daha genişse, seçtiğiniz kernel o kadar düzgün hale gelecektir.

Histogram ve KDE

Buraya kadar dağılım grafiklerinin görselleştirmesi hakkında bilgiler öğrendik. Ancak, ya sadece belirli bir dağılımın şekli değil, diğer dağıtımlarla nasıl karşılaştırıldığı ile ilgileniyorsak?

Veri bilimi yaptığınız bağlama göre değişecek birçok motive edici neden vardır. İki mağaza arasındaki satış performansını ölçen bir model oluşturuyor olabilirsiniz ve mağazaların hizmet verdiği popülasyonların temel değişkenler üzerinde dengeli olmasını sağlamak isteyebilirsiniz. . Hızlanan verilerimizle yapacağımız gibi, farklılıkları nihai hedef olarak tanımlamak da ilginizi çekebilir.

En yaygın dağıtım karşılaştırma görselleştirmesi kutu grafiğidir. Kutu grafiği basit bir yapıdır. Karşılıklı uçların sırasıyla verilerin 25. ve 75. yüzdelik dilimlerine düşen bir kutudan oluşur. Uçlara ek olarak, verilerin medyanını belirtmek için genellikle kutu içine dikey bir çizgi çizilir ve kutunun uçlarından kutunun genişliğinin 1,5 katı uzunlukta yatay çizgiler (çeyrekler arası aralık veya IQR olarak da bilinir) çizilir. Son olarak, IQR çubuklarının erişiminin dışında kalan noktalar ayrı ayrı çizilir ve “aykırı değerler” olarak kabul edilir.

Avantajları: Çoğu insan bir boxplotun ne olduğunu ve nasıl yorumlanacağını bilir. Bu aşinalık, kutu planlarının verimli olmasına yardımcı olur. Genellikle kutu grafiğinin gösterdiği farklı ölçüleri açıkça etiketlemeye gerek yoktur çünkü okuyucular bunlara zaten aşinadır. Her izleyicinin bu değerleri bileceğini varsaymamaya dikkat etmelisiniz, ancak daha teknik düşünen izleyiciler için genellikle bundan sıyrılabilirsiniz.

Dezavantajları: Potansiyel olarak çok büyük miktarda veri noktası ve verilerdeki karşılık gelen nüanslar, bir kutu grafiği kutusu içinde gizlenebilir. Örneğin bu örneği ele alalım. Bu iki veri kümesinin ikisi de aynı kutu grafiğine sahip ancak işlenmemiş noktalara baktığımızda hikaye biraz farklı!

Boxplot (Kutu Grafik)

Violin Plot, kategorik eksen etrafında simetrik olmaları dışında, yazının başında öğrendiğimiz kernel density estimator gibidir. Teoride simetrik olamaları, karşılaştırmalar için yan yana daha verimli bir şekilde istiflenmelerini sağlar.

Violin Plot
Boxplot ve Violin Plot

Bu yazıda öğrendiğimiz iki ana dağıtım görselleştirme türüne sahibiz. Bunlar tek dağılım ve dağıtımları karşılaştırma grafikleri olarak sıralanabilir. Verinizi dağılım grafiğini görmek istiyor ve hangi dağılım grafiğini kullansam diye düşünüyorsanız ağaşıdaki tablo size yardımcı olabilir.

Dağıtım görselleştirmesine genel bakış

Bu yazıda öncelikle Histogramların güzel ve sezgisel olduğunu, ancak bölme genişliği (bins) ve yerleşimine çok duyarlı olabileceğini gördük. Özellikle düşük veri durumlarında iyi bir alternatif kernel density estimator olduğunu söyledik. Daha sonra, dağılım karşılaştırmak için hangi dağılım grafiklerini kullanmamız gerektiğini ve en yaygın olanlarını öğrendik. Umarım okurken keyif almışsınızdır. Vakit ayırıp okuduğunuz için teşekkür ederim.

Kaynaklar:

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store