Bu videoda, iki kategorik veri arasındaki bir ilişkinin nasıl ortaya çıkarıldığını
öğreneceğiz öğreneceğiz. İki kategorik değişken arasındaki ilişkiye bakarken,
sürekli veriler için kullanılan aynı yöntemi kullanamayız , bu durumda test edebilmek için Ki kare testini kullanmak zorunda kalacağız. Ki-kare testi şansa bağlı olarak gözlemlenen bir dağılımın nasıl bir olasılıkta kararlı olduğunu test eder. Değişkenler bağımsızken gözlemlenen veri dağılımının beklenenler ile ne kadar iyi uyuyor olduğunu ölçer. Bir örneğe başlamadan önce, bazı önemli noktalara bakalım. Ki-kare, boş hipotezinin değişkenlerinin bağımsız olduğunu test eder. Test, Test karşılaştırır modelin değerlerine gözlenen veriler veri farklı dağıtıldı eğer bekliyor şans eseri kategoriler. Her zaman gözlemlenen veri beklenen modele uymuyor değerler, olasılık değişkenler bağımlı böylece kanıtlayan, güçlü olur boş hipotezinin yanlışını karşılaştırır. Ki-kare, iki değişken arasındaki ilişkinin türünü söylemiyor Burada sadece bir ilişki var. Arabalar veri setini kullanacağız. Biz varsayarsak Yakıt tipi arasındaki ilişkiyi test etmek istiyorum ve aspirasyon; bunlar kategorik değişkenlerdir. Bu arabanın yakıt tipi gaz ya da dizel olduğunu ve aspirasyon şudur ki araba standart veya turbo. Bunu yapmak için Her otomobillerin gözlenen sayıları bulacaksınız kategori. Bu bir crosstab oluşturarak yapılabilir pandalar kütüphanesini kullanarak. Çapraz bir iki arasındaki ilişkiyi gösteren tablo Bu grafik iki değişken arasındaki ilişkiyi göstermektedir. bir crosstab aynı zamanda bir ihtimal tablosu olarak da bilinir. Bizim durumumuzda çapraz veya ihtimal tablosu her kategorideki adedi gösterir. Dizel yakıtlı standart bir araba, gaz yakıtlı standart bir araba, dizel yakıtlı bir turbo araba, ya da gaz yakıtlı bir turbo araba. Chi-kare için olan formül, aşağıdaki gibi verilir: Gözlenen değerin toplamı yani, her gruptaki sayılar eksi beklenen değer, tümünün karesi beklenen değere bölünmüş. Beklenen değerler verilen toplamlara dayanır, biz eğer gözlemlenen değerleri bilmiyorsak tek tek hücrelerin ne olduğu hakkında ne diyebiliriz? Dizelli standart bir arabanın beklenen değerini hesaplamak için Sütun toplamının yirmi ile çarpımı olan satır toplamını alıyoruz, bu, büyük toplam olan iki yüz beşe bölünmüş olan yüz altmış sekiz Bu, on altı nokta dokuz verecek. Gaz yakıtlı turbo arabalar için aynı şeyi yaparsak satır toplamını yüz seksen beşin sütun toplamı olan otuz yediyle çarpımını alacağız ve büyük toplam olan iki yüz beşe böleceğiz ki otuz yedi nokta dokuzu elde edelim. Hepsi için aynı prosedürü tekrarlarsak bu değerleri alıyoruz Satır toplamlarını, sütun toplamlarını ve büyük toplamı aldığımızda, gözlenen değerlerle aynı değerleri alırız. Şimdi, bu formüle geri dönelim eğer tüm gözlenenden beklenen değer çıkmış, karesi alınmış ve beklenen değere bölünmüş olarak gözlenenleri toplarsak, yirmi dokuz nokta altının ki- karesini buluruz. Chi-kare tablosunda, serbestlik derecesinin "1" olduğu satıra bakıyoruz, ve 29.6'ya en yakın değeri buluyoruz. Tabloda 29.6 ya denk gelen p-değeri aralığının 0.05'ten daha az olduğunu görebiliriz. Sonuç olarak p-değerinin 0.05'ten küçük olduğunu söyleyebiliriz. sıfır nokta sıfır beş.p-değerinin sıfır nokta beşten az olmasına göre biz reddediyoruz iki değişkenli olan boş hipotez bağımsız ve bu nedenle biz sonucuna yakıt türü arasında bir ilişki var ve aspirasyon. Bunu python'da yapmak için chi meydanını kullanacağız scipy nokta istatistiklerinde acil durum fonksiyonu paket Fonksiyon chi-kare yazdıracak test değeri yirmi dokuz nokta altı ve ikinci değeri, çok yakın olan p-değeridir 0 ve 1 özgürlük derecesi. Eğer hatırlarsan chi-kare tablo tam vermedi p-değeri ancak düştüğü bir aralık, python tam p-değerini verecektir. Biz görebilirsiniz önceki slaytlarla aynı sonuçlar. Ayrıca beklenen değerleri yazdırır biz de elle hesaplanır p-değeri sıfıra yakın olduğundan, Ki-kare boş hipotezinin değişkenlerinin bağımsız olduğunu test eder. Yakıt tipi arasındaki ilişkinin kanıtı ve aspirasyon.