Download as pdf or txt
Download as pdf or txt
You are on page 1of 25

SOSYAL AĞ ANALİZİ VE VERİ MADENCİLİĞİ

Ajanda 2

1 Ağ Ölçütleri

2 Merkezilik

3 Kümelenme Katsayısı

4 Bütünsel Ağ Ölçütleri

5 Özet

6 Örnek Sorular
Ağ Ölçütleri 3

• Sosyal ağları hem bütünsel olarak hemde düğümler yani ağdaki


bireyler bazında analiz edebilmek için bir takım ölçütler
(measure,metric) gereklidir.

• Ağları ya da ağdaki bireyleri karşılaştırmaya olanak verecek


şekilde, ağın graf yapısı üzerinden hesaplanabilen sayısal
değerler olmalıdır.

• Bu ölçütler kullanılarak ağdaki önemli veya etkili bireyler tespit edilebilmektedir.

• Ağın karakteristik yapısı anlaşılabilmektedir.

• Bireylerin etkileşim örüntüleri (pattern) ortaya çıkarılabilmektedir.

• Genel olarak ağda neler olup bitiiği, neden ve nasıllarıyla ortaya konulabilmektedir.

• Bireylerin ağdaki önem derecesini tanımlamaya yarayan merkezilik ölçütleri

• Ağları genel olarak açaıklamaya çalışan bütünsel ağ ölçütleri


Merkezilik (Centrality) Ölçütleri 4

1 Derece Merkeziliği

2 Yakınlık Merkeziliği

3 Dış Merkezilik Merkeziliği

4 Arasındalık Merkeziliği

5 Özvektör Merkeziliği

6 Katz Merkeziliği

7 PageRank Merkeziliği

8 Otorite ve Göbek Merkeziliği

9 Örnek
Merkezilik (Centrality) 5

• Sosyal ağ analizinin özünü oluşturan temel kavramlardan

• Yalnızca düğümler üzerinde tanımlıdır ve bir düğümün bir ağ


içerisinde ne kadar merkezi bir konumda olduğunu ifade eder

• Bir düğümün bir ağ içerisinde ne kadar önemli olduğunu


tanımlar

• Düğümlere atanan merkezilik değerleri sayesinde düğümler arası


karşılaştırma ve sıralama yapılabilir.

• Yapacağınız çalışmaya göre merkezilik ölçütünüz değişiklik


gösterebilir.

• Bir ağda merkezilik ölçütlerine göre düğümlerin önemleri


değişiklik gösterebilir.
Merkezilik (Centrality) 6

• A düğümü iki ağı birbirine bağlıyor.


• B düğümleri diğer düğümlerle çok sayıda bağlantıya sahip.
• C düğümleri ise ağın sınırları olarak değerlendirilebilir.

• A düğümü ağdan çıkartıldığında ağ iki büyük bileşene ayrılmakta


• Soru bu ağdaki en önemli düğüm A düğümüdür denilebilir mi?

• B düğümü ağdan çıkartıldığında ağ çok sayıda bileşene ayrılmakta ve çok sayıda düğüm arasında
bağlantı kesilmektedir.
• Soru bu ağdaki en önemli düğüm B düğümüdür denilebilir mi?
Derece Merkeziliği (Degree centrality) 7

• Ağdaki bir düğümle ilgili tanımlanabilecek en basit ve en temel ölçüt düğümün derecesidir.

• Yönsüz ağlarda bir düğümün derecesi o düğümün bağlantı sayısıdır.

• Yönlü ağlarda ise iç-derece (in-degree) ve dış-derece (out-degree) olmak üzere iki derece söz
konusudur.

• Düğüme gelen bağlantılar iç-derece düğümden giden bağlantılar ise dış-derece.

• Yönlü ağlardaki iç-derece ve dış-derece toplamları ise o düğümün toplam derecesini verir.
Derece Merkeziliği (Degree centrality) 8

• Yönsüz ağda; B-4, E-3, C ve D 2, A-1, Yönlü ağda; B iç 2 – dış 3 – toplam 5 …

• Düğümlerin yalnızca derecelerini kullanarak ağdaki önemini belirlemeye yarayan, hesaplanış şekli
bakımından en basit merkezilik ölçütü Derece Merkeziliğidir.

• Bu ölçüt, gerçek hayatta çok sayıda bağlantısı olan kişilerin önemli kişiler olduğu kabulüne dayanır.
Bir düğümün derecesi ne kadar yüksekse o düğüm o kadar önemlidir.

• Yönlü ağlarda iç-derece merkeziliği sosyal ağdaki popülerliği, ün (prominence) ve prestiji (prestige)
gösterir.

• Dış-derece merkeziliği ise bireyin sokulganlık (gregariousness) ve sosyalleşebilirliğini (sociability)


gösterir.
Yakınlık Merkeziliği (Closeness centrality) 9

A B C D E
A 0 1 2 2 2
B 1 0 1 1 1
C 2 1 0 2 1
D 2 1 2 0 1
E 2 1 1 1 0

• Bir düğümün ağdaki tüm diğer düğümlere ne kadar yakın olduğunu gösterir. Bu ölçüte göre bir
düğüm ne kadar merkezi ise o düğümden diğer tüm düğümlere en kısa yoldan ulaşılabilir.

• Hesaplama yapılırken bir düğümün ağdaki diğer tüm düğümlere olan en kısa yol uzunluklarının
ortalaması hesaplanır ve bu değerin tersi alınır.

• Cclo(A) = 1 / ((1+2+2+2) / 4) = 1 / 1,75 = 0,57


• Cclo(B) = 1 / ((1+1+1+1) / 4) = 1 / 1 = 1
• Cclo(C) = 1 / ((2+1+2+1) / 4) = 1 / 1,5 = 0,67
• Cclo(D) = 1 / ((2+1+2+1) / 4) = 1 / 1,5 = 0,67
• Cclo(E) = 1 / ((2+1+1+1) / 4) = 1 / 1,25 = 0,8

• En merkezi düğüm B onu takip eden E, C, D, A.


Dış Merkezilik Merkeziliği (Eccentricity centrality) 10

A B C D E
A 0 1 2 2 2
B 1 0 1 1 1
C 2 1 0 2 1
D 2 1 2 0 1
E 2 1 1 1 0

• Bir düğümün ağdaki tüm diğer düğümlere ortalama en kısa yol uzunluğu yerine maksimum en kısa yol
uzunluğunu kullanmaktadır.

• Cclo(A) = 1 / 2= 0,5 Cclo(B) = 1 / 1 = 1 Cclo(C) = 1 / 2= 0,5 Cclo(D) = 1 / 2= 0,5 Cclo(E) = 1 / 2= 0,5

Hastane örneği
Arasındalık Merkeziliği (Betweenness centrality) 11

• Bir düğümün ağdaki tüm diğer düğümlere yakınlığı ile değil diğer düğüm çiftleri arasındaki en kısa yollar
üzerinde yer almasıyla ilgilenir.

• Yani en kısa yolların uzunluklarıyla değil bunların sayısıyla ilgilidir.

Cbtw(B) = (1 / 1)AC + (1 / 1)AD + (1 / 1)AE + (1 / 1)CD = 3,5


Özvektör Merkeziliği (Eigenvector centrality) 12

• Bir düğümün önemi yalnızca sahip olduğu komşuların sayısına değil aynı zamanda komşularının da ne
kadar önemli olduğuna bağlıdır.

• Özvektör merkeziliği, geribildirim tabanlı merkezilik ölçütlerindendir ve prestij (prestige) olarakda


bilinmektedir.

• Komşuluk matrisi üzerinde özdeğer ve özvektör hesaplamaları yapılır. (Yönlü ağlarda yalnızca düğüme
gelen bağlantılar) yani kişiyi takip edenler dikkate alınarak işlem yapılır.

A B C D E ÖD ÖV
A 0 1 0 0 0 -1,75 0,22
B 1 0 1 1 1 -1,27 0,58
C 0 1 0 0 1 0 0,41
D 0 1 0 0 1 0,34 0,41
E 0 1 1 1 0 2,69 0,52
Katz Merkeziliği (Katz centrality) 13

• Özvektör merkeziliği, derece merkeziliğini genelleştiren özel bir merkezilik ölçütüdür.

• Ancak yönlü ağlar söz konusu olduğunda bazı özel durumlarda kullanışsız sonuçlar üretebilmektedir.

• Bu sorunlu durumun aşılması için Katz Merkeziliği ölçütü geliştirilmiştir.


PageRank Merkeziliği (PageRank centrality) 14

• PageRank merkeziliği, özvektör merkeziliğinin özel bir çeşidi olup popüler arama motoru Google’ın web
sayfalarını sıralama ölçütüdür.

• Bir düğümün PageRank'ini belirleyen üç farklı faktör vardır:


• (i) aldığı bağlantıların sayısı,
• (ii) bağlayıcıların bağlantı eğilimi ve
• (iii) bağlayıcıların merkeziliği.

İlk faktör: Bir düğüm ne kadar çok bağlantı çekerse, o kadar önemli algılanır.

İkinci faktör: Makul bir şekilde, onayın değeri, onaylayan düğüm tarafından verilen bağlantıların
sayısıyla orantılı olarak değer kaybeder: cimri düğümlerden gelen bağlantılar, müsrif bağlantılardan
gelen bağlantılardan daha değerlidir.

Üçüncü faktör: Tüm düğümler eşit yaratılmamıştır: önemli köşelerden gelen bağlantılar, belirsiz
olanlardan daha değerlidir. Bu yöntem Sergey Brin ve Larry Page (Büyük ölçekli hipermetinsel web
arama motorunun anatomisi) tarafından icat edildi (ve patenti alındı).

PageRank tezi şu şekilde özetlenebilir: Bir düğüm, diğer önemli ve bağlantılı cimri düğümlerden
bağlantılıysa veya yüksek düzeyde bağlantılıysa önemlidir.
Otorite ve Göbek Merkeziliği 15

• PageRank benzeri bir diğer algoritma olan HTS (Hyperlink Induced Topic Search) algoritması, web
sayfalarının önem derecesini ölçmek için iki ayrı değer hesaplar:

• Otorite Değeri: PageRank ve Prestij değerlerine benzemektedir çünkü bir sayfaya bağlantı veren ne
kadar çok iyi sayfa varsa, o sayfanın otorite değeri yüksektir.

• Göbek Değeri: Bir sayfa ne kadar çok iyi sayfaya bağlantı veriyorsa göbek değeri o kadar yüksektir.

• Sonuç olarak yüksek otorite değerine sahip bir sayfa çok sayıda göbek sayfadan bağlantı alıyordur ve
yüksek göbek değerine sahip bir sayfa çok sayıda otorite sayfaya bağlantı veriyordur.
Örnek 16

Derece Yakınlık Arasındalık Özvektör PageRank


A 2 0,048 0 0,0152 0,928
B 2 0,048 0 0,0152 0,928
C 1 0,045 0 0,047 0,589
D 1 0,045 0 0,047 0,589
E 1 0,045 0 0,047 0,589
F 1 0,045 0 0,089 0,534
G 4 0,067 17 0,218 1,809
H 2 0,071 16 0,136 0,972
I 4 0,067 18 0,113 2,064
Kümeleme Katsayısı (Clustering Coefficent) 17

• Sosyal ağlarda analiz edilmek istenen önemli bir davranış da aktörler arasındaki bağların
nasıl oluştuğudur.

• Bu bağ oluşturma davranışının analizi için kullanılan ölçütlerden bir geçişliliktir (transitivity).

• A, B ve C ağdaki herhangi üç düğüm olsun.


• Eğer A-B ve A-C bağları varken aynı zamanda bir B-C bağı da varsa bu düğümlerde bir
geçişlilik davranışı söz konusu demektir.
• Arkadaşımın arkadaşı benimde arkadaşımdır.

• Geçişlilik kavramı bir ağda Kümelenme Katsayı ile ölçülmeye çalışılır.

• Kümelenme katsayısı, bir tam grafa ne kadar yakın bir yoğunlukta olduğunun yani
geçişliliğinin bir ölçüsüdür.

• Düğümler için hesaplandığında yerel kümelenme kaysayısı,


• Bütün ağ için hesaplandığında global kümeleme kaysayısı adını alır.
• Kümeleme katsayısı [0, 1] aralığında dğer alır.
Bütünsel Ağ Ölçütleri 18

1 Karşılıklılık

2 Ortalama Derece

3 Derece Dağılımı

4 Sosyal Benzerlik Katsayısı

5 Yoğunluk

6 Bağlanabilirlik

7 Merkezileşme

8 Verimlilik
Karşılıklılık (Reciprocity) 19

• Karşılıklılık geçişliliğin başka bir ölçüsüdür.

• Düğümler arasındaki bağlantıların karşılıklı yani iki yönlü olup


olmadığının ölçülmesidir.

• Yalnızca yönlü ağlar için tanımlıdır. • Karşılıklı düğüm çifti sayısı 1


• Takip edersen takip ederim. • |E| = 7
• Karşılıklılık ölçütü, ağdaki düğüm çiftlerinin sayısının olası • R 0 1 / (7 /2) = 1 /3,5 = 0,29
maksimum düğüm çifti sayısına bölünmesiyle hesaplanır.

• Yönlü bir ağda olası maksimum düğüm çifti sayısı |E| / 2 ‘dir,
yani yönlü bağlantı sayısının yarısıdır.
Derece Dağılım (Degree Distribution) 20

• Büyük ağlarda düğümlerin Derece Dağılımı (distribution) ağı tanımlamak ve ağın karakteristik
yapısını anlamak için kullanılabilecek kıymetli bir bilgidir. Derece dağılımı kabaca ağda hangi
dereceye sahip kaç tane düğüm olduğunu açıklar.

• Derece dağılımı oluşturmak için ağdaki her bir düğümün derecesi hesaplanır. Ardından hangi
dereceye sahip toplam kaç tane düğüm olduğu sayılır.

• Son olarak elde edidlen bu bilgi grafiksel olarak gösterilir.

Derece Dağılımı
3

Düğüm Sayısı

0
1 2 3 4
Sosyal Benzerlik Katsayısı 21

• Derece dağılımı, karmaşık ağların yapısal karakteristiği hakkında önemli bir bilgi veriyor olsada
ağdaki her bir düğümün derecesini bağımsız olarak ele almaktadır.

• Bu nedenle derece dağılımına bakılarak ağın iç yapısı ve organizasyon hakkında her hangi bir bilgi
elde edilememektedir.

• Sosyal benzerlik katsayısı komşu düğümlerin dereceleri arasındaki korelasyonu kullanılarak


hesaplanır.

• Hesaplanan benzerlik katsayısı [-1, 1] aralığında bir değerdir.

• Hesaplanan bu katsayı;
• r>0 durumu: Ağ yüksek assortativity sergilemektedir. Yani yüksek dereceli düğümler yine
kendileri gibi yüksek dereceli düğümlerle komşu olma eğilimindedir.
• r=0 durumu: Ağın düğüm çiftleri arasında derece bakımından bir korelasyon yoktur. Bu durum
genellikle ağın rasgele bir süreçle oluştuğunu gösterir, yani komşuluk oluşturmada herhangi bir
tercih ösz konusu değildir. Bağ oluşumu tamamen rasgeledir.
• r<0 durumu: Ağ yüksek disassortativity sergilemektedir. Yani düşük dereceli düğümler yüksek
dereceli düğümlerle komşu olma eğilimindedir.
• Literatür çalışmaları çok sayıda arkadaşı olan çok sayıda arkadaşı olanlarla arkadaş oluyor.
Yoğunluk (density) 22

• Yoğunluk (density) bir ağın ne kadar bağlantılı olduğunu gösteren bir ölçüttür.

• Yoğunluk, bir ağdaki toplam bağlantı sayısının tüm düğümler birbiriyle bağlanarak elde edilebilecek
maksimum bağlantı sayısına oranıdır.

• Düğüm sayısı bilinen bir ağda;

• Yönlü bir ağ ise maksimum bağlantı sayısı n x (n-1)


• Yönsüz bir ağ ise maksimum bağlantı sayısı n x (n-1) / 2

• Düğüm sayısı ve bağlantı sayısı bilinen bir ağda;

• Yönlü bir ağ ise maksimum bağlantı sayısı m / n x (n-1)


• Yönsüz bir ağ ise maksimum bağlantı sayısı m / n x (n-1) / 2
Merkezileşme (centralization) 23

• Merkezileşme, ağdaki düğümlerin merkezilik değerlerinin dağılımına bakarak ağdaki düğümlerin


öneminin anlaşılması ve birbirleriyle karşılaştırılabilmesine yönelik bir ölçüttür.

• [0, 1] aralığında değer alır.

• Sıfıra eşit bir merkezileşme ağdaki tüm düğümlerin eşit merkezilik değerine sahip olduğunu
gösterir. Bire eşit bir merkezileşme ise ağdaki bir düğümün diğer tüm düğümlere merkezilik
bakımından hakimiyet kurduğunu gösterir.
Verimlilik (efficiency) 24

• Ağdaki düğümlerin birbiriyle ne kadar verimli bir şekilde iletişim kurabildiğinin y da bilginin ağda ne
kadar verimli bir şekilde iletilebildiğinin bir ölçüsüdür.

• Iki düğüm arasındaki mesafe ne kadar kısa ise aralarındaki iletişim o kadar verimli olur.

• Global verimlilik, tüm düğüm çiftleri arasındaki arasındaki verimliliğin ortalamasıdır.

• Yerel verimlilik, bir düğümün o düğüm hariç tutularak o düğümün 1,5-derece ego ağında global
verimlilik hesaplanarak bulunur.

• Yani o düğüm ağdan çıkarıldığında, o düğümün komşuları arasındaki iletişiminin ne kadar verimli
olarak sürdürülebileceğinin ölçütüdür.
TEŞEKKÜRLER

You might also like