Bahas PageRank Lagi (Bayar Hutang)...

|

Jika di artikel sebelumnya (Pengertian PageRank Menurut Orang Sok Tahu) saya sudah menjelaskan pengertian "PageRank" menurut definisi yang saya buat sendiri, maka di artikel ini saya coba bahas PageRank dengan sesuatu yang lebih ada dasarnya.

Jujur saja, sebenarnya saya agak semangat tidak semangat waktu mau menulis artikel ini. Bukan apa-apa, saya cuma berfikir bahwa sudah cukup banyak artikel yang ngebahas masalah PageRank ini. Cuma ada sedikit hal yang mengganjal di hati saya seandainya saya tidak menulis ini. Ini dikarenakan saya sudah kadung berjanji mau menjelaskan alasan saya kenapa saya bilang bahwa PageRank itu menilai situs berdasarkan halaman situs dan bukan situs itu secara keseluruhan (baca artikel ini). Jadi akhirnya saya coba paksakan juga untuk menuliskannya dengan harapan yang mungkin bagi yang belum tahu bisa menjadikan sedikit pencerahan, dan bagi saya sendiri khususnya minimal hutang lunas :D

Oke deh kita mulai aja.

PageRank merupakan suatu istilah produk Google yang algoritmanya memperhitungkan inbound link (link masuk) dan outbound link (link keluar) dari setiap halaman. Konsepnya mirip dengan link popularity tetapi dilengkapi dengan pendekatan bahwa sebuah halaman akan dianggap penting jika halaman lain memiliki link ke halaman tersebut. Halan itu juga akan semakin penting jika halaman lain yang nge-link tersebut memiliki PageRank yang tinggi.

Algoritmanya sendiri disusun pertama kali oleh Larry Page dan Sergey Brin (keduanya adalah pendiri Google) dengan algoritma awal sebagai berikut :
PR(A) = (1-d) + d ((PR(T1) / C(T1)) + ... + (PR(Tn) / C(Tn))
Algoritma lainnya yang pernah dipublikasikan adalah :
PR(A) = (1-d) / N + d ((PR(T1) / C(T1)) + ... + (PR(Tn) / C(Tn))
dimana :
PR(A) adalah PageRank halaman A
PR(T1) adalah PageRank halaman T1 yang mengacu ke halaman A
C(T1) adalah jumlah link keluar (outbound link) pada halaman T1
d adalah damping factor yang bisa diberi antara 0 dan 1
N adalah jumlah keseluruhan halaman web (yang terindex oleh Google)

Rumus algoritma di atas bisa jadi sekarang ini sudah mengalami perubahan, karena Google sendiri terus melakukan improfisasi dalam alogritma mereka. Jadi hasil hitung-hitungan dengan rumus di-atas bisa jadi untuk sekarang ini sudah tidak valid lagi.
Tapi sebagai dasar perhitungan, seperti terlihat di rumus tersebut, yang digunakan adalah halaman Web atau Situs, dan bukan Situsnya itu sendiri.

Adalagi faktor lainnya yang disebut Random Surfer.
Wikipedia menjelaskan Random Surfer ini dengan kalimat :
Random surfer model merupakan pendekatan yang menggambarkan bagaimana sesungguhnya yang dilakukan seorang pengunjung di depan sebuah halaman web. Ini berarti peluang atau probabilitas seorang user mengklik sebuah link sebanding dengan jumlah link yang ada pada halaman tersebut. Pendekatan ini yang digunakan pagerank sehingga pagerank dari link masuk (inbound link) tidak langsung didistribusikan ke halaman yang dituju, melainkan dibagi dengan jumlah link keluar (outbound link) yang ada pada halaman tersebut. Rasanya semua juga menganggap ini adil. Karena bisa anda bayangkan apa jadinya jika sebuah halaman dengan rangking tinggi mengacu ke banyak halaman, mungkin teknologi pagerank tidak akan relevan digunakan.

Metode ini juga memiliki pendekatan bahwa seorang user tidak akan mengklik semua link yang ada pada sebuah halaman web. Oleh karena itu pagerank menggunakan damping factor untuk mereduksi nilai pagerank yang didistribusikan sebuah halaman ke halaman lain. Probabilitas seorang user terus mengkilk semua link yang ada pada sebuah halaman ditentukan oleh nilai damping factor (d) yang bernilai antara 0 sampai 1. Nilai damping factor yang tinggi berarti seorang user akan lebih banyak mengklik sebuah halaman sampai dia berpindah ke halaman lain. Setelah user berpindah halaman maka probabilitas diimplemntasikan ke dalam algoritma pagerank sebagai konstanta (1-d) . Dengan mengeluarkan variable inbound link (link masuk), maka kemungkinan seorang user untuk berpindah ke halaman lain adalah (1-d), hal ini akan membuat pagerank selalu berada pada nilai minimum.

Dalam algoritma pagerank yang lain, terdapat nilai N yang merupkan jumlah keseluruhan halaman web, jadi seorang user memiliki probabilitas mengunjungi sebuah halaman dibagi dengan total jumlah halaman yang ada. Sebaagai contoh, jika sebuah halaman memiliki pagerank 2 dan total halaman web 100 maka dalam seratus kali kunjungan dia mengunjungi halaman itu sebanyak 2 kali (catatan, ini adalah probabilitas).

Untuk penjelasan lebih lengkapnya mungkin bisa baca penjelasan PageRank di wikipedia.

Comments :

Post a Comment

Tolong jangan diisi dengan spam ya....