PageRank

Salah satu elemen yang menentukan peringkat sebuah halaman web di search engine (khusus Google) adalah PageRank (PR). Semakin tinggi PR sebuah halaman, semakin atas link halaman tersebut akan ditampilkan pada hasil pencarian Google.

PR adalah algoritma analisis link milik Google yang memberikan bobot numerik (skor) pada setiap elemen dari setiap kumpulan dokumen di WWW yang memiliki hyperlink (baik link masuk maupun keluar). Nilai PR tersebut menentukan derajat kepentingan atau relevansi sebuah halaman web dalam hubungannya dengan halaman web lainnya. PR menginterpretasikan sebuah link dari halaman A untuk halaman B.

Lebih dalam lagi, Google tidak hanya menghitung jumlah vote yang didapatkan dari sebuah halaman web, tapi juga menganalisa halaman web yang memberikan vote. Vote yang diberikan oleh halaman-halaman web yang juga “penting” akan memiliki bobot yang lebih berat dan membantu halaman web yang menerimanya menjadi ikut “penting”. Dengan kata lain, vote yang diberikan oleh halaman web yang ‘tidak penting” tidak akan membantu dalam menaikkan peringkat PR halaman yang menerimanya.

Nilai PR dari sebuah halaman web didefinisikan secara berulang, bergantung pada jumlah, dan bobot seluruh halaman web yang merujuk padanya. Sebuah halaman web yang mendapatkan link masuk dari banyak halaman web lainnya dengan nilai PR tinggi, akan turut mendapatkan skor tinggi. Bila sebuah halaman web tidak mendapatkan link masuk, maka tidak ada suara atau dukungan untuk halaman web tersebut.

Google memberikan bobot numerik dari 0 sampai 10 untuk setiap halaman web yang ada di WWW, peringkat PR ini menunjukkan seberapa penting halaman web di mata Google. Sebuah halaman web yang mempunyai nilai PR 8 akan diurutkan lebih dahulu dalam daftar hasil pencarian Google daripada halaman web dengan nilai PR 7 dan seterusnya yang lebih kecil. PR sendiri merupakan turunan dari teori probabilitas nilai dalam sebuah skala logaritma seperti ritcher.

Algoritma PR

PR merupakan sebuah distribusi probabilitas yang digunakan untuk merepresentasikan kesamaan bahwa seseorang secara acak mengklik link untuk sampai pada sebuah halaman web tertentu. Probabilitas diekspresikan sebagai nilai numerik antara 0 dan 1. probabilitas 0,5 secara umum diekspresikan sebagai “peluang 50%” bagi sesuatu untuk terjadi. Oleh sebab itu, PR 0,5 berarti terdapat peluang 50% bahwa seseorang mengklik pada link acak, yang akan diantarkan pada halaman web dengan nilai PR 0,5.

Mari kita asumsikan sebuah dunia kecil yang hanya memiliki 4 halaman web, yakni A, B, C dan D. sebagai perkiraan awal, nilai PR dibagi rata untuk ke empat halaman web, atau masing-masing halaman web memiliki PR 0,25. Sekarang, mari kita lihat distribusi probabilitas yang sederhana dengan nilai awal 0,25.. Bila masing-masing halaman web B, C, dan D hanya merujuk ke A, berarti ketiga halaman web memberikan nilai PR 0,25 kepada A.

Dalam contoh sederhana di atas, nilai keseluruhan PR() akan terkumpul pada A karena seluruh link merujuk padanya. Bila dihitung dengan rumus PR(A) = PR(B) + PR(C) + PR(D), maka A sekarang memilliki nilai PR 0,75. Namun, andaikata halaman web B juga merujuk pada C, dan D merujuk kepada ketiga halaman web lainnya, maka nilai suara yang disumbangkan akan dibagi di antara semua link keluar pada sebuah halaman web.

Hasilnya, halaman web B memberikan nilai vote 0,125 kepada A, dan 0,125 kepada C. Hanya sepertiga dari nilai halaman web D yang disumbangkan kepada A (kisaran 0,083). Rumus untuk algoritma sederhana di atas menjadi PR(A) = PR(B)/2 + PR(C)/1 + PR(D)/3. Dengan kata lain, nilai PR yang disumbangkan oleh sebuah link keluar, atau L(), sama dengan nilai PR halaman web penyumbang yang dibagi jumlah link keluar yang dimilikinya atau dapat diekspresikan dengan rumus PR(A) = PR(B)/L(B) + PR(C)/L(C) + PR(D)/L(D).

Random Surfer Model

Random surfer model merupakan pendekatan yang menggambarkan bagaimana peluang seseorang mengklik sebuha link berbanding dengan jumlah link yang ada pada halaman tersebut.pendekatan ini yang digunakan Google, sehingga PR dari link masuk tidak langsung didistribusikan ke halaman web yang dituju, melainkan dibagi dengan jumlah link keluar yang ada pada halaman web tersebut.

Metode ini juga memiliki pendekatan bahwa seseorang tidak akan mengklik semua link yang ada pada sebuah halaman web. Oleh karena itu, PR menggunakan dampfing factor untuk mereduksi nilai PR yang didistribusikan sebuyah halaman web ke halaman web lainnya. Probabilitas seseorang mengklik semua link yang ada pada sebuah halaman ditentukan oleh nilai damping factor (d) yang bernilai antara 0 sampai 1.

Nilai damping factor yang tinggi, berarti seseorang akan lebih banyak mengklik sebuah halaman sampai dia berpindah ke halaman lain. Setelah seseorang berpindah halaman web, maka probabilitas diimplementasikan ke dalam algoritma PR sebagai konstanta (1-d). Dengan mengeluarkan variabel link masuk, maka kemungkinan seseorang untuk berpindah ke halaman lain adalah (1-d). Hal ini akan membuat PR selalu berada pada nilai minimum.

PCMild

%d bloggers like this: