Menu Close

Proximity: Cosine Similarity

Nilai suatu vektor dapat diambil dari berbagai objek, salah satunya adalah dokumen. Untuk mencari suatu atribut term (kata) yang ada dalam suatu dokumen kita bisa gunakan nilai frekuensi atau panjang dari suatu kata tersebut. Jika dalam suatu dokumen terdapat ribuan kata dan akan dicari kata-kata yang memiliki kemiripan (similar), maka kita bisa gunakan konsep vektor tersebut dengan menerapkan perhitungan Cosine Similarity. Jika x dan y merupakan dua dokumen dan kita anggap sebagai vektor, maka diperoleh:

cos(x,y) = x.y / ||x||.||y||

Misalnya:

x = (3, 2, 0, 5, 0, 0, 0, 2, 0, 0)

y = (1, 0, 0, 0, 0, 0, 0, 1, 0, 2)

maka:

x.y = (3.1)+(2.0)+(0.0)+(5.0)+(0.0)+(0.0)+(0.0)+(2.1)+(0.0)+(0.2) = 5

||x|| = √ (3.3)+(2.2)+(0.0)+(5.5)+(0.0)+(0.0)+(0.0)+(2.2)+(0.0)+(0.2) = 6.48

||y|| = √ (1.1)+(0.0)+(0.0)+(0.0)+(0.0)+(0.0)+(0.0)+(1.1)+(0.0)+(2.2) = 2.24

cos(x.y) = 0.31

dimana:

nilai-nilai x dan y mewakili term (kata) yang ada dalam dokumen x dan dokumen y

Leave a Reply

Your email address will not be published. Required fields are marked *