Confusion Matrix

Untuk mengevaluasi performa dari suatu model klasifikasi, dikenal suatu cara yang disebut Confusion Matrix. Perhitungan dilakukan pada data tes yang diprediksi benar dan tidak benar oleh model klasifikasi yang telah ditentukan sebelumnya. Confusion Matrix disajikan dalam bentuk tabel dengan masukkan f_ijdimana i dan j menyatakan jumlah record dari kelas i yang akan memprediksi record pada kelas j. Seperti yang dituliskan pada tabel, nilai f₀₁ menyatakan nilai record dari kelas 0 yang tidak benar diprediksi pada kelas 1 sebagai nilai benar. Sehingga berlaku, nilai benar hasil prediksi total diperoleh dari (f₁₁ + f₀₀) dan nilai tidak benar hasil prediksi total diperoleh dari (f₀₁ + f₁₀).

		Predicted Class (j)
		Class 1 = 1	Class 1 = 0
Actual Class (i)	Class 1 = 1	f₁₁	f₁₀
	Class 1 = 0	f₀₁	f₀₀

Selain itu, untuk menyatakan nilai akurasi dari hasil prediksi model klasifikasi hal tersebut dinyatakan dalam perhitungan sebagai berikut:

Accuracy = (f₁₁ + f₀₀) / (f₁₁ + f₁₀ + f₀₁ + f₀₀) = Jumlah hasil prediksi bernilai benar / Total jumlah prediksi

Kemudian, disamping nilai akurasi terdapat nilai error (Error Rate) yang juga digunakan untuk melihat performa dari model klasifikasi dengan perbitungan sebagai berikut:

Error rate = (f₀₁+ f₁₀) / (f₁₁+ f₁₀ + f₀₁ + f₀₀) = Jumlah hasil predisi bernilai salah / Total jumlah prediksi

Contoh:

Atribut1	Atribut2	Atribut3	Atribut4
Ya	Besar	125	Tidak
Tidak	Sedang	100	Tidak
Tidak	Kecil	70	Tidak
Ya	Sedang	120	Tidak
Tidak	Besar	95	Ya
Tidak	Sedang	60	Tidak
Ya	Besar	220	Tidak
Tidak	Kecil	85	Ya
Tidak	Sedang	75	Tidak
Tidak	Kecil	90	Ya

Data Training (Model Deskriptif)

Dengan meperhatikan model klasifikasi yang sudah kita buat pada tabel data training, maka didapat model sebagai berikut:

Atribut1	Atribut2	Atribut3	Atribut4
Tidak	Sedang	100	Tidak
Tidak	Kecil	70	Tidak
Tidak	Sedang	60	Tidak
Tidak	Sedang	75	Tidak
Ya	Besar	125	Tidak
Ya	Sedang	120	Tidak
Ya	Besar	220	Tidak
Tidak	Besar	95	Ya
Tidak	Kecil	85	Ya
Tidak	Kecil	90	Ya

Hasil Pengurutan Data Training

Sekarang, bagaimana kita bisa menentukan klasifikasi untuk Atribut4 pada tabel data testing?

Atribut1	Atribut2	Atribut3	Atribut4
Tidak	Kecil	55	?
Ya	Sedang	80	?
Ya	Besar	110	?
Tidak	Kecil	95	?
Tidak	Besar	67	?

Data Testing (Model Prediksi)

Kita akan mempertimbangkan nilai-nilai yang ada pada masing-masing atribut dimana hasil data training menunjukkan bahwa Atribut1 dan Atribut3 memiliki kontribusi besar dibandingkan dengan nilai pada Atribut2. Dengan demikian, kita bisa berasumsi bahwa hasil prediksi untuk Atribut4 pada Data Testing yaitu:

Atribut1	Atribut2	Atribut3	Atribut4
Tidak	Kecil	55	Tidak
Ya	Sedang	80	Tidak
Ya	Besar	110	Tidak
Tidak	Kecil	95	Ya
Tidak	Besar	67	Tidak

Sehingga:

Accuracy = (f₁₁ + f₀₀) / (f₁₁ + f₁₀ + f₀₁ + f₀₀) = (1+4) / (1+4+0+0) = 5/5 = 1 (100%)

Error rate = (f₀₁+ f₁₀) / (f₁₁+ f₁₀ + f₀₁ + f₀₀) = (0+0) / (1+4+0+0) = 0/0 = 0 (0%)

Jika pada baris kedua dan kelima diprediksi dengan hasil Ya. Maka perhitungan akurasi dan error rate-nya jelas berbeda. Misalnya:

Accuracy = (f₁₁ + f₀₀) / (f₁₁ + f₁₀ + f₀₁ + f₀₀) = (1+2) / (1+2+0+2) = 3/5 = 0.6 (60%)

Error rate = (f₀₁+ f₁₀) / (f₁₁+ f₁₀ + f₀₁ + f₀₀) = (2+0) / (1+2+0+2) = 2/5 = 0.4 (40%)

Sumber: Pang Ning Tan, et. al.

Leave a Reply Cancel reply