DMML Minggu ketiga
Hari ini kuliah data mining lagi. Gimana dengan tugas kedua? alhamdulillah tugas kedua terselesaikan dan dikumpulkan. Untuk mengenerate flat file kugunakan python. Tujuan dari tugas kedua ini sebenarnya adalah mendapatkan pengalaman untuk mengenerate flat file dengan bahasa pemrograman apapun. Ada yang menggunakan C, Visual basic, perl dan lain-lain. Namun profesor pengajar kelas data mining lebih menyarankan untuk menggunakan python ataupun perl.
Setelah minggu pertama membahas tentang apa itu data mining dan machine learning, minggu kedua membahas mengenai input yang akan diolah di data mining maupun di machine learning. Dalam menyiapkan input dikenal berbagai macam istilah data input seperti ARFF format, LIBSVM format ataupun format yang lain.
Contoh ARFF format :
%
%ARFF file for weather data with some numeric feature
%
@relation weather
@attribute outlook{sunny,overcast,rainy}
@attribute temperature numeric
@attribute humidity numeric
@attribute windy {true, false}
@attribute play? {yes, no}
@data
sunny, 85, 85, false, no
sunny, 80, 90, true, no
overcast, 83, 86, false, yes
…………..
Ada 2 jenis tipe data dalam ARFF format maupun dalam LIBSVM, nominal dan numeric. String termasuk dalam tipe data nominal. Sementara numeric untuk data yang berjenis angka. Data dalam LIBSVM disimpan dalam bentuk numeric semua. Jadi jika ada nominal value akan diubah kedalam numeric value. Selain itu class label (target label) berada di awal baris, bukan di akhir baris, sementara untuk ARFF format diletakkan di akhir baris. Sebagai contoh untuk data weather diatas dengan class label play, jika diubah menjadi format LIBSVM akan menjadi :
0 1:1 2:85 3:85 4:1
0 1:1 2:80 3:90 4:1
1 1:2 2:83 3:86 4:2
Dengan terlebih dahulu memberikan asumsi nilai numeric terhadap setiap nilai dalam attribute. Untuk data diatas misalnya data pada baris pertama :
0 1:1 2:85 3:85 4:1 artinya 0 menyatakan class label ‘no’, 1:1 menyatakan attribute pertama bernilai sunny (sunny=1, overcast=2, rainy=3), 2:85 menyatakan attribute keduabernilai 85 (boleh diubah ke numeric tertentu atau langsung dikonversi sebagai nilai pada atribut kedua, dan seterusnya.
Bagaimana dengan nilai 0 atau mungkin nilai yang hilang. Jika nilai yang hilang dikonversi menjadi 0 maka bisa dilakukan sparse data. Sparse data adalah menghilangkan data yang bernilai 0. Misalnya (dalam ARFF format):
0, 26, 0, 0, 0, 0, 63, 0, 0, 0, “class A” menjadi
{1 26, 6 63, 10 “class A”} – penomoran atribute dimulai dari 0, untuk LIBSVM format penomoran atribute dimulai dari 1.
Untuk tugas kedua dokumentasi bisa dilihat dari file tugas2 di home-work-2-report.pdf
Minggu ketiga ini membahas mengenai output. Output seperti apa yang dihasilkan dari proses data mining maupun machine learning. Output bisa berupa decision tables, decision trees, decision rules, association rules, rules with exceptions, rules involving relations, linear regression, trees for numeric prediction, instance-based representation dan cluster.
Seperti biasa, tugas ketiga sudah ada lagi, yaitu melakukan analisis feature terhadap data UCI university yang telah ditransform kedalam LIBSVM format dalam tugas 2. Jia yo
Post Disclaimer
The information contained in this post is for general information purposes only. The information is provided by DMML Minggu ketiga and while we endeavour to keep the information up to date and correct, we make no representations or warranties of any kind, express or implied, about the completeness, accuracy, reliability, suitability or availability with respect to the website or the information, products, services, or related graphics contained on the post for any purpose.