Resume Chapter 1 Machine Learning The Art and Science of Algorithms that Make Sense of Data
23:32
Machine Learning pada
intinya adalah berbicara tentang menggunakan suatu fitur yang tepat atau sesuai
untuk membangun sebuah model yang tepat sehingga bias digunakan untuk
menyelesaikan tugas atau permasalahan. Salah satu permasalahan yang dapat
diselesaikan dengan Machine Learning adalah
Spam e-mail recognition. Pada kasus
ini kita dapat menggunakan metode klasifikasi biner. Yang dimana klasifikasi
biner ini merupakan task atau metode
yang paling umum dalam Machine Learning.
Dalam Klasifikasi biner ini kita dapat membedakan e-mail spam dan tidak. Untuk kasus ini
kita dapat membedakan e-mail dengan
kombinasi dua klasifikasi biner. Klasifikasi yang pertama adalah untuk
membedakan e-mail spam dan tidak spam. Dan yang kedua adalah untuk
membedakan e-mail pekerjaan dan e-mail pribadi diantara e-mail yang bukan spam. Tapi dalam
metode ini e-mail pribadi kemungkinan
hilang atau dihapus. Karena e-mail pribadi ini cenderung sama dengan e-mail spam.
Karena adanya kecenderungan e-mail penting yang bersifat pribadi hilang, maka digunakanlah
metude regresi. Dimana metode regresi ini melakukan pelabelan skor
pada e-mail. Sebagai contoh dengan
membuat data training dari kotak
masuk e-mail secara acak dan diberi
pelabelan 0 sampai 10. Baik Klasifikasi biner atau regresi mengasumsikan serangkain data yang berada pada data training yang diberi nilai kelas atau
fungsi sebenarnya yang dimana disebut supervised
learning. Yaitu learning yang
membutuhkan data training yang
berlabel. Berbeda dengan supervised
learning, unsupervised learning adalah learning
yang tidak memperlakukan pelabelan pada data.
Berbicara tentang unsupervised
learning kita menemukan banyak pola yang dapat dipelajari dari unsupervised learning. Association rules adalah salah satu pola
yang popular dalam aplikasi pemasaran. Misalnya pada rekomendasi pembelian di
situs jual beli online atau situs web
belanja online, seperti:”Pelanggan
yang membeli barang ini, juga membeli…”-dan 34 saran lainnya. Pola atau metode
ini menggunakan algoritma penambangan data, yang dimana algoritma ini melakukan
zoom in terhadap barang yang dibeli
bersamaan dengan barang yang akan kita beli. Pola asosiasi lain yang lebih
menarik adalah dengan mempertimbangkan banyak item di dalam keranjang belanja kita. Ada juga bentuk asosiasi lain
seperti korelasi antara variable bernilai nyata.
Sama seperti pola atau model dari Machine Learning, pola adalah manifestasi dari struktur yang
mendasari data. Biasanya patern ini dibentuk kedalam sebuah matrix. Misalkan seperti matrix dibawah ini :
Misalkan matrix ini menggambarkan 6 orang yang berbeda(digambarkan dalam barisan) dan 4 film yang berbeda(digambarkan dalam kolom dari kiri sampai kanan) anggap saja kolom paling kiri sampai kanan itu film satu, film dua, film tiga, film 4 dan untuk rating digambarkan dari 0 sampai 3. Sampai sini sebenarnya kita bisa melihat struktur pola dali matrix diatas. Misalnya, kolom ketiga ternyata adalah jumlah dari kolom pertama dan kolom kedua, artinya orang film ketiga adalah jumlah peringkat dari film satu dan film dua. Bisa dilihat juga pada baris keempat yang dimana baris keempat ini adalah jumlah dari baris pertama dan baris kedua. Yang artinya orang keempat menggabungkan rating dari orang pertama dan orang kedua.
Sekarang perhatikan matrix
pertama dan matrix ketiga di sisi
kanan sekarang adalah Boolean. Dan
yang ditengah adalah matrix diagonal.
Matrix paling kanan mengasosiasikan
film dalam kolom dan genre dalam baris. Misalkan film satu bergenre drama dan crime, film dua juga sama, film tiga
adalah film crime dan film empat
adalah komedi. Kemudian matrix 6-kali-3
menggambarkan kesukaan orang dalam hal genre yang digambarkan 1 dan 0 yang
dimana 1 itu suka dan 0 tidak suka. Dan matrix tengah menggambarkan bahwa genre
crime dua kali lebih penting dari dua
genre lainnya dalam menentukan kesukaan orang. Metode untuk menentukan atau
menumukan variable tersembunyi seperti genre film ini benar-benar menjadi milik
mereka sendiri ketika nilai variable tersembunyi(dalam kasus ini genre) jauh
lebih kecil daripada jumlah baris dan kolom dari matrix asli.
Kita juga bisa menggambar perbedaan antara apakah model
keluaran melibatkan variabel target atau tidak: kita menyebutnya predictive model jika ya, dan descriptive model jika tidak. Dari sini
kita sudah belajar supervised learning,
unsupervised learning, predictive model, dan descriptive model. Dari sini
kita bisa melihat perbedaannya. Supervised
learning adalah berfokus pada data training.
Pola atau tugas tipikal dari Supervised
learning adalah klasifikasi dan regresi. Supervised learning dimungkinkan juga untuk menggunakan data training berlabel untuk membangun descriptive model yang tidak dimaksudkan
untuk memprediksi variabel target, tetapi sebaliknya mengidentifikasi,
katakanlah, himpunan bagian dari data yang berperilaku berbeda sehubungan
dengan variabel target. Contoh dari supervised
learning dari descriptive model bisa
disebut subgroup discovery. Descriptive model secara alami dapat
dipelajari dalam unsupervised learning,
dan beberapa contohnya clustering, association,
rule discovery and matrix decomposition. Contoh tipikal unsupervised learning prediction model terjadi ketika kami
mengelompokkan data dengan maksud menggunakan kluster untuk menetapkan label
kelas ke data baru. Kami akan memanggil pengelompokan prediktif ini untuk
membedakannya dari bentuk pengelompokan deskriptif sebelumnya. Bisa digambarkan
dengan table berikut
Ada juga pengaturan kelima yaitu semi-supervised learning of predictive models. Dalam banyak
masalah, data domain murah, tetapi data berlabel mahal. Misalnya, dalam
klasifikasi halaman web Anda memiliki seluruh web di seluruh dunia yang Anda
inginkan, tetapi membangun set data
training berlabel adalah proses yang melelahkan. Salah satu pendekatan yang
mungkin dalam semi-supervised learning
adalah dengan menggunakan set data
training berlabel kecil untuk membangun model awal, yang kemudian
disempurnakan menggunakan data yang tidak diberi label. Sebagai contoh, kita
dapat menggunakan model awal untuk membuat prediksi pada data yang tidak
berlabel, dan menggunakan prediksi paling percaya diri sebagai data pelatihan
baru, setelah itu kita melatih model pada set data training yang diperbesar ini.
Selanjutnya kita berbicara tentang model. Model disini
membentuk konsep sentral dalam Machine
learning karena model adalah apa yang sedang dipelajari dari data, untuk
menyelesaikan tugas yang diberikan. Ada banyak model machine learning yang membingungkan - belum lagi membingungkan
untuk dipilih. Salah satu alasan untuk ini adalah di mana-mana tugas yang
pembelajaran mesin bertujuan untuk menyelesaikan: klasifikasi, regresi,
pengelompokan, penemuan asosiasi.
Model pertama yaitu Geometric
models. Biasanya set Geometric models
ini memiliki beberapa struktur geometris. Misalnya, jika semua fitur bersifat
numerik, maka kita dapat menggunakan setiap fitur sebagai koordinat dalam
sistem koordinat Cartesian. Sebuah model geometrik dibangun langsung di ruang
misalnya, menggunakan konsep-konsep geometris seperti garis, pesawat dan jarak.
Salah satu keunggulan utama dari pengklasifikasi geometri adalah mereka mudah
divisualisasikan, selama kita menyimpan dua atau tiga dimensi. Jika membahas
dimensi, kita pasti membahas Cartesian. Penting untuk diingat, bahwa ruang
instance Cartesian memiliki koordinat yang bisa puluhan, ratusan, ribuan, atau
bahkan lebih. Ruang dimensi tinggi seperti itu sulit dibayangkan tetapi
bagaimanapun juga sangat umum dalam Machine
learning. Konsep geometris yang berpotensi berlaku untuk ruang berdimensi
tinggi biasanya diawali dengan 'hiper': misalnya, batas keputusan dalam jumlah
dimensi yang tidak ditentukan disebut hyperplane.
Jika ada batas keputusan linier yang memisahkan kedua kelas, kami mengatakan
bahwa data dapat dipisahkan secara linear. Seperti yang telah kita lihat, batas
keputusan linier ditentukan oleh persamaan w · x = t, di mana w adalah vektor
tegak lurus terhadap batas keputusan, x menunjuk ke titik arbitrer pada batas
keputusan, dan t adalah ambang keputusan. Cara yang baik untuk memikirkan
vektor w adalah dengan menunjuk dari 'pusat massa' pada contoh negatif, n, ke
pusat massa positif p. Dengan kata lain, w sebanding (atau sama) dengan p - n.
Salah satu cara untuk menghitung pusat massa ini adalah dengan rata-rata.
Misalnya, jika P adalah himpunan n contoh positif, maka kita dapat
mendefinisikan dan juga untuk n. Dengan menetapkan ambang keputusan dengan
tepat, kita dapat memotong garis dari n ke p setengah jalan. Kami akan menyebut
ini sebagai penggolong linier dasar dalam buku ini.1 Ini memiliki keunggulan
kesederhanaan, yang didefinisikan dalam hal penambahan, pengurangan dan
penskalaan contoh saja (dengan kata lain, w adalah kombinasi linear dari
contoh). Memang, di bawah asumsi tambahan tertentu tentang data itu adalah hal
terbaik yang bisa kita harapkan untuk dilakukan, seperti yang akan kita lihat
nanti. Namun, jika asumsi tersebut tidak berlaku, classifier linier dasar dapat
berkinerja buruk - misalnya, perhatikan bahwa itu mungkin tidak sempurna
memisahkan positif dari negatif, bahkan jika data dipisahkan secara linear.
Model yang selanjutnya adalah Probablistic model.Hampir sama dengan Bayesian classifier. Ide dasar dari Probabilistic model didasarkan pada biarkan X menunjukkan variabel
yang kita ketahui, misalnya, nilai fitur instance A dan biarkan Y menunjukkan
variabel target yang kami minati, misalnya, kelas instance. Kunci dalam Machine
learning disini adalah bagaimana memodelkan hubungan antara X dan Y. Probabilistic model mengasumsikan bahwa
ada beberapa proses acak yang mendasari yang menghasilkan nilai-nilai untuk
variabel-variabel ini,
menurut distribusi probabilitas yang didefinisikan dengan
baik tetapi tidak diketahui. Kami ingin menggunakan data untuk mengetahui lebih
lanjut tentang distribusi ini. Sebelum kita melihat itu, mari kita
pertimbangkan bagaimana kita dapat menggunakan distribusi itu setelah kita
mempelajarinya. Karena X dikenal untuk contoh tertentu tetapi Y mungkin tidak,
kami terutama tertarik pada probabilitas bersyarat P (Y | X). Misalnya, Y dapat
menunjukkan apakah email tersebut adalah spam, dan X dapat menunjukkan apakah
email tersebut berisi kata-kata 'Viagra' dan 'lotre'. Probabilitas yang menarik
adalah P (Y | Viagra, lotere), dengan Viagra dan lotere dua variabel Boolean
yang bersama-sama membentuk vektor fitur X. Untuk e-mail tertentu kita
mengetahui nilai-nilai fitur dan jadi kita dapat menulis P (Y | Viagra = 1,
lotere = 0) jika email berisi kata 'Viagra' tetapi bukan kata 'lotere'. Ini
disebut probabilitas posterior karena digunakan setelah fitur X diamati. Kunci
utama dari model ini adalah probabilitas statiska dengan hasil akhir bisa
berupa pohon pengambilan keputusan atau tree
yang mengkombinasikan dua Boolean.
Biasanya divisualisasikan, agar bisa dan mudah dalam membacanya.
Model selanjutnya adalah Logical
model. Pada model kali ini lebih bersifat algoritmik, mengambil
inspirasi dari ilmu computer dan teknik.
Sama seperti jika kita membuat program atau “ngoding”. Model jenis ini disebut Logical model karena model jenis ini dapat dimengerti oleh manusia.
Seperti “if Viagra = 1 then Class = Y =
SPAM”. Model seperti ini mudah dimengerti kan? Dan juga mudah diatur dalam
pohon pengambilan keputusan(decision
trees). Yang menarik dari model logis, dan yang membedakannya dari Geometric models dan Probabilistic models, adalah bahwa
mereka dapat mendefinisikan sampai batas tertentu dan bisa memberikan
penjelasan untuk prediksi mereka. Misalnya, prediksi yang ditetapkan oleh pohon
keputusan dapat dijelaskan dengan membaca kondisi yang menyebabkan prediksi
dari akar ke daun. Model itu sendiri juga dapat dengan mudah diperiksa oleh
manusia, itulah sebabnya mereka kadang-kadang disebut deklaratif. Model
deklaratif tidak perlu terbatas pada aturan sederhana. Contohnya adalah pada serangkaian kondisi berikut untuk
memprediksi apakah suatu senyawa molekuler bersifat karsinogenik (menyebabkan
kanker):
1. uji positif dalam uji Salmonella; atau
2. tes positif untuk mutasi mematikan resesif terkait seks di Drosophila, atau
3. tes negatif untuk penyimpangan kromosom; atau
4. memiliki karbon dalam cincin aromatik beranggota enam dengan muatan parsial - 0,13; atau
5. memiliki gugus amina primer dan tidak ada amina sekunder atau tersier, atau
6. ia memiliki hidrogen aromatik (atau resonan) dengan muatan parsial ≥ 0,168; atau
7. memiliki hidroksi oksigen dengan muatan parsial ≥ –0,616 dan hidrogen aromatik (atau resonansi); atau
8. memiliki bromin; atau
9. ia memiliki karbon tetrahedral dengan muatan parsial ≤ -0,144 dan tes positif pada aturan mutagenisitas Progol.
Tiga kondisi pertama menyangkut tes tertentu yang dilakukan untuk semua molekul dan yang hasilnya dicatat dalam data sebagai fitur Boolean. Sebaliknya, keenam aturan yang tersisa semuanya merujuk pada struktur molekul dan dibangun seluruhnya oleh Progol. Misalnya, aturan 4 memprediksi bahwa molekul bersifat karsinogenik jika mengandung atom karbon dengan sifat tertentu. Kondisi ini berbeda dari tiga yang pertama karena ini bukan fitur pra-rekaman dalam data, tetapi fitur baru yang dibangun oleh Progol selama proses pembelajaran karena membantu menjelaskan data.
1. uji positif dalam uji Salmonella; atau
2. tes positif untuk mutasi mematikan resesif terkait seks di Drosophila, atau
3. tes negatif untuk penyimpangan kromosom; atau
4. memiliki karbon dalam cincin aromatik beranggota enam dengan muatan parsial - 0,13; atau
5. memiliki gugus amina primer dan tidak ada amina sekunder atau tersier, atau
6. ia memiliki hidrogen aromatik (atau resonan) dengan muatan parsial ≥ 0,168; atau
7. memiliki hidroksi oksigen dengan muatan parsial ≥ –0,616 dan hidrogen aromatik (atau resonansi); atau
8. memiliki bromin; atau
9. ia memiliki karbon tetrahedral dengan muatan parsial ≤ -0,144 dan tes positif pada aturan mutagenisitas Progol.
Tiga kondisi pertama menyangkut tes tertentu yang dilakukan untuk semua molekul dan yang hasilnya dicatat dalam data sebagai fitur Boolean. Sebaliknya, keenam aturan yang tersisa semuanya merujuk pada struktur molekul dan dibangun seluruhnya oleh Progol. Misalnya, aturan 4 memprediksi bahwa molekul bersifat karsinogenik jika mengandung atom karbon dengan sifat tertentu. Kondisi ini berbeda dari tiga yang pertama karena ini bukan fitur pra-rekaman dalam data, tetapi fitur baru yang dibangun oleh Progol selama proses pembelajaran karena membantu menjelaskan data.
Model selanjutnya Grouping
and grading. Perbedaan utama antara Grouping
dan grading adalah cara mereka dalam menangani ruang instance. Pada Grouping
models dia memecah ruang instance kedalam
kelompok atau segmen yang jumlahnya ditentukan pada saat training. Sedangkan Grading
modelstidak menggunakan gagasan segmen seperti itu. Alih-alih menerapkan
model lokal yang sangat sederhana, Grading
models membentuk satu model global atas ruang instance. Akibatnya, model
penilaian (biasanya) dapat membedakan antara instance yang arbitrer, tidak
peduli seberapa miripnya. Resolusi mereka, secara teori, tidak terbatas,
terutama ketika bekerja di ruang instance Cartesian. Contoh dari grouping models yang baik adalah model
berbasis decision trees (Pohon
pengambilan keputusan). Model itu bekerja dengan berulang kali memecah ruang
instance menjadi himpunan bagian yang lebih kecil. Karena pohon biasanya
memiliki kedalaman terbatas dan tidak mengandung semua fitur yang tersedia,
himpunan bagian di daun pohon partisi ruang contoh dengan beberapa resolusi
terbatas.
Setelah kita melihat model dan contoh tugas dari Machine learning kita akan masuk ke
bahan utama yang ketiga yaitu fitur. Fitur menentukan banyak keberhasilan
aplikasi Machine learning. Suatu
fitur dapat dianggap sebagai jenis pengukuran yang dapat dengan mudah dilakukan
pada contoh apa pun. Secara matematis, mereka adalah fungsi yang memetakan dari
ruang instance ke beberapa set nilai
fitur yang disebut domain fitur. Karena pengukuran sering numerik, domain fitur
yang paling umum adalah himpunan bilangan real. Domain fitur tipikal lainnya
termasuk kumpulan bilangan bulat, misalnya ketika fitur menghitung sesuatu,
seperti jumlah kemunculan kata tertentu; Boolean, jika fitur kami adalah
pernyataan yang bisa benar atau salah untuk contoh tertentu, seperti 'email ini
ditujukan kepada Peter Flach'; dan set terbatas hingga sewenang-wenang, seperti
seperangkat warna, atau seperangkat bentuk.



0 comments