Resume Chapter 1 Machine Learning The Art and Science of Algorithms that Make Sense of Data

23:32


Machine Learning pada intinya adalah berbicara tentang menggunakan suatu fitur yang tepat atau sesuai untuk membangun sebuah model yang tepat sehingga bias digunakan untuk menyelesaikan tugas atau permasalahan. Salah satu permasalahan yang dapat diselesaikan dengan Machine Learning adalah Spam e-mail recognition. Pada kasus ini kita dapat menggunakan metode klasifikasi biner. Yang dimana klasifikasi biner ini merupakan task atau metode yang paling umum dalam Machine Learning.

Dalam Klasifikasi biner ini kita dapat membedakan e-mail spam dan tidak. Untuk kasus ini kita dapat membedakan e-mail dengan kombinasi dua klasifikasi biner. Klasifikasi yang pertama adalah untuk membedakan e-mail spam dan tidak spam. Dan yang kedua adalah untuk membedakan e-mail pekerjaan dan e-mail pribadi diantara e-mail yang bukan spam. Tapi dalam metode ini e-mail pribadi kemungkinan hilang atau dihapus. Karena e-mail  pribadi ini cenderung sama dengan e-mail spam.
Karena adanya kecenderungan e-mail penting yang bersifat pribadi hilang, maka digunakanlah metude regresi. Dimana metode regresi ini melakukan pelabelan skor pada e-mail. Sebagai contoh dengan membuat data training dari kotak masuk e-mail secara acak dan diberi pelabelan 0 sampai 10. Baik Klasifikasi biner atau regresi mengasumsikan serangkain data yang berada pada data training yang diberi nilai kelas atau fungsi sebenarnya yang dimana disebut supervised learning. Yaitu learning yang membutuhkan data training yang berlabel. Berbeda dengan supervised learning, unsupervised learning adalah learning yang tidak memperlakukan pelabelan pada data.
Berbicara tentang unsupervised learning kita menemukan banyak pola yang dapat dipelajari dari unsupervised learning. Association rules adalah salah satu pola yang popular dalam aplikasi pemasaran. Misalnya pada rekomendasi pembelian di situs jual beli online atau situs web belanja online, seperti:”Pelanggan yang membeli barang ini, juga membeli…”-dan 34 saran lainnya. Pola atau metode ini menggunakan algoritma penambangan data, yang dimana algoritma ini melakukan zoom in terhadap barang yang dibeli bersamaan dengan barang yang akan kita beli. Pola asosiasi lain yang lebih menarik adalah dengan mempertimbangkan banyak item di dalam keranjang belanja kita. Ada juga bentuk asosiasi lain seperti korelasi antara variable bernilai nyata.
Sama seperti pola atau model dari Machine Learning, pola adalah manifestasi dari struktur yang mendasari data. Biasanya patern ini dibentuk kedalam sebuah matrix. Misalkan seperti matrix dibawah ini :

Misalkan matrix ini menggambarkan 6 orang yang berbeda(digambarkan dalam barisan) dan 4 film yang berbeda(digambarkan dalam kolom dari kiri sampai kanan) anggap saja kolom paling kiri sampai kanan itu film satu, film dua, film tiga, film 4  dan untuk rating digambarkan dari 0 sampai 3.  Sampai sini sebenarnya kita bisa melihat struktur pola dali matrix diatas. Misalnya, kolom ketiga ternyata adalah jumlah dari kolom pertama dan kolom kedua, artinya orang film ketiga adalah jumlah peringkat dari film satu dan film dua. Bisa dilihat juga pada baris keempat yang dimana baris keempat ini adalah jumlah dari baris pertama dan baris kedua. Yang artinya orang keempat menggabungkan rating dari orang pertama dan orang kedua.
Sekarang perhatikan matrix pertama dan matrix ketiga di sisi kanan sekarang adalah Boolean. Dan yang ditengah adalah matrix diagonal. Matrix paling kanan mengasosiasikan film dalam kolom dan genre dalam baris. Misalkan film satu bergenre drama dan crime, film dua juga sama, film tiga adalah film crime dan film empat adalah komedi. Kemudian matrix 6-kali-3 menggambarkan kesukaan orang dalam hal genre yang digambarkan 1 dan 0 yang dimana 1 itu suka dan 0 tidak suka. Dan matrix tengah menggambarkan bahwa genre crime dua kali lebih penting dari dua genre lainnya dalam menentukan kesukaan orang. Metode untuk menentukan atau menumukan variable tersembunyi seperti genre film ini benar-benar menjadi milik mereka sendiri ketika nilai variable tersembunyi(dalam kasus ini genre) jauh lebih kecil daripada jumlah baris dan kolom dari matrix asli.

Kita juga bisa menggambar perbedaan antara apakah model keluaran melibatkan variabel target atau tidak: kita menyebutnya predictive model jika ya, dan descriptive model jika tidak. Dari sini kita sudah belajar supervised learning, unsupervised learning, predictive model, dan descriptive model. Dari sini kita bisa melihat perbedaannya. Supervised learning adalah berfokus pada data training. Pola atau tugas tipikal dari Supervised learning adalah klasifikasi dan regresi. Supervised learning dimungkinkan juga untuk menggunakan data training berlabel untuk membangun descriptive model yang tidak dimaksudkan untuk memprediksi variabel target, tetapi sebaliknya mengidentifikasi, katakanlah, himpunan bagian dari data yang berperilaku berbeda sehubungan dengan variabel target. Contoh dari supervised learning dari descriptive model bisa disebut subgroup discovery. Descriptive model secara alami dapat dipelajari dalam unsupervised learning, dan beberapa contohnya clustering, association, rule discovery and matrix decomposition. Contoh tipikal unsupervised learning prediction model terjadi ketika kami mengelompokkan data dengan maksud menggunakan kluster untuk menetapkan label kelas ke data baru. Kami akan memanggil pengelompokan prediktif ini untuk membedakannya dari bentuk pengelompokan deskriptif sebelumnya. Bisa digambarkan dengan table berikut


Ada juga pengaturan kelima yaitu semi-supervised learning of predictive models. Dalam banyak masalah, data domain murah, tetapi data berlabel mahal. Misalnya, dalam klasifikasi halaman web Anda memiliki seluruh web di seluruh dunia yang Anda inginkan, tetapi membangun set data training berlabel adalah proses yang melelahkan. Salah satu pendekatan yang mungkin dalam semi-supervised learning adalah dengan menggunakan set data training berlabel kecil untuk membangun model awal, yang kemudian disempurnakan menggunakan data yang tidak diberi label. Sebagai contoh, kita dapat menggunakan model awal untuk membuat prediksi pada data yang tidak berlabel, dan menggunakan prediksi paling percaya diri sebagai data pelatihan baru, setelah itu kita melatih model pada set data training yang diperbesar ini.

Selanjutnya kita berbicara tentang model. Model disini membentuk konsep sentral dalam Machine learning karena model adalah apa yang sedang dipelajari dari data, untuk menyelesaikan tugas yang diberikan. Ada banyak model machine learning yang membingungkan - belum lagi membingungkan untuk dipilih. Salah satu alasan untuk ini adalah di mana-mana tugas yang pembelajaran mesin bertujuan untuk menyelesaikan: klasifikasi, regresi, pengelompokan, penemuan asosiasi.
Model pertama yaitu Geometric models. Biasanya set Geometric models ini memiliki beberapa struktur geometris. Misalnya, jika semua fitur bersifat numerik, maka kita dapat menggunakan setiap fitur sebagai koordinat dalam sistem koordinat Cartesian. Sebuah model geometrik dibangun langsung di ruang misalnya, menggunakan konsep-konsep geometris seperti garis, pesawat dan jarak. Salah satu keunggulan utama dari pengklasifikasi geometri adalah mereka mudah divisualisasikan, selama kita menyimpan dua atau tiga dimensi. Jika membahas dimensi, kita pasti membahas Cartesian. Penting untuk diingat, bahwa ruang instance Cartesian memiliki koordinat yang bisa puluhan, ratusan, ribuan, atau bahkan lebih. Ruang dimensi tinggi seperti itu sulit dibayangkan tetapi bagaimanapun juga sangat umum dalam Machine learning. Konsep geometris yang berpotensi berlaku untuk ruang berdimensi tinggi biasanya diawali dengan 'hiper': misalnya, batas keputusan dalam jumlah dimensi yang tidak ditentukan disebut hyperplane. Jika ada batas keputusan linier yang memisahkan kedua kelas, kami mengatakan bahwa data dapat dipisahkan secara linear. Seperti yang telah kita lihat, batas keputusan linier ditentukan oleh persamaan w · x = t, di mana w adalah vektor tegak lurus terhadap batas keputusan, x menunjuk ke titik arbitrer pada batas keputusan, dan t adalah ambang keputusan. Cara yang baik untuk memikirkan vektor w adalah dengan menunjuk dari 'pusat massa' pada contoh negatif, n, ke pusat massa positif p. Dengan kata lain, w sebanding (atau sama) dengan p - n. Salah satu cara untuk menghitung pusat massa ini adalah dengan rata-rata. Misalnya, jika P adalah himpunan n contoh positif, maka kita dapat mendefinisikan dan juga untuk n. Dengan menetapkan ambang keputusan dengan tepat, kita dapat memotong garis dari n ke p setengah jalan. Kami akan menyebut ini sebagai penggolong linier dasar dalam buku ini.1 Ini memiliki keunggulan kesederhanaan, yang didefinisikan dalam hal penambahan, pengurangan dan penskalaan contoh saja (dengan kata lain, w adalah kombinasi linear dari contoh). Memang, di bawah asumsi tambahan tertentu tentang data itu adalah hal terbaik yang bisa kita harapkan untuk dilakukan, seperti yang akan kita lihat nanti. Namun, jika asumsi tersebut tidak berlaku, classifier linier dasar dapat berkinerja buruk - misalnya, perhatikan bahwa itu mungkin tidak sempurna memisahkan positif dari negatif, bahkan jika data dipisahkan secara linear.

Model yang selanjutnya adalah Probablistic model.Hampir sama dengan Bayesian classifier. Ide dasar dari Probabilistic model didasarkan pada biarkan X menunjukkan variabel yang kita ketahui, misalnya, nilai fitur instance A dan biarkan Y menunjukkan variabel target yang kami minati, misalnya, kelas instance. Kunci dalam Machine learning disini adalah bagaimana memodelkan hubungan antara X dan Y. Probabilistic model mengasumsikan bahwa ada beberapa proses acak yang mendasari yang menghasilkan nilai-nilai untuk variabel-variabel ini,
menurut distribusi probabilitas yang didefinisikan dengan baik tetapi tidak diketahui. Kami ingin menggunakan data untuk mengetahui lebih lanjut tentang distribusi ini. Sebelum kita melihat itu, mari kita pertimbangkan bagaimana kita dapat menggunakan distribusi itu setelah kita mempelajarinya. Karena X dikenal untuk contoh tertentu tetapi Y mungkin tidak, kami terutama tertarik pada probabilitas bersyarat P (Y | X). Misalnya, Y dapat menunjukkan apakah email tersebut adalah spam, dan X dapat menunjukkan apakah email tersebut berisi kata-kata 'Viagra' dan 'lotre'. Probabilitas yang menarik adalah P (Y | Viagra, lotere), dengan Viagra dan lotere dua variabel Boolean yang bersama-sama membentuk vektor fitur X. Untuk e-mail tertentu kita mengetahui nilai-nilai fitur dan jadi kita dapat menulis P (Y | Viagra = 1, lotere = 0) jika email berisi kata 'Viagra' tetapi bukan kata 'lotere'. Ini disebut probabilitas posterior karena digunakan setelah fitur X diamati. Kunci utama dari model ini adalah probabilitas statiska dengan hasil akhir bisa berupa pohon pengambilan keputusan atau tree yang mengkombinasikan dua Boolean. Biasanya divisualisasikan, agar bisa dan mudah dalam membacanya.

Model selanjutnya adalah Logical model. Pada model kali ini lebih bersifat algoritmik, mengambil inspirasi  dari ilmu computer dan teknik. Sama seperti jika kita membuat program atau “ngoding”. Model jenis ini disebut Logical model karena model jenis ini dapat dimengerti oleh manusia. Seperti “if Viagra = 1 then Class = Y = SPAM”. Model seperti ini mudah dimengerti kan? Dan juga mudah diatur dalam pohon pengambilan keputusan(decision trees). Yang menarik dari model logis, dan yang membedakannya dari Geometric models dan Probabilistic models, adalah bahwa mereka dapat mendefinisikan sampai batas tertentu dan bisa memberikan penjelasan untuk prediksi mereka. Misalnya, prediksi yang ditetapkan oleh pohon keputusan dapat dijelaskan dengan membaca kondisi yang menyebabkan prediksi dari akar ke daun. Model itu sendiri juga dapat dengan mudah diperiksa oleh manusia, itulah sebabnya mereka kadang-kadang disebut deklaratif. Model deklaratif tidak perlu terbatas pada aturan sederhana. Contohnya adalah pada serangkaian kondisi berikut untuk memprediksi apakah suatu senyawa molekuler bersifat karsinogenik (menyebabkan kanker):
 1. uji positif dalam uji Salmonella; atau
2. tes positif untuk mutasi mematikan resesif terkait seks di Drosophila, atau
3. tes negatif untuk penyimpangan kromosom; atau
4. memiliki karbon dalam cincin aromatik beranggota enam dengan muatan parsial - 0,13; atau
5. memiliki gugus amina primer dan tidak ada amina sekunder atau tersier, atau
6. ia memiliki hidrogen aromatik (atau resonan) dengan muatan parsial ≥ 0,168; atau
7. memiliki hidroksi oksigen dengan muatan parsial ≥ –0,616 dan hidrogen aromatik (atau resonansi); atau
8. memiliki bromin; atau
9. ia memiliki karbon tetrahedral dengan muatan parsial ≤ -0,144 dan tes positif pada aturan mutagenisitas Progol.
Tiga kondisi pertama menyangkut tes tertentu yang dilakukan untuk semua molekul dan yang hasilnya dicatat dalam data sebagai fitur Boolean. Sebaliknya, keenam aturan yang tersisa semuanya merujuk pada struktur molekul dan dibangun seluruhnya oleh Progol. Misalnya, aturan 4 memprediksi bahwa molekul bersifat karsinogenik jika mengandung atom karbon dengan sifat tertentu. Kondisi ini berbeda dari tiga yang pertama karena ini bukan fitur pra-rekaman dalam data, tetapi fitur baru yang dibangun oleh Progol selama proses pembelajaran karena membantu menjelaskan data.


Model selanjutnya Grouping and grading. Perbedaan utama antara Grouping dan grading adalah cara mereka dalam menangani ruang instance. Pada Grouping models dia memecah ruang instance kedalam kelompok atau segmen yang jumlahnya ditentukan pada saat training. Sedangkan Grading modelstidak menggunakan gagasan segmen seperti itu. Alih-alih menerapkan model lokal yang sangat sederhana, Grading models membentuk satu model global atas ruang instance. Akibatnya, model penilaian (biasanya) dapat membedakan antara instance yang arbitrer, tidak peduli seberapa miripnya. Resolusi mereka, secara teori, tidak terbatas, terutama ketika bekerja di ruang instance Cartesian. Contoh dari grouping models yang baik adalah model berbasis decision trees (Pohon pengambilan keputusan). Model itu bekerja dengan berulang kali memecah ruang instance menjadi himpunan bagian yang lebih kecil. Karena pohon biasanya memiliki kedalaman terbatas dan tidak mengandung semua fitur yang tersedia, himpunan bagian di daun pohon partisi ruang contoh dengan beberapa resolusi terbatas.
Setelah kita melihat model dan contoh tugas dari Machine learning kita akan masuk ke bahan utama yang ketiga yaitu fitur. Fitur menentukan banyak keberhasilan aplikasi Machine learning. Suatu fitur dapat dianggap sebagai jenis pengukuran yang dapat dengan mudah dilakukan pada contoh apa pun. Secara matematis, mereka adalah fungsi yang memetakan dari ruang instance ke beberapa set nilai fitur yang disebut domain fitur. Karena pengukuran sering numerik, domain fitur yang paling umum adalah himpunan bilangan real. Domain fitur tipikal lainnya termasuk kumpulan bilangan bulat, misalnya ketika fitur menghitung sesuatu, seperti jumlah kemunculan kata tertentu; Boolean, jika fitur kami adalah pernyataan yang bisa benar atau salah untuk contoh tertentu, seperti 'email ini ditujukan kepada Peter Flach'; dan set terbatas hingga sewenang-wenang, seperti seperangkat warna, atau seperangkat bentuk.



You Might Also Like

0 comments

Instagram

Like us on Facebook

Twitter