Tutorial

Klasifikasi Algoritma Machine Learning: Regresi Linier, Klasifikasi dan Clustering

Pembelajaran Mesin memiliki banyak kesamaan dengan pengoptimalan matematika, yang menyediakan metode, teori, dan domain aplikasi.

Pembelajaran mesin diformulasikan sebagai "masalah minimisasi" dari fungsi kerugian terhadap sekumpulan contoh tertentu (set pelatihan). Fungsi ini mengungkapkan perbedaan antara nilai yang diprediksi oleh model yang sedang dilatih dan nilai yang diharapkan untuk setiap contoh contoh.

Tujuan utamanya adalah untuk mengajarkan model kemampuan untuk memprediksi dengan benar pada sekumpulan instance yang tidak ada dalam set pelatihan.

Metode yang memungkinkan untuk membedakan berbagai kategori algoritma adalah jenis keluaran yang diharapkan dari sistem tertentu Mesin belajar.

Di antara kategori utama yang kami temukan:

La klasifikasi: masukan dibagi menjadi dua atau lebih kelas dan sistem pembelajaran harus menghasilkan model yang mampu menugaskan satu atau lebih kelas di antara yang tersedia untuk masukan.Jenis tugas ini biasanya ditangani dengan menggunakan teknik pembelajaran yang diawasi.
Contoh klasifikasi adalah penugasan satu atau lebih label pada gambar berdasarkan objek atau subjek yang terkandung di dalamnya;
La regresi: secara konseptual mirip dengan klasifikasi dengan perbedaan bahwa keluarannya memiliki domain kontinu dan non-diskrit.Ini biasanya dikelola dengan pembelajaran yang diawasi.
Contoh regresi adalah estimasi kedalaman suatu scene dari representasi dalam bentuk gambar berwarna.

Faktanya, domain dari keluaran yang dipermasalahkan hampir tidak terbatas, dan tidak terbatas pada sekumpulan kemungkinan diskrit tertentu;
Il kekelompokan: dimana itu sekumpulan data dibagi menjadi beberapa kelompok yang, tidak seperti klasifikasi, tidak dikenal secara apriori.Sifat dari masalah yang termasuk dalam kategori ini biasanya membuat mereka menjadi tugas belajar yang tidak diawasi.

Model regresi linier sederhana

Regresi linier adalah ammodel yang banyak digunakan digunakan untuk memperkirakan nilai nyata seperti:

biaya rumah,
jumlah panggilan,
total penjualan per orang,

dan mengikuti kriteria variabel kontinu:

meter persegi,
berlangganan ke akun saat ini,
pendidikan orang tersebut

Dalam regresi linier, hubungan antara variabel bebas dan variabel terikat diikuti melalui garis yang biasanya merepresentasikan hubungan antara kedua variabel tersebut.

Garis fit dikenal sebagai garis regresi dan diwakili oleh persamaan linier tipe Y = a * X + b.

Rumus ini didasarkan pada interpolasi data untuk menghubungkan dua atau lebih karakteristik satu sama lain. Saat Anda memberi algoritme karakteristik masukan, regresi mengembalikan karakteristik lainnya.

Model regresi linier berganda

Ketika kita memiliki lebih dari satu variabel independen, maka kita berbicara tentang regresi linier berganda, dengan asumsi model seperti berikut:

y=b₀ + B₁x₁ + B₂x₂ +… + B_nx_n

y adalah respon terhadap nilai, yaitu merepresentasikan hasil yang diprediksi oleh model;
b₀ adalah titik potong, yaitu nilai y saat x_isemuanya sama dengan 0;
karakteristik pertama b₁ adalah koefisien x₁;
fitur lain b_n adalah koefisien x_n;
x₁,x₂,…, X_n adalah variabel independen model.

Pada dasarnya persamaan tersebut menjelaskan hubungan antara variabel dependen kontinu (y) dan dua atau lebih variabel independen (x1, x2, x3…).

Misalnya, jika kita ingin memperkirakan emisi CO2 mobil (variabel terikat y) dengan mempertimbangkan tenaga mesin, jumlah silinder, dan konsumsi bahan bakar. Faktor terakhir ini adalah variabel bebas x1, x2 dan x3. Konstanta bi adalah bilangan real dan disebut koefisien estimasi regresi model. Y adalah variabel dependen kontinu, yaitu jumlah dari b0, b1 x1, b2 x2, dll. y akan menjadi bilangan real.

Analisis regresi berganda adalah metode yang digunakan untuk mengidentifikasi pengaruh variabel independen terhadap variabel dependen.

Memahami bagaimana variabel dependen berubah ketika variabel independen berubah memungkinkan kita untuk memprediksi efek atau dampak perubahan dalam situasi nyata.

Dengan menggunakan regresi linier berganda, dimungkinkan untuk memahami bagaimana tekanan darah berubah seiring dengan perubahan indeks massa tubuh dengan mempertimbangkan faktor-faktor seperti usia, jenis kelamin, dll., Dengan asumsi apa yang dapat terjadi.

Dengan regresi berganda kita bisa mendapatkan estimasi tren harga, seperti tren minyak atau emas di masa depan.

Akhirnya, regresi linier berganda menemukan minat yang lebih besar di bidang pembelajaran mesin dan kecerdasan buatan karena memungkinkan untuk memperoleh model pembelajaran yang melakukan bahkan dalam kasus sejumlah besar catatan untuk dianalisis.

Model Regresi Logistik

Regresi logistik adalah alat statistik yang bertujuan untuk memodelkan hasil binomial dengan satu atau lebih variabel penjelas.

Ini umumnya digunakan untuk masalah biner, di mana hanya ada dua kelas, misalnya Ya atau Tidak, 0 atau 1, pria atau wanita dll.

Dengan cara ini dimungkinkan untuk mendeskripsikan data dan menjelaskan hubungan antara variabel dependen biner dan satu atau lebih variabel independen nominal atau ordinal.

Hasilnya ditentukan berkat penggunaan fungsi logistik, yang memperkirakan probabilitas lalu defimengakhiri kelas terdekat (positif atau negatif) dengan nilai probabilitas yang diperoleh.

Kita dapat menganggap regresi logistik sebagai metode pengklasifikasian keluarga algoritma pembelajaran yang diawasi.

Dengan menggunakan metode statistik, regresi logistik memungkinkan untuk menghasilkan hasil yang, pada kenyataannya, mewakili probabilitas bahwa nilai masukan yang diberikan termasuk dalam kelas tertentu.

Dalam masalah regresi logistik binomial, probabilitas bahwa output milik satu kelas adalah P, sedangkan itu milik kelas lain 1-P (di mana P adalah angka antara 0 dan 1 karena menyatakan probabilitas).

Regresi logistik binomial berfungsi dengan baik dalam semua kasus di mana variabel yang kita coba prediksi adalah biner, yaitu, hanya dapat mengasumsikan dua nilai: nilai 1 yang mewakili kelas positif, atau nilai 0 yang mewakili kelas negatif.

Contoh masalah yang dapat diselesaikan dengan regresi logistik adalah:

email adalah spam atau bukan;
pembelian online itu curang atau tidak, mengevaluasi kondisi pembelian;
seorang pasien mengalami patah tulang dengan mengevaluasi jari-jarinya.

Dengan regresi logistik kita dapat melakukan analisis prediktif, mengukur hubungan antara apa yang ingin kita prediksi (variabel terikat) dan satu atau lebih variabel bebas, yaitu karakteristiknya. Estimasi probabilitas dilakukan melalui fungsi logistik.

Probabilitas tersebut kemudian diubah menjadi nilai biner, dan untuk membuat prediksi menjadi nyata, hasil ini ditetapkan ke kelasnya, berdasarkan dekat atau tidaknya kelas itu sendiri.

Sebagai contoh, jika penerapan fungsi logistik menghasilkan 0,85, maka itu berarti input tersebut telah menghasilkan kelas positif dengan menugaskannya ke kelas 1. Begitu pula sebaliknya jika telah memperoleh nilai seperti 0,4 atau lebih umumnya <0,5 ..

Regresi logistik menggunakan fungsi logistik untuk mengevaluasi klasifikasi nilai input.

Fungsi logistik, juga disebut sigmoid, adalah kurva yang mampu mengambil sejumlah nilai riil dan memetakannya ke nilai antara 0 dan 1, tidak termasuk yang ekstrem. Fungsinya adalah:

dimana:

e: basis logaritma natural (bilangan Euler, atau fungsi excel exp ())
b0 + b1 * x: adalah nilai numerik aktual yang ingin Anda ubah.

Representasi yang digunakan untuk regresi logistik

Regresi logistik menggunakan persamaan sebagai representasi, seperti regresi linier

Nilai masukan (x) digabungkan secara linier menggunakan bobot atau nilai koefisien, untuk memprediksi nilai keluaran (y). Perbedaan utama dari regresi linier adalah bahwa nilai keluaran yang dimodelkan adalah biner (0 atau 1), bukan nilai numerik.

Di bawah ini adalah contoh persamaan regresi logistik:

kamu = e ^ (b0 + b1 * x) / (1 + e ^ (b0 + b1 * x))

Dimana:

y adalah variabel dependen, yaitu nilai prediksi;
b0 adalah istilah polarisasi atau intersep;
b1 adalah koefisien untuk nilai masukan tunggal (x).

Setiap kolom dalam data masukan memiliki koefisien b terkait (nilai riil konstan) yang harus dipelajari dari data pelatihan.

Representasi sebenarnya dari model yang akan Anda simpan dalam memori atau file adalah koefisien dalam persamaan (nilai beta atau b).

Regresi logistik memprediksi probabilitas (rentang teknis)

Model regresi logistik model probabilitas kelas default.

Sebagai contoh, mari kita asumsikan kita memodelkan jenis kelamin seseorang sebagai pria atau wanita dari tinggi badan mereka, kelas pertama bisa jadi laki-laki, dan model regresi logistik dapat ditulis sebagai probabilitas menjadi laki-laki berdasarkan tinggi badan seseorang, atau lebih. secara resmi:

P (jenis kelamin = pria | tinggi)

Ditulis dengan cara lain, kami memodelkan probabilitas bahwa input (X) milik kelas pradefinite (Y = 1), kita dapat menuliskannya sebagai:

P(X) = P(Y = 1 | X)

Prediksi probabilitas harus diubah menjadi nilai biner (0 atau 1) agar benar-benar membuat prediksi probabilitas.

Regresi logistik adalah metode linier, tetapi prediksi diubah menggunakan fungsi logistik. Dampak dari hal ini adalah kita tidak dapat lagi memahami prediksi sebagai kombinasi linier input seperti yang kita bisa dengan regresi linier, misalnya, melanjutkan dari atas, model dapat dinyatakan sebagai:

p(X) = e ^ (b0 + b1 * X) / (1 + e ^ (b0 + b1 * X))

Sekarang kita bisa membalik persamaan sebagai berikut. Untuk membalikkannya kita dapat melanjutkan dengan menghilangkan e di satu sisi dengan menambahkan logaritma natural di sisi lainnya.

ln (p (X) / 1 - p (X)) = b0 + b1 * X

Dengan cara ini kita mendapatkan fakta bahwa penghitungan keluaran di sebelah kanan adalah linier lagi (seperti regresi linier), dan masukan di sebelah kiri adalah logaritma dari probabilitas kelas default.

Probabilitas dihitung sebagai rasio probabilitas acara dibagi dengan probabilitas tidak ada kejadian, mis. 0,8 / (1-0,8) yang hasilnya 4. Jadi kita bisa menulis:

ln (peluang) = b0 + b1 * X

Karena probabilitas diubah-log, kami menyebutnya log-odds atau probit sisi kiri.

Kita dapat mengembalikan eksponen ke kanan dan menuliskannya sebagai:

probabilitas = e ^ (b0 + b1 * X)

Semua ini membantu kita untuk memahami bahwa memang model tersebut masih merupakan kombinasi linear dari input, tetapi kombinasi linear ini mengacu pada probabilitas log dari pre class.definita.

Mempelajari model regresi logistik

Koefisien (nilai beta atau b) dari algoritma regresi logistik diperkirakan dalam tahap pembelajaran. Untuk melakukan ini, kami menggunakan estimasi kemungkinan maksimum.

Estimasi kemungkinan maksimum adalah algoritma pembelajaran yang digunakan oleh beberapa algoritma pembelajaran mesin. Koefisien yang dihasilkan dari model memprediksi nilai yang sangat mendekati 1 (misalnya Laki-laki) untuk pra kelasdefinite dan nilai yang sangat dekat dengan 0 (misalnya perempuan) untuk kelas lain. Kemungkinan maksimum untuk regresi logistik adalah prosedur untuk menemukan nilai koefisien (nilai Beta atau ob) yang meminimalkan kesalahan dalam probabilitas yang diprediksi oleh model relatif terhadap data (misalnya probabilitas 1 jika data adalah kelas utama) .

Kami akan menggunakan algoritma minimisasi untuk mengoptimalkan nilai koefisien terbaik untuk data pelatihan. Ini sering diterapkan dalam praktik menggunakan algoritme pengoptimalan numerik yang efisien.

Ercole Palmeri