Підручник

Класифікація алгоритмів машинного навчання: лінійна регресія, класифікація та кластеризація

Машинне навчання має велику схожість з математичною оптимізацією, яка забезпечує методи, теорії та сфери застосування. 

Машинне навчання формулюється як "проблеми мінімізації" функції втрат проти заданого набору прикладів (навчальний набір). Ця функція виражає невідповідність між значеннями, передбаченими моделлю, що тренується, та очікуваними значеннями для кожного примірника. 

Кінцева мета - навчити модель вміння правильно передбачати набір випадків, яких немає у навчальному наборі.

Метод, згідно з яким можна розрізняти різні категорії алгоритму, - це тип результату, який очікується від певної системи навчання за допомогою машини

Серед основних категорій ми знаходимо:

  • La класифікація: вхідні дані поділяються на два або більше класів, і система навчання повинна виробляти модель, здатну призначити один або кілька класів серед доступних для введення.Ці типи завдань зазвичай вирішуються за допомогою контрольованих методів навчання. 

    Прикладом класифікації є присвоєння однієї або декількох міток зображенню на основі об'єктів або предметів, що містяться в ньому;

  • La регресія: концептуально схожа на класифікацію з тією різницею, що вихід має безперервну та недискретну область.Зазвичай це управляється з контрольованим навчанням. 

    Прикладом регресії є оцінка глибини сцени за її поданням у вигляді кольорового зображення. 

    Насправді область розглянутого результату практично нескінченна і не обмежується певним дискретним набором можливостей;

  • Il Кластеризація: де це набір даних поділяється на групи, які, однак, на відміну від класифікації, апріорі не відомі.Сама природа проблем, що належать до цієї категорії, зазвичай робить їх непідвладними навчальним завданням.
Проста модель лінійної регресії

Лінійна регресія - це амшироко використовувана модель, що використовується для оцінки реальних величин, таких як:

  • вартість будинків,
  • кількість дзвінків,
  • загальний обсяг продажів на особу,

і відповідає критерію безперервних змінних:

  • квадратних метрів,
  • підписка на поточний рахунок,
  • виховання людини

У лінійній регресії взаємозв'язок між незалежними змінними та залежними змінними дотримується через лінію, яка зазвичай представляє зв'язок між двома змінними.

Лінія підгонки відома як лінія регресії і представлена ​​лінійним рівнянням типу Y = a * X + b.

Формула заснована на інтерполяції даних, щоб пов'язувати дві або більше характеристик між собою. Коли ви даєте алгоритму вхідну характеристику, регресія повертає іншу характеристику.

Модель множинної лінійної регресії

Коли у нас є більше однієї незалежної змінної, тоді ми говоримо про множинні лінійні регресії, припускаючи модель на зразок наступної:


y=b0 + b1x1 + b2x2 +… + Вnxn

  • y - відповідь на величини, тобто представляє результат, передбачений моделлю;
  • b0 - перехоплення, тобто значення y, коли xi всі вони рівні 0;
  • перша характеристика b1 - коефіцієнт x1;
  • ще одна особливість bn - коефіцієнт xn;
  • x1,x2,…, Xn є незалежними змінними моделі.

В основному рівняння пояснює взаємозв'язок між суцільною залежною змінною (y) та двома або більше незалежними змінними (x1, x2, x3…). 

Наприклад, якщо ми хотіли оцінити викиди CO2 автомобіля (залежна змінна y), враховуючи потужність двигуна, кількість циліндрів та витрату палива. Останніми чинниками є незалежні змінні x1, x2 та x3. Константи bi є дійсними числами і називаються розрахунковими коефіцієнтами регресії моделі Y - неперервна залежна величина, тобто сума b0, b1 x1, b2 x2 тощо. y буде реальною цифрою.

Множинний регресійний аналіз - це метод, який використовується для виявлення впливу незалежних змінних на залежну змінну.

Розуміння того, як змінюється залежна змінна у міру зміни незалежних змінних, дозволяє нам передбачити наслідки чи наслідки змін у реальних ситуаціях.

За допомогою багаторазової лінійної регресії можна зрозуміти, як змінюється артеріальний тиск, коли змінюється індекс маси тіла, враховуючи такі фактори, як вік, стать тощо, таким чином припускаючи, що може статися.

За допомогою багаторазової регресії ми можемо отримати оцінки щодо тенденцій цін, таких як майбутня тенденція до нафти чи золота.

Нарешті, багаторазова лінійна регресія виявляє більший інтерес у галузі машинного навчання та штучного інтелекту, оскільки дозволяє отримати виконуючі моделі навчання навіть у випадку великої кількості записів, що підлягають аналізу.

Модель логістичної регресії

Логістична регресія - це статистичний інструмент, спрямований на моделювання біноміального результату з однією або кількома пояснювальними змінними.

Зазвичай використовується для бінарних проблем, коли є лише два класи, наприклад, так чи ні, 0 або 1, чоловіки чи жінки тощо.

Таким чином можна описати дані та пояснити зв’язок між бінарною залежною змінною та однією або кількома номінальними чи порядковими незалежними змінними.

Результат визначається завдяки використанню логістичної функції, яка оцінює ймовірність і потім defiзавершує найближчий клас (позитивний чи негативний) до отриманого значення ймовірності.

Логістичну регресію ми можемо розглядати як метод класифікації родини керовані алгоритми навчання.

За допомогою статистичних методів логістична регресія дозволяє генерувати результат, який насправді представляє ймовірність того, що задане вхідне значення належить даному класу.

У задачах двочленної логістичної регресії ймовірність того, що вихід належить одному класу, буде Р, тоді як він належить іншому класу 1-Р (де Р - число між 0 і 1, оскільки воно виражає ймовірність).

Біноміальна логістична регресія добре працює у всіх тих випадках, коли змінна, яку ми намагаємося передбачити, є бінарною, тобто вона може приймати лише два значення: значення 1, що представляє позитивний клас, або значення 0, яке представляє негативний клас.

Прикладами проблем, які можна вирішити логістичною регресією, є:

  • електронний лист є спамом чи ні;
  • покупка в Інтернеті є шахрайською чи ні, оцінюючи умови покупки;
  • у пацієнта перелом, оцінюючи його радіуси.

За допомогою логістичної регресії ми можемо робити прогнозний аналіз, вимірюючи взаємозв'язок між тим, що ми хочемо передбачити (залежною змінною), і однією або декількома незалежними змінними, тобто характеристиками. Оцінка ймовірності здійснюється за допомогою логістичної функції.

В подальшому ймовірності перетворюються на двійкові значення, і для того, щоб зробити прогноз реальним, цей результат присвоюється класу, якому він належить, виходячи з того, близький він чи ні до самого класу.

Наприклад, якщо застосування логістичної функції повертає 0,85, то це означає, що вхідні дані генерують позитивний клас, присвоюючи його класу 1. І навпаки, якщо він отримав таке значення, як 0,4 або більш загально <0,5 ..

Інноваційний бюлетень
Не пропустіть найважливіші новини про інновації. Підпишіться, щоб отримувати їх електронною поштою.

Логістична регресія використовує логістичну функцію для оцінки класифікації вхідних значень.

Логістична функція, яка також називається сигмоїдною, - це крива, здатна приймати будь-яке число реальної величини і відображати її до значення між 0 і 1, виключаючи крайності. Функція:

де:

  • e: основа природних логарифмів (число Ейлера або функція excel exp ())
  • b0 + b1 * x: фактичне числове значення, яке ви хочете перетворити.

Представлення, що використовується для логістичної регресії

Логістична регресія використовує рівняння як подання, подібно до лінійної регресії

Вхідні значення (x) лінійно поєднуються за допомогою ваг або значень коефіцієнта для прогнозування вихідного значення (y). Ключова відмінність від лінійної регресії полягає в тому, що модельоване вихідне значення - це двійкове значення (0 або 1), а не числове значення.

Нижче наведено приклад рівняння логістичної регресії:

y = e^(b0 + b1 * x) / (1 + e^(b0 + b1 * x))

Де:

  • y - залежна змінна, тобто передбачуване значення;
  • b0 - термін поляризації або перехоплення;
  • b1 - коефіцієнт для одного вхідного значення (x).

Кожен стовпець у вхідних даних має пов'язаний b коефіцієнт (постійне реальне значення), який необхідно засвоїти з навчальних даних.

Фактичне представлення моделі, яку ви б зберігали в пам'яті або файлі, є коефіцієнтами рівняння (значення бета або b).

Логістична регресія прогнозує ймовірності (технічний діапазон)

Логістична регресія моделює ймовірність класу за замовчуванням.

Як приклад, припустимо, що ми моделюємо стать людей як чоловіка чи жінки з їхнього зросту, перший клас може бути чоловічим, а модель логістичної регресії може бути записана як ймовірність бути чоловіком з огляду на ріст людини чи більше. формально:

P (стать = чоловік | зріст)

Іншими словами, ми моделюємо ймовірність того, що вхід (X) належить до класу predefi(Y = 1), ми можемо записати це як:

P (x) = p (y = 1 | x)

Передбачення ймовірності повинно бути перетворене у двійкові значення (0 або 1), щоб фактично зробити прогноз вірогідності.

Логістична регресія - це лінійний метод, але прогнози трансформуються за допомогою логістичної функції. Вплив цього полягає в тому, що ми більше не можемо розуміти прогнози як лінійну комбінацію входів, як це можливо з лінійною регресією, наприклад, продовжуючи зверху, модель може бути виражена як:

p (x) = e ^ (b0 + b1 * x) / (1 + e ^ (b0 + b1 * x))

Тепер можна повернути рівняння так. Щоб повернути його назад, ми можемо продовжити, видаливши e з одного боку, додавши природний логарифм з іншого боку.

ln (p (X) / 1 - p (X)) = b0 + b1 * X

Таким чином ми отримуємо той факт, що обчислення виводу праворуч знову лінійне (як і лінійна регресія), а вхід зліва - логарифм вірогідності класу за замовчуванням.

Ймовірності обчислюються як відношення ймовірності події, поділене на ймовірність відсутності події, напр. 0,8 / (1-0,8), результат якого 4. Отже, ми могли б замість цього написати:

ln (коефіцієнт) = b0 + b1 * X

Оскільки ймовірності перетворені в журнал, ми називаємо це лівосторонніми логічними коефіцієнтами або пробітами.

Ми можемо повернути показник праворуч і записати його як:

ймовірність = e ^ (b0 + b1 * X)

Усе це допомагає нам зрозуміти, що справді модель все ще є лінійною комбінацією вхідних даних, але ця лінійна комбінація відноситься до логарифму ймовірностей попереднього класуdefinita.

Вивчення моделі логістичної регресії

Коефіцієнти (бета або b значення) алгоритму логістичної регресії оцінюються на етапі навчання. Для цього ми використовуємо максимальну оцінку ймовірності.

Оцінка максимальної ймовірності — це алгоритм навчання, який використовується декількома алгоритмами машинного навчання. Коефіцієнти, отримані в результаті моделі, передбачають значення, дуже близьке до 1 (наприклад, чоловічий) для попереднього класуdefinite та значення, дуже близьке до 0 (наприклад, жіночий) для іншого класу. Максимальна ймовірність для логістичної регресії – це процедура знаходження значень для коефіцієнтів (бета або ob значення), які мінімізують похибку ймовірностей, передбачених моделлю, відносно ймовірностей у даних (наприклад, ймовірність 1, якщо дані є основним класом) .

Ми будемо використовувати алгоритм мінімізації для оптимізації найкращих значень коефіцієнта для навчальних даних. Це часто реалізується на практиці з використанням ефективного алгоритму чисельної оптимізації.

Ercole Palmeri


Інноваційний бюлетень
Не пропустіть найважливіші новини про інновації. Підпишіться, щоб отримувати їх електронною поштою.

Останні статті

Видавці та OpenAI підписують угоди щодо регулювання потоку інформації, яка обробляється штучним інтелектом

Минулого понеділка Financial Times оголосила про угоду з OpenAI. FT ліцензує свою журналістику світового рівня…

Квітень 30 2024

Онлайн-платежі: ось як потокові послуги змушують вас платити вічно

Мільйони людей оплачують потокові послуги, сплачуючи щомісячну абонентську плату. Поширена думка, що ви…

Квітень 29 2024

Veeam пропонує найповнішу підтримку програм-вимагачів, від захисту до реагування та відновлення

Coveware від Veeam продовжить надавати послуги реагування на інциденти кібервимагання. Coveware запропонує криміналістику та можливості відновлення…

Квітень 23 2024

Зелена та цифрова революція: як прогнозне технічне обслуговування трансформує нафтову та газову промисловість

Прогнозне технічне обслуговування революціонізує нафтогазовий сектор завдяки інноваційному та проактивному підходу до управління заводом.…

Квітень 22 2024

Читайте Innovation своєю мовою

Інноваційний бюлетень
Не пропустіть найважливіші новини про інновації. Підпишіться, щоб отримувати їх електронною поштою.

Слідуйте за нами