Statistics dalam Machine Learning

Tasya Apriliana
2 min readJul 4, 2024

--

Machine Learning (ML) adalah cabang ilmu komputer yang memungkinkan sistem untuk belajar dari data dan membuat prediksi atau keputusan tanpa diprogram secara eksplisit. Namun, di balik setiap model ML yang sukses, terdapat konsep statistik yang mendasari algoritma dan proses pembelajaran. Berikut adalah beberapa alasan mengapa statistik sangat penting dalam machine learning.

1. Pemahaman Data

Sebelum membangun model ML, penting untuk memahami data yang tersedia. Statistik deskriptif, seperti mean, median, mode, dan standar deviasi, membantu kita merangkum dan memahami distribusi serta variabilitas data. Misalnya, mengetahui rata-rata dan varians dari fitur tertentu dapat memberikan wawasan awal tentang bagaimana data tersebut tersebar.

2. Preprocessing Data

Statistik memainkan peran penting dalam preprocessing data, termasuk normalisasi dan standarisasi. Misalnya, Z-score normalisasi menggunakan mean dan standar deviasi untuk mengubah data sehingga memiliki distribusi normal standar. Ini penting untuk algoritma ML yang sensitif terhadap skala data, seperti K-Nearest Neighbors (KNN) dan Support Vector Machines (SVM).

3. Seleksi Fitur

Algoritma ML sering kali bekerja lebih baik dengan fitur yang relevan dan signifikan. Teknik seleksi fitur seperti Analisis Komponen Utama (PCA) dan Seleksi Fitur Berbasis Statistik (misalnya, uji-t atau ANOVA) membantu mengidentifikasi fitur yang paling berpengaruh, mengurangi dimensi data, dan meningkatkan kinerja model.

4. Evaluasi Model

Evaluasi model ML memerlukan pemahaman statistik yang kuat. Metode evaluasi seperti k-fold cross-validation, yang membagi data menjadi k subset untuk pelatihan dan pengujian, memastikan bahwa model tidak overfitting. Selain itu, metrik evaluasi seperti ROC-AUC, akurasi, presisi, recall, dan F1-score memberikan gambaran tentang kinerja model dari berbagai perspektif.

5. Inferensi dan Prediksi

Statistik memungkinkan kita untuk membuat inferensi dari data. Misalnya, regresi linier menggunakan statistik untuk memodelkan hubungan antara variabel dependen dan independen, memungkinkan kita untuk membuat prediksi berdasarkan data baru. Teknik seperti Bayesian Inference menggunakan distribusi probabilitas untuk memperbarui keyakinan berdasarkan bukti baru.

6. Uji Hipotesis

Dalam machine learning, uji hipotesis digunakan untuk menentukan apakah hasil yang diamati adalah signifikan secara statistik. Misalnya, kita dapat menggunakan uji chi-kuadrat untuk memeriksa hubungan antara dua variabel kategori atau uji-t untuk membandingkan rata-rata dua grup. Ini membantu dalam membuat keputusan berdasarkan data dengan tingkat kepercayaan tertentu.

7. Pengendalian Kesalahan

Statistik juga membantu dalam mengendalikan tingkat kesalahan dalam prediksi model. Teknik seperti Regularisasi (misalnya, Lasso dan Ridge Regression) menggunakan konsep statistik untuk menghindari overfitting dengan menambahkan penalti pada ukuran kompleksitas model.

Statistik dan machine learning adalah dua bidang yang saling terkait dan saling melengkapi. Pemahaman mendalam tentang konsep statistik tidak hanya membantu dalam membangun model machine learning yang lebih efektif, tetapi juga memungkinkan interpretasi yang lebih baik dari hasil yang diperoleh. Oleh karena itu, bagi siapa pun yang tertarik dalam machine learning, memperkuat pengetahuan statistik adalah langkah yang sangat penting.

--

--