ML Pipeline dan CRISP-ML(Q) dalam Pengembangan Model AI

Penerapan Kecerdasan Artifisial atau Artificial Intelligence (AI) semakin banyak di berbagai bidang misalnya costumer segmentation dan rekomendasi produk pada e-commerce, pada dunia industri, penggunaan face reconigtion untuk boarding kereta api pada bidang transportasi hingga diagnosa penyakit sampai pengambilan keputusan medis yang lebih akurat pada bidang kesehatan. Tantangan utama dalam pengembangan AI adalah bagaimana membangun model machine learning (ML) yang efisien, berkualitas dan siap produksi. Dua pendekatan utama yang sedang berkembang adalah dengan ML pipeline dan CRISP-ML(Q).
ML pipeline adalah
serangkaian langkah-langkah terstruktur atau proses berurutan otomatis yang
digunakan untuk mengelola alur kerja dalam pengembangan model machine
learning. Tujuan utama dari ML pipeline adalah untuk mempermudah alur kerja
teknis yang diperlukan untuk menangani data, membangun model, dan menerapkan
model tersebut secara efisien. ML pipeline sering kali digunakan untuk
memastikan bahwa proses pembuatan dan penerapan model dapat dilakukan dengan
cara yang efisien, terstruktur dan dapat direproduksi. Terdapat enam tahapan
dalam ML pipeline, yaitu:
1.
Data Collection & Ingestion
Pada
tahap ini dilakukan pengumpulan data dari berbagai sumber (database, API (Application
Programming Interface), sensor, dll) yang mana penggabungan beberapa
dataset dapat dilakukan jika diperlukan.
2.
Data Preprocessing dan Feature Enggineering
Pada
tahap ini proses pembersihan data (data cleaning), transformasi data dan
memilih fitur terbaik (feature selection) maupun ekstraksi fitur (feature
extraction) dilakukan.
3.
Model Training dan Hyperparameter Tunning
Pemilihan
algoritma yang tepat sesuai tujuan pembangunan model dilakukan pada tahap ini
mulai dari pelatihan model hingga mencari parameter terbaik degan
hyperparameter tunning.
4.
Model Evaluation dan Validation
Beberapa
ukuran performansi model yang sesuai dapat dihitung pada tahapan ini misalmnya
akurasi, presisi, RMSE (Root Mean Square Error), elbow score, dll.
5.
Model Deployment
Pada
tahap deployment model diintegrasikan ke dalam aplikasi, API atau sistem
menggunakan platform deployment seperti Streamlite, Flask, FastAPI,
TensorFlow Serving, Android Studio, Docker, Kuberneter, dll.
6.
Model Monitoring dan Maintenance
Setelah
melakukan deployment, tahap selanjutnya adalah memantau kinerja model dan
pendeteksian data drift, yaitu perubahan pola yang dapat membuat model menjadi
kurang akurat serta melakukan re-training jika diperlukan.
Di sisi lain CRISP-ML(Q)
atau Cross Industry Standart Process for Machine Learning (Quality)
lebih menekankan pada metodologi pengembangan dan penerapan model Machine
Learning. Pada tahun 1999, kita mengenal CRISP-DM (Cross Industry
Standart Process for Data Mining) yang dibangun berdasarkan metodologi Knowledge
Discovery yang telah dipakai sejak tahun 1995. Istilah CRISP-ML (Cross
Industry Standart Process for Machine Learning) muncul pada tahun 2018
sebagai adaptasi dari CRISP-DM. Selanjutnya, CRISP-ML(Q) diperkenalkan pada
tahun 2020 yang menggeneralisasi CRISP-ML dengan fokus tambahan pada Quality
Assurance (Jaminan Kualitas). Tahapan CRISP-ML(Q) adalah:
1.
Business & Data Understanding
Pada tahap ini kita memahami kebutuhan
bisnis dan karakteristik data yang akan digunakan untuk menjawab kebutuhan
tersebut.
2.
Data Preparation
Tahap persiapan data termasuk
membersihkan (cleaning) dan menyiapkan data untuk model.
3.
Modeling: Membangun dan
mengoptimalkan model AI.
4.
Evaluation : Mengevaluasi performa
model sebelum deployment.
5.
Deployment: Menerapkan model ke
sistem nyata.
6.
Monitoring & Maintenance : Memonitoring
kinerja model dalam jangka panjang.
Gambaran siklus CRISP-ML(Q) dapat dilihat pada Gambar dimana prosesnya berkelanjutan sehingga framework berbasis QA dapat dibangun secara sistematis dengan tujuan kualitas tnggi dan keandalan model guna menjamin standar kualitas model AI.
ML Pipeline dan
CRISP-ML(Q) bukanlah dua hal yang seharusnya dipertentangkan, tetapi pendekatan
yang saling melengkapi. ML Pipeline membantu dalam otomatisasi teknis dan
pengembangan machine learning secara efisien, cepat dan dapat
direproduksi kembali, sementara CRISP-ML(Q) memastikan standar kualitas model.
Untuk membangun model AI yang andal dan dapat diandalkan, sebaiknya menggunakan
ML Pipeline dengan prinsip CRISP-ML(Q). -Ike-
Referensi:
Steidl., M, Feldeler, M, Ramber, R. 2023. The
Pipeline for the Continuous Development of Articial Intelligence Models
-Current State of Research and Practice. Journal of Systems and Software,
Volume 199, May 2023, 111615
Stunder, S. et.al. 2021. Towards CRISP-ML(Q):
A Machine Learning Process Model with Quality Assurance Methodology. Mach.
Learn. Knowl. Extr. 2021
Sumber Gambar: https://www.gtech.com.tr/en/analytics-business-intelligence/artificial-intelligence-and-advanced-analytics/