Dalam beberapa tahun terakhir, Computer Vision (CV) telah mengalami kemajuan pesat dan memengaruhi banyak aspek kehidupan sehari-hari kita. Meskipun mungkin terlihat sebagai inovasi menarik yang baru bagi banyak orang, kenyataannya lebih kompleks.
CV telah mengalami perkembangan selama beberapa dekade, dengan penelitian dasar yang dimulai pada tahun 1970-an yang menjadi dasar bagi banyak algoritma yang kita gunakan sekarang. Sekitar sepuluh tahun yang lalu, muncul teknik baru yang masih dalam tahap teoritis: Deep learning, pendekatan kecerdasan buatan yang menggunakan jaringan saraf untuk mengatasi masalah yang sangat kompleks, asalkan Anda memiliki data dan sumber daya komputasi yang cukup.
Dengan berjalannya waktu, deep learning terus meningkat, dan kemampuannya dalam menyelesaikan masalah-masalah tertentu dalam CV semakin terlihat. Tugas seperti deteksi dan klasifikasi objek terbukti sangat cocok untuk pendekatan deep learning ini. Seiring dengan itu, terdapat perbedaan antara CV “tradisional”, yang bergantung pada keterampilan matematika dan geometri insinyur, dengan CV berbasis deep learning.
Namun, perlu diingat bahwa deep learning tidak membuat CV tradisional tidak berguna. Kedua pendekatan ini terus berkembang, dan kita dapat melihat mana tantangan yang lebih baik diselesaikan dengan menggunakan big data dan mana yang masih harus menggunakan algoritma matematika dan geometri.
Keterbatasan dalam bidang Computer Vision (CV) klasik
Potensi revolusioner dari deep learning dalam bidang visi komputer sangat bergantung pada ketersediaan data pelatihan yang cocok atau adanya kendala logis atau geometris yang bisa membimbing jaringan dalam memperbaiki pembelajarannya secara otomatis.
Secara historis, visi komputer klasik memiliki tugas seperti mendeteksi objek, mengenali fitur-fitur seperti tepi, sudut, dan tekstur (disebut sebagai ekstraksi fitur), serta memberi label pada setiap piksel dalam gambar (disebut sebagai segmentasi semantik). Namun, proses-proses ini sangat rumit dan memakan waktu.
Deteksi objek memerlukan keahlian dalam teknik seperti jendela bergeser, pencocokan pola, dan pencarian yang detail. Mengekstraksi dan mengkategorikan fitur-fitur memerlukan insinyur untuk merancang metode khusus. Tugas yang rumit untuk membedakan antara berbagai kelas objek pada tingkat piksel memerlukan upaya besar untuk memetakan wilayah-wilayah yang berbeda, dan bahkan insinyur visi komputer berpengalaman tidak selalu berhasil membedakan dengan akurat setiap piksel dalam gambar.
Pengaruh yang sangat berpengaruh dari deep learning dalam merevolusi deteksi objek adalah fakta yang tidak bisa disangkal.
Secara spesifik, penggunaan jaringan saraf konvolusional (CNN) dan jaringan saraf berbasis wilayah (R-CNN) telah membuat tugas ini menjadi lebih rutin, terutama ketika dikombinasikan dengan beragam data gambar yang telah diberi label dari perusahaan-perusahaan besar seperti Google dan Amazon. Dengan jaringan yang sudah terlatih dengan baik, tidak diperlukan aturan manual yang rumit, dan algoritma-algoritma ini sangat handal dalam mendeteksi objek dari berbagai sudut pandang dan dalam berbagai kondisi.
Dalam hal ekstraksi fitur, pendekatan yang lebih efisien dari deep learning didasarkan pada algoritma-algoritma yang kompeten dan beragamnya data pelatihan, yang membantu mencegah overfitting model dan mencapai tingkat akurasi yang tinggi ketika berhadapan dengan data produksi yang baru. Khususnya, CNN sangat unggul dalam hal ini. Selain itu, ketika digunakan dalam segmentasi semantik, arsitektur U-net telah membuktikan kinerjanya yang sangat baik, yang mengurangi kerumitan dalam proses manual.
Meskipun deep learning telah membawa perubahan besar, perlu dicatat bahwa untuk tantangan khusus yang dihadapi oleh algoritma simultanisasi lokal dan pemetaan (SLAM) serta struktur dari gerakan (SFM), solusi-solusi visi komputer klasik masih lebih efektif daripada pendekatan-pendekatan yang lebih baru. Konsep-konsep ini melibatkan penggunaan gambar untuk memahami dan memetakan dimensi-dimensi dalam ruang fisik.
SLAM terutama berfokus pada pembuatan dan pembaruan terus-menerus peta suatu area sambil secara bersamaan melacak pergerakan agen (biasanya sebuah robot) dalam peta tersebut. Teknologi ini sangat penting dalam mendukung mobil otonom dan operasi penyedot debu robotik.
SFM, di sisi lain, bergantung pada prinsip-prinsip matematika dan geometri yang canggih, dengan tujuan menciptakan rekonstruksi tiga dimensi dari suatu objek dengan menggunakan beberapa pandangan yang diambil dari berbagai gambar yang tidak terurut. Pendekatan ini sangat berguna ketika respons dalam waktu nyata tidak menjadi hal yang diperlukan.
Pada awalnya, banyak yang berpendapat bahwa daya komputasi yang besar akan sangat dibutuhkan untuk implementasi SLAM yang efektif. Namun, pionir-pionir dalam bidang visi komputer klasik berhasil menciptakan pendekatan-pendekatan yang secara signifikan mengurangi tuntutan komputasi melalui perkiraan yang cermat.
SFM, dalam kontrastnya, lebih sederhana. Berbeda dengan SLAM yang sering melibatkan fusi data dari sensor-sensor yang berbeda, SFM bergantung sepenuhnya pada karakteristik-karakteristik intrinsik dari kamera dan fitur-fitur dalam gambar. Pendekatan yang hemat biaya ini menyediakan representasi yang dapat diandalkan dan akurat terhadap objek-objek, terutama ketika pemindaian dengan laser tidak praktis karena keterbatasan jarak dan resolusi.
Langkah ke Depan
Masih ada beberapa tantangan yang deep learning tidak dapat mengatasi seefisien CV klasik, dan para insinyur harus terus menggunakan metode-metode tradisional untuk mengatasi masalah-masalah semacam itu. Ketika kita membutuhkan matematika yang kompleks dan pengamatan langsung, dan sulit untuk mendapatkan kumpulan data pelatihan yang sesuai, deep learning terbukti terlalu kuat dan tidak efisien untuk memberikan solusi yang elegan. Kita bisa mengibaratkan hal ini seperti banteng yang berada di dalam toko porselen: sama seperti ChatGPT bukanlah alat yang paling tepat (atau akurat) untuk melakukan perhitungan matematika dasar, visi komputer klasik akan terus unggul dalam menangani tantangan-tantangan tertentu.
Pergeseran perlahan dari pendekatan visi komputer klasik ke pendekatan berbasis deep learning memberikan kita dua pemahaman utama. Pertama, kita perlu menyadari bahwa penggantian sepenuhnya metode lama dengan yang baru, meskipun lebih sederhana, tidak selalu merupakan pendekatan yang tepat. Ketika suatu bidang mengalami gangguan dari teknologi baru, penting untuk secara hati-hati mengevaluasi setiap kasus untuk menentukan masalah-masalah mana yang mendapat manfaat dari teknik-teknik baru dan mana yang masih mendapatkan solusi yang lebih baik melalui pendekatan lama.
Kedua, sementara transisi ini memberikan skala yang lebih besar, ada sentuhan nostalgia yang terlibat. Metode-metode klasik memerlukan lebih banyak kerja manual, tetapi juga mencakup unsur seni dan ilmu pengetahuan. Kreativitas dan inovasi dalam mengekstrak fitur, mengidentifikasi objek, mengenali tepi, dan menangkap elemen-elemen penting didorong oleh pemikiran yang mendalam, bukan hanya mengandalkan deep learning.
Ketika kita beralih dari teknik-teknik visi komputer klasik, para insinyur seperti saya kadang-kadang merasa bahwa peran kami berubah menjadi pengintegrasian berbagai alat-alat visi komputer. Meskipun pergeseran ini “baik bagi industri,” kadang-kadang kita merasa rindu untuk meninggalkan aspek-aspek artistik dan kreatif dalam pekerjaan ini. Tantangan yang akan datang adalah menemukan cara untuk menggabungkan dimensi artistik ini dengan cara yang berbeda.
Pemahaman Menggantikan Pembelajaran
Dalam kurun waktu 10 tahun yang akan datang, kemungkinan besar kita akan melihat pergeseran menuju “pemahaman” sebagai fokus utama dalam pengembangan jaringan, menggantikan peran utama “pembelajaran”. Perhatian akan beralih dari sejauh mana jaringan dapat mempelajari banyak hal menjadi sejauh mana jaringan dapat benar-benar memahami informasi, dan bagaimana kita dapat memfasilitasi pemahaman ini tanpa memberikan terlalu banyak data. Sasarannya adalah memberdayakan jaringan untuk mendapatkan wawasan yang mendalam dengan campur tangan yang minimal.
Dalam dekade mendatang, diperkirakan akan ada perkembangan mengejutkan dalam bidang visi komputer. Mungkin saja visi komputer klasik akan menjadi usang pada akhirnya, atau mungkin deep learning akan digantikan oleh teknik yang belum pernah dilihat sebelumnya. Namun, saat ini, alat-alat ini tetap menjadi pilihan terbaik untuk menangani tugas-tugas tertentu dan akan menjadi fondasi bagi perkembangan berkelanjutan dalam visi komputer dalam dekade yang akan datang. Terlepas dari itu, perjalanan ini akan menjadi sangat menarik.