Exploding Gradient and Vanishing Gradient
Deep Learning mengacu pada training neural network dengan lebih dari dua layer non-output. Di masa lalu, semakin sulit untuk melakukan training network jika jumlah layer semakin besar. Dua masalah yang menjadi tantangan terbesar disebut sebagai masalah meledaknya gradient (exploding gradient) dan menghilangnya gradient (vanishing gradient) karena gradient descent digunakan untuk melatih parameter jaringan.
Untuk masalah exploding gradient lebih mudah untuk diatasi dengan menerapkan teknik sederhana seperti gradient clipping dan L1 atau L2. Regularisasi, masalah vanishing gradient tetap sulit dipecahkan beberapa decade ini.
Apa itu vanishing gradient dan mengapa itu muncul? Untuk meperbaharui nilai-nilai parameter dalam neural network pada algoritma yang disebut backpropagation yang biasanya digunakan. Backpropagation adalah algoritma yang efisien untuk menghitung gradient pada Neural Network menggunakan chain rule. Selama gradient descent, parameter neural network menerima pembaharuan yang sebanding dengan turunan parsial dari fungsi biaya sehubungan dengan parameter saat ini disetiap iterasi pelatihan. Masalahnya adalah bahwa dalam beberapa kasus , gradient akan semakin kecil, secara efektif mencegah beberapa parameter mengubah nilainya. Dalam kasus terburuk, ini mungkin benar-benar menghentikan neural network untuk melakukan training lebih lanjut.
Fungsi aktivasi tradisional, seperti fungsi tangen hiperbolik(hyperbolic tangent), memiliki gradient dalam kisaran(0,1), dan backpropagation menghitung gradient berdasarkan chain rule. Hal ini mempengaruhi perkalian n dengan angka-angka kecil ini untuk menghitung gradient dari layer sebelumnya(paling kiri) dalam n-layer network. Yang berarti bahwa gradient berkurang secara exponensial dengan n. hal ini menyebabkan layer sebelumnya melatih dengan sangat lambat.
Namun, implementasi modern dari algoritma pembelajaran neuran network memungkinkan anda untuk secara efektif melatih neural network (hingga ratusan lapisan). Fungsi aktivasi ReLU mendapatkan masalah vanishing gradient jauh lebih sedikit. Juga, Long Short-Term Memory(LSTM) network digunakan dalam residual neural network memungkinkan untuk melakukan training neural network lebih dalam(deeper) dengan ribuan layer.
Oleh karena itu, dengan masalah vanishing dan exploding gradient sebagian besar telah terpecahkan (atau efeknya telah berkuran) untuk sebagian besar, istilah “Deep Learning” mengacu pada pelatihan neural network menggunakan toolkit algoritmik dan matematika modern terlepas dari seberapa dalam(deep) neural network. Dalam praktiknya, banyak masalah bisnis dapat diselesaikan dengan neural network yang memiliki 2–3 layer antara input dan output layer. Layer yang bukan input atau output disebut hidden layer.
Sumber:
Burkov, A. (2019). Machine Learning.