Download as pptx, pdf, or txt
Download as pptx, pdf, or txt
You are on page 1of 20

KANs

(Kolmogorov–Arnold Networks)
src = https://arxiv.org/pdf/2404.19756
abstract
• KAN은 MLP의 유망한 대안으로 제시된다

• MLP는 노드(뉴런)에 고정된 Activate function이 있는 반면, KAN은

에지(가중치)에 학습 가능한 Activate Function이 있다

• 모든 가중치의 매개변수는 Spline으로 매개변수화 된 일변량 함수로 대체된다.

• 이것이 MLP보다 뛰어난 성능을 보여준다. (데이터 피팅과 PDE(편미분

방정식)에서)

• 요약하면 KAN은 MLP에 유망한 대안으로 MLP에 크게 의존하는 딥러닝

모델을 더욱 개선 할 수 있는 기회를 만들어 줄 것이다


MLP 의 한계
Architecture
Kolmogorov–Arnold
Kolmogorov–Arnold 의 작업은 f 가 다변량 연속 함수 인 경우 f 가 단일 변수의 연속
함수와 덧셈 의 이항 연산 의 유한 구성으로 작성될 수 있음 을 확립했다 .

Why require Kolmogorov–Arnold ? y= x1+x2 의 그래프

다변수일수록 눈으로 보기 위해서 example


다차원의 시각이 필요하지만
인간의 눈 , 머리로는 다차원의 함수를 이해하기 힘들기 때문
변수가 2 개만 존재해도 3 차원으로 봐야함
4 차원 이상이 될 경우 인간의 인지가 힘듬
Architecture

각 노드들은 n 개의 activate function 을 가짐

Activate function 은 basis function 과


spline function 으로 구성

Basis function 은 silu 를 사용

Spline 의 제어점과 가중치를 학습

Grid extension 을 통해 최적의 parameter 를


탐색
B-Spline

B-spline 의 기저함수 제어점을 적용 그래프의 합산

B-spline = 제어점들을 통해 곡선을 매끄럽게 하는 수학적 도구

기저함수와 제어점의 곱들의 합으로 구성된다


Scaling Laws, Grid Extension

Scaling Laws : 기존의 이론의 2n+1 을 적용하는 것이 아닌 임의의 깊이와 너비를 지정하는 것

Grid-Extension: 파라미터를 확장해서 더 정교한 function 을 만드는 것

MLP 에서 더 좋은 정확도나 더 빠른 시간을 위해 깊이와 너비를 조정하면 가중치 학습을 처음부터 해야하는데
KAN 에서는 그냥 제어점의 개수만 늘어서 추가학습을 하며 더욱 정교하게 만들면 된다고 한다
Interpretability
Sparsification( 희소화 )
MLP 에서는 ?

Loss function

Pruning 을 하기 위해서 일부 edge 의 가중치를 낮출 필요가 있음

Sparsification 을 하기 위해 L1, L2 norm 을 쓰는 MLP 와 달리


KANs 은 선형적이라 자체적인 norm 을 적용해주어야 한다

활성화 함수 𝜑의 L1 norm 은 그 함수의 𝑁𝑝개의 입력에 대한 평균 크기로 정한다

μ1​와 𝜇 2​는 일반적으로 𝜇 1​=μ2​=1 로 설정되는 상대적인 크기이며 , 𝜆 는 전체 정규화의


크기를 조절함
Pruning

가중치를 기반으로 줄이는 필요한 activate function 만 남기는 행위


Flow-chart
Feature
strength and weakness

strength weakness
• 해석 가능성 증대 • 높은 계산 비용
• 표현력 증대 • 아직도 제한된 해석 가능성
• 효율적인 학습 • 높은 차원에서는 MLP 보다
• 다양한 응용 가능성 가중치가 왜곡 될 가능성이 높음
• 기억력 향상 • 현 상황으로썬 테스트 케이스가 부족
When should I use it?
experience
experience

사실 뭐 .. Experience 는 저자가 강점인 것만 위주로 쓰니까 ..


동일한 파라미터 기준으로 KAN 이 MLP 보다 나은 RMSE 를 보여준다

논문에서는 계산 비용이 많이 들 수 있다고 생각하지만


우리는 PDE 해결의 경우 , 2-Layer width-10 KAN 이
4-Layer width-100 MLP(10^-7 대 10^-5 MSE) 보다 100 배 더 정확하다는 것을 보여줘서 비용도 괜찮을 것이라고 주장한다
application
GPT Convolution

결과를 보면 .. 깊은 신경망을 가지는 transformer 의 mlp 를 대체하거나


CNN 의 Layer 를 대체하는거에는 성능의 향상을 가져다 주지 못하는거 같다
다만 아직 많은 실험이 이뤄지진 않았고 하니 기대해 볼 수 있다
GPT 를 보면 MLP 에 비해 많은 스텝시에도 Train – Test Loss 간격이 적게 나는건 좀 인상 깊다
future

여러분이 만드는겁니다 ..
end

You might also like