Kans Review

KANs
(Kolmogorov–Arnold Networks)
src = https://arxiv.org/pdf/2404.19756
abstract
• KAN은 MLP의 유망한 대안으로 제시된다
• MLP는 노드(뉴런)에 고정된 Activate function이 있는 반면, KAN은
에지(가중치)에 학습 가능한 Activate Function이 있다
• 모든 가중치의 매개변수는 Spline으로 매개변수화 된 일변량 함수로 대체된다.
• 이것이 MLP보다 뛰어난 성능을 보여준다. (데이터 피팅과 PDE(편미분
방정식)에서)
• 요약하면 KAN은 MLP에 유망한 대안으로 MLP에 크게 의존하는 딥러닝
모델을 더욱 개선 할 수 있는 기회를 만들어 줄 것이다

MLP 의 한계
Architecture
Kolmogorov–Arnold
Kolmogorov–Arnold 의 작업은 f 가 다변량 연속 함수 인 경우 f 가 단일 변수의 연속
함수와 덧셈 의 이항 연산 의 유한 구성으로 작성될 수 있음 을 확립했다 .
Why require Kolmogorov–Arnold ? y= x1+x2 의 그래프
다변수일수록 눈으로 보기 위해서 example

다차원의 시각이 필요하지만
인간의 눈 , 머리로는 다차원의 함수를 이해하기 힘들기 때문
변수가 2 개만 존재해도 3 차원으로 봐야함
4 차원 이상이 될 경우 인간의 인지가 힘듬
Architecture
각 노드들은 n 개의 activate function 을 가짐
Activate function 은 basis function 과

spline function 으로 구성
Basis function 은 silu 를 사용
Spline 의 제어점과 가중치를 학습
Grid extension 을 통해 최적의 parameter 를

탐색
B-Spline
B-spline 의 기저함수 제어점을 적용 그래프의 합산
B-spline = 제어점들을 통해 곡선을 매끄럽게 하는 수학적 도구
기저함수와 제어점의 곱들의 합으로 구성된다

Scaling Laws, Grid Extension
Scaling Laws : 기존의 이론의 2n+1 을 적용하는 것이 아닌 임의의 깊이와 너비를 지정하는 것
Grid-Extension: 파라미터를 확장해서 더 정교한 function 을 만드는 것
MLP 에서 더 좋은 정확도나 더 빠른 시간을 위해 깊이와 너비를 조정하면 가중치 학습을 처음부터 해야하는데
KAN 에서는 그냥 제어점의 개수만 늘어서 추가학습을 하며 더욱 정교하게 만들면 된다고 한다
Interpretability
Sparsification( 희소화 )
MLP 에서는 ?
Loss function
Pruning 을 하기 위해서 일부 edge 의 가중치를 낮출 필요가 있음
Sparsification 을 하기 위해 L1, L2 norm 을 쓰는 MLP 와 달리

KANs 은 선형적이라 자체적인 norm 을 적용해주어야 한다
활성화 함수 𝜑의 L1 norm 은 그 함수의 𝑁𝑝개의 입력에 대한 평균 크기로 정한다
μ1와 𝜇 2는 일반적으로 𝜇 1=μ2=1 로 설정되는 상대적인 크기이며 , 𝜆 는 전체 정규화의

크기를 조절함
Pruning
가중치를 기반으로 줄이는 필요한 activate function 만 남기는 행위

Flow-chart
Feature
strength and weakness
strength weakness
• 해석 가능성 증대 • 높은 계산 비용
• 표현력 증대 • 아직도 제한된 해석 가능성
• 효율적인 학습 • 높은 차원에서는 MLP 보다
• 다양한 응용 가능성 가중치가 왜곡 될 가능성이 높음
• 기억력 향상 • 현 상황으로썬 테스트 케이스가 부족
When should I use it?
experience
experience
사실 뭐 .. Experience 는 저자가 강점인 것만 위주로 쓰니까 ..

동일한 파라미터 기준으로 KAN 이 MLP 보다 나은 RMSE 를 보여준다
논문에서는 계산 비용이 많이 들 수 있다고 생각하지만

우리는 PDE 해결의 경우 , 2-Layer width-10 KAN 이
4-Layer width-100 MLP(10^-7 대 10^-5 MSE) 보다 100 배 더 정확하다는 것을 보여줘서 비용도 괜찮을 것이라고 주장한다
application
GPT Convolution
결과를 보면 .. 깊은 신경망을 가지는 transformer 의 mlp 를 대체하거나

CNN 의 Layer 를 대체하는거에는 성능의 향상을 가져다 주지 못하는거 같다
다만 아직 많은 실험이 이뤄지진 않았고 하니 기대해 볼 수 있다
GPT 를 보면 MLP 에 비해 많은 스텝시에도 Train – Test Loss 간격이 적게 나는건 좀 인상 깊다
future
여러분이 만드는겁니다 ..
end

Kans Review

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Kans Review

Uploaded by

Copyright:

Available Formats

KANs

• MLP는 노드(뉴런)에 고정된 Activate function이 있는 반면, KAN은

에지(가중치)에 학습 가능한 Activate Function이 있다

• 모든 가중치의 매개변수는 Spline으로 매개변수화 된 일변량 함수로 대체된다.

• 이것이 MLP보다 뛰어난 성능을 보여준다. (데이터 피팅과 PDE(편미분

• 요약하면 KAN은 MLP에 유망한 대안으로 MLP에 크게 의존하는 딥러닝

모델을 더욱 개선 할 수 있는 기회를 만들어 줄 것이다

Why require Kolmogorov–Arnold ? y= x1+x2 의 그래프

다변수일수록 눈으로 보기 위해서 example

각 노드들은 n 개의 activate function 을 가짐

Activate function 은 basis function 과

Basis function 은 silu 를 사용

Spline 의 제어점과 가중치를 학습

Grid extension 을 통해 최적의 parameter 를

B-spline 의 기저함수 제어점을 적용 그래프의 합산

B-spline = 제어점들을 통해 곡선을 매끄럽게 하는 수학적 도구

기저함수와 제어점의 곱들의 합으로 구성된다

Grid-Extension: 파라미터를 확장해서 더 정교한 function 을 만드는 것

Pruning 을 하기 위해서 일부 edge 의 가중치를 낮출 필요가 있음

Sparsification 을 하기 위해 L1, L2 norm 을 쓰는 MLP 와 달리

활성화 함수 𝜑의 L1 norm 은 그 함수의 𝑁𝑝개의 입력에 대한 평균 크기로 정한다

μ1​와 𝜇 2​는 일반적으로 𝜇 1​=μ2​=1 로 설정되는 상대적인 크기이며 , 𝜆 는 전체 정규화의

가중치를 기반으로 줄이는 필요한 activate function 만 남기는 행위

사실 뭐 .. Experience 는 저자가 강점인 것만 위주로 쓰니까 ..

논문에서는 계산 비용이 많이 들 수 있다고 생각하지만

결과를 보면 .. 깊은 신경망을 가지는 transformer 의 mlp 를 대체하거나

You might also like

μ1와 𝜇 2는 일반적으로 𝜇 1=μ2=1 로 설정되는 상대적인 크기이며 , 𝜆 는 전체 정규화의