Download as pdf or txt
Download as pdf or txt
You are on page 1of 15

Linear Regression

고태훈 (thoon.koh@gmail.com)
Terminology: 데이터 포인트
v 현상을 관측한 단위
• Point (포인트)
• Sample (샘플)
• Instance (인스턴스)
• Record (레코드)
• Observation (관측치)

id 𝑿𝟏 𝑿𝟐 ... 𝑿𝒑 𝒀
1 𝑥(( 𝑥() … 𝑥(,+ 𝑦(
2 𝑥)( 𝑥)) … 𝑥),+ 𝑦)
… … … … … …
𝑛 𝑥/,( 𝑥/,) … 𝑥/,+ 𝑦/

1
Terminology: 변수
v 현상들을 설명/표현하는 요소

v Variable, Feature, Attribute, Factor, Field, Column, …

• Predictor variables (예측변수) • Target variables (타겟변수)


• Input variables (입력변수) • Output variables (출력변수)
• Independent variables (독립변수) • Dependent variables (종속변수)

id 𝑿𝟏 𝑿𝟐 ... 𝑿𝒑 𝒀
1 𝑥(( 𝑥() … 𝑥(,+ 𝑦(
2 𝑥)( 𝑥)) … 𝑥),+ 𝑦)
… … … … … …
𝑛 𝑥/,( 𝑥/,) … 𝑥/,+ 𝑦/

2
예제: 신용카드회사 고객정보 데이터
v 데이터 포인트: 각 고객 정보
v 변수: 고객정보를 표현하는 요소
▶ 인구통계학정보: 성별, 생년월일, 나이, 사는 지역, 부양가족 수 등.
▶ 신용카드사용내역: 업종 별 결제 내역 및 횟수, 포인트 사용 내역 및
횟수, 신용카드대출 등.

v X1,…Xp와 Y는 분석 목적에 따라 달라짐


▶ 분석 목적: 고객이 이탈할지 예측
▶ Y는 고객들의 이탈 여부 (Yes or No)
▶ X1,…Xp는 고객을 설명하는 변수들: 위에 언급한 인구통계학정보,
신용카드사용내역 등.

3
다중선형회귀 (Multiple linear regression)
v 목표
▶ 수치형 출력변수 Y를 여러 개의 입력변수 X1, X2, …, Xp의 선형조합으
로 표현하는 식을 도출하는 것

Y = b 0 + b1X1 + b 2 X 2 + ... + b p Xp + ε
Intercepts coefficients vector of error
(절편) (계수) variables
(오차항으로
이루어진 벡터)

4
다중선형회귀
v 다중선형회귀모델의 계수들을 알고 있다고 가정했을 때,
Y
오차항
-1 = 2 - 3
= 2 - (1 + 0.4 ´ 5) Y = 1 + 0.4X1
다중선형회귀
모델
3(= 1 + 0.4 ´ 5)
-1
모델에 의해
예측된 값
2 ( 5, 2 )

X1
5
5
다중선형회귀
v 다중선형회귀모델의 계수들을 알고 있다고 가정했을 때,
Y
오차항
e i = yi - yˆi
= yi - ( b 0 + b1 xi1 ) Y = b 0 + b1X1
다중선형회귀
모델
yˆi (= b 0 + b1 xi1 )
ei
모델에 의해
예측된 값
yi ( xi1 , yi )

X1
xi1
6
다중선형회귀
v 다중선형회귀모델의 계수들을 알고 있다고 가정했을 때,
ˆ = b + b X yˆi = b 0 + b1 xi1
Y 0 1 1

id 𝑿𝟏 𝒀 2
𝒀 𝛆
1 𝑥(( 𝑦( 𝑦4( 𝜀(
2 𝑥)( 𝑦) 𝑦4) 𝜀)
… … … … …
𝑖 𝑥1( 𝑦1 𝑦46 𝜀6
… … … … …
𝑛 𝑥/,( 𝑦/ 𝑦4/ 𝜀/

ˆ
ε = Y-Y e i = yi - yˆi
7
다중선형회귀
v 다중선형회귀모델의 계수들을 알고 있다고 가정했을 때,

𝑌; = 𝛽> + 𝛽( 𝑋( + 𝛽) 𝑋) + ⋯ + 𝛽+ 𝑋+ 𝑦B6 = 𝛽> + 𝛽( 𝑥6( + 𝛽) 𝑥6) + ⋯ + 𝛽+ 𝑥6+

id 𝑿𝟏 𝑿𝟐 … 𝑿𝒑 𝐘 2
𝐘 𝛆
1 𝑥(( 𝑥() … 𝑥(8 𝑦( 𝑦4( 𝜀(
2 𝑥)( 𝑥)( … 𝑥)8 𝑦) 𝑦4) 𝜀)
… … … … … … … …
𝑖 𝑥1( 𝑥1) … 𝑥1+ 𝑦1 𝑦46 𝜀6
… … … … … … … …
𝑛 𝑥/( 𝑥9) … 𝑥9+ 𝑦/ 𝑦4/ 𝜀/

ˆ
ε = Y-Y e i = yi - yˆi
8
다중회귀분석모델
v In matrix form,
▶ 𝐗: n by (p+1) matrix / 𝐲: n by 1 vector / 𝛃: p by 1 vector

Y = b 0 + b1X1 + b 2 X 2 + ... + b p Xp + ε Y = Xβ + ε

𝑦( 1 𝑥(( 𝑥() … 𝑥(+ 𝛽> 𝜀>


𝑦) 1 𝑥)( 𝑥)) … 𝑥)+ 𝛽( 𝜀(
… = + …
… … … … … …
𝑦/ 1 𝑥/( 𝑥/) … 𝑥/+ 𝛽+ 𝜀/

9
다중선형회귀
v 실제로는,
▶ 데이터가 주어진 상태이며, 다중선형회귀모델의 계수는 모름.

▶ 즉, 어떠한 회귀모델이 현 데이터에 더 적합한지 모르는 상태

Which regression model is the best?

In other words,
which coefficient set 𝜷 is the best?

X1

10
다중선형회귀
v 다중선형회귀모델의 계수들을 모를 때,
▶ 추정하고자 하는 계수들을 𝛽;> , 𝛽;( , … , 𝛽;+ 라 하자.

𝑌; = 𝛽H> + 𝛽H( 𝑋( + 𝛽H) 𝑋) + ⋯ + 𝛽H+ 𝑋+ 𝑦B6 = 𝛽H> + 𝛽H( 𝑥6( + 𝛽H) 𝑥6) + ⋯ + 𝛽H+ 𝑥6+

id 𝑿𝟏 𝑿𝟐 … 𝑿𝒑 𝒀 2
𝒀 𝛆
1 𝑥(( 𝑥() … 𝑥(8 𝑦( 𝑦4( 𝜀(
2 𝑥)( 𝑥)( … 𝑥)8 𝑦) 𝑦4) 𝜀)
… … … … … … … …
𝑖 𝑥1( 𝑥1) … 𝑥1+ 𝑦1 𝑦46 𝜀6
… … … … … … … …
𝑛 𝑥/( 𝑥9) … 𝑥9+ 𝑦/ 𝑦4/ 𝜀/

ˆ
ε = Y-Y e i = yi - yˆi 11
다중선형회귀모델의 학습 = 계수추정
v 따라서,
▶ 주어진 데이터를 이용하여 선형회귀모델의 계수를 추정(estimation)
해야 한다.

v 추정 방법 중 하나인 Ordinary least squares (OLS)


▶ 가장 단순한 추정 방법

▶ 오차의 제곱합을 최소화하는 계수 𝛽H> , 𝛽H( , … , 𝛽H+ 를 찾는 것

/ / /
)
I 𝜀6) = I 𝑦6 − 𝑦46 ) = I 𝑦6 − 𝛽H> + 𝛽H( 𝑥6( + ⋯ + 𝛽H+ 𝑥6+
6J( 6J( 6J(

12
Ordinary least squares (OLS)
v 목적식(오차제곱합)을 각 계수로 편미분하여 계수들을 도출
▶ 한 개의 독립변수만을 이용한 회귀분석모델의 경우,

/ / /
)
min I 𝜀6) = I 𝑦6 − 𝑦46 ) = I 𝑦6 − 𝛽H> + 𝛽H( 𝑥6( + ⋯ + 𝛽H+ 𝑥6+
6J( 6J( 6J(

¶ æ n 2ö n bˆ0 = y - bˆ1 x
ç å e i ÷ = å -2( yi - bˆ0 -bˆ1 xi1 ) = 0
¶b 0 è i =1 ø i =1
n

¶ æ n

n å (x i1 - x )( yi - y )
ç å e i ÷ = å -2 xi1 ( yi - b 0 -b1 xi1 ) = 0
¶b1 è i =1 ø i =1
ˆ ˆ bˆ1 = i =1
n

å (x
i =1
i1 - x )2

13
Ordinary least squares (OLS)
v In matrix form,
▶ 2: p by 1 vector
𝐗: n by (p+1) matrix / 𝐘: n by 1 vector / 𝛃

n
min åi
e 2

i =1
= ε T
ε = (Y - ˆ T (Y - Xβ)
Xβ) ˆ

¶ ˆ T (Y - Xβ)
ˆ = -2(Y - Xβ)
ˆ TX = 0
(Y - Xβ)
¶βˆ
-Y T X + βˆ T XT X = 0
βˆ T = (XT X)-1 Y T X βˆ = arg min β (Y - Xβ)T (Y - Xβ)
βˆ = (XT X)-1 XT Y
2
= arg min β Y - Xβ
= (XT X)-1 XT Y
14

You might also like