Professional Documents
Culture Documents
1회 가우스 콜로퀴움 - 동형머신러닝 (천정희) PDF
1회 가우스 콜로퀴움 - 동형머신러닝 (천정희) PDF
동형머신러닝
천정희 (서울대학교)
암호의 분류
2
미래 컴퓨팅 환경
3
Homomorphic Encryption
Ciphering: Gentry's system allows encrypted data to be analyzed in the cloud. In this example,
we wish to add 1 and 2. The data is encrypted so that 1 becomes 33 and 2 becomes 54. The
encrypted data is sent to the cloud and processed: the result (87) can be downloaded from the
cloud and decrypted to provide the final answer (3). Credit: Steve Moors
x y Enc(
E(x) )
E(y)
f(x) f(E(x))
E-1 -1
= Enc ( )
(f(E(x)))
Secret!
6
Pros and Cons
장점
컴퓨터에서 데이터의 모든 계산은 AND, OR, NOT의 논리 게이트로 연산
암호화된 상태로 AND/OR/Not연산 컴퓨터로 하는 모든 연산이 가능
암호화후 검색/통계처리/Machine Learning
해커의 데이터 유출 원천봉쇄
단점
암호문 확장: 10-100 K배 0.1-1 K배(대칭키방식)
암복호화 속도: 수십 ms (AES 1us, RSA 1ms)
암호문 연산: 곱셈 수백ms
응용연산 종류에 따른 속도의 차이가 큼 개별적 최적화
7
동형암호칩 (in near future)
Encrypted CPU
비트당 재부팅시간: 30분(2011), 0.32초(2013), 0.02초(2015)
8
CRT 기반 동형암호
RAD PH [1]
9
재부팅 Bootstrapping
출력: 신규 암호문
10
동형암호 효율성
R2 =ℤ2 𝑥𝑥
/𝑥𝑥 2048 + 1 𝐶𝐶 1024 : 1024 pair complex number
11
Approximate Homomorphic Encryption
1.23
5.6088
4.56
3.98112624
0.78
0.7098
0.91
108.2456382397886496
2.34
13.2678
5.67
27.18970254
8.91
2.0493
0.23
동형암호의 산업적응용
12
예제 1. 클라우드 데이터베이스
건강보험공단 데이터베이스
– 개인정보 저장: 이름, 주민번호, 재산, 납세내역, 병력,…
– 일반직원이 쉽게 개인정보 조회가능 로그기록으로 감시
대통령 후보의 병원기록 조회후 유출
– 데이터베이스 동형암호화
암호화상태에서 업무처리 (검색, 조회, 통계추출)
결과값을 책임자가 확인해야 하는 경우만 복호화
내부자 정보 유출 및 해킹의 위험 감소
13
예제 2: 암호화된 헬스케어
건강 진단 생체정보
(심박/ 활동량)
여기에서
성인 남성이
변수로
심장쓰이는
마비에헬스
걸릴정보는
확률을나이(a),
다음과 같은키(ht),
함수를 몸무게(wt),
사용하여 수축기
계산하고
혈압(sys),
있다. 이완기 혈압(dia), 콜레스테롤 수치(chol)이다. 그러나 이 함수는 동형암호를 사용
개인정보보호 헬스케어
15
예제 3: DNA 분석
DNA 분석/정밀의료와 암호화
개인의 유전
• 문제는 유전정보의 보호 기술 정보를 이용한
맞춤형 치료
(Nature Vol. 519, News in Focus)
… But scientists working to realize such
Biomedical Informatics 연구 영역
Healthcare, translational science, clinical research, and public
health 등의 영역에서 신설
Department of Biomedical Informatics
Harvard Medical School, UC San Diego, Univ. of Texas ,
Columbia Univ., Ohio State Univ., Univ. of Utah, 등
2018년 현재 석사학위 프로그램 111개
19
예제 4. Smart Car
Enc(y)
Enc(r) (sensor detection)
Controller
Enc(u)
(user input)
스마트홈에서 센서들이 인터넷에 연결되고 이 정보들과 사용자 명령이 합쳐
서 일종의 콘트롤러에 전달되면 이것들이 계산되어 집행됨
계산속도의 문제로 암호화하지 않은 상태로 사용 중
정보조작, 원격조종, 위치정보 공개 등 많은 보안위협 산재
20
Floating point HE를 통해 새로운 스마트카 제어모델 설계
Toward Secure Drones with Real-time HAE
17
23
머신러닝
판별대상 데이터
𝑎𝑎⃗
Raw 전처리
Data 학습 예측
데이터
x1, x2, …, xn
함수 f
f(𝑎𝑎)
⃗
이종기관 데이터기반 신용평가
13
이종기관 데이터기반 신용평가
14
개인정보보호 데이터분석 기술: 신용평가모델
개인정보 𝑥𝑥⃗
동형암호 머신러닝
대출정보
통신요금
공과금
신용도 f(𝑥𝑥)
⃗
현재 기술의 문제점
- 이종기관 데이터 병합시 개인정보보호법 위반
- 비식별화 후 데이터의 유용성 감소
돌파기술 : 동형암호화된 데이터의 머신러닝
데이터 가정
DB1(신용데이터) DB2(통신데이터)
주민번호 최장연체일수 주민번호 요금납부실적 최장연체일수
총대출금 (A1) … (An)
…
(Index) (Index) (B1) (Bm)
780212- 780212-
10,000 … 15 A … 3
2211123 2211123
… … … … … … …
890607- 890607-
25,000 --- 50 C … 80
1789711 1789711
Index A1 … An B1 … Bm
… … … … … … …
DB1(신용데이터) DB2(통신데이터)
주민번호 최장연체일수 주민번호 요금납부실적 최장연체일수
총대출금 (A1) … (An)
…
(Index) (Index) (B1) (Bm)
780212- 780212-
Hash(…) 10,000 … 15 Hash(…) A … 3
2211123 2211123
…
… …
… …
… …
… …
… …
… …
…
890607- 890607-
Hash(…) 25,000 --- 50 Hash(…) C
C …
… 80
80
1789711 1789711
Index A1 … An B1 … Bm
1. 비식별화 : ID를 난수로 대치
Hash(…) 10,000 … 15 A … 3
2. 데이터 병합
… … … … … … … 3. 재식별방지 조치 : k-익명성,
l-다양성, t-근접성
Hash(…) 25,000 … 50 C … 80
DB1(신용데이터) DB2(통신데이터)
주민번호 최장연체일수 주민번호 요금납부실적
총대출금 (A11) … (Ann) … 최장연체일수(Bm)
(Index) (Index) (B1)
780212- A
780212-
Hash(…) HE(..)
10,000 11 … 15 An1
HE(..) Hash(…) A B11
HE(..) … 3 Bm1
HE(..)
2211123 2211123
…
… …
… … …
… … … … …
890607- 890607-
Hash(…) 25,000
HE(..)A ---
… 50 Anl
HE(..) Hash(…) C B1l
HE(..) … 80 Bml
HE(..)
1789711 1l 1789711
Index A1 … An B1 … Bm 1. 동형암호화
Hash(…) HE(..)A11 … HE(..)An1 HE(..)B11 … HE(..)Bm1 (ID를 난수로 대치)
2. 데이터 병합
… … … … … … …
3. 암호화 분석
Hash(…) HE(..)A1l … HE(..)Anl HE(..)B1l … HE(..)Bml 4. 그룹복호화
암호화된
암호화된
(비밀키는 다중 기관 분산)
HE11(..)
HE (..) …
… HEnn(..)
HE (..) HE
HEn+1 (..)
n+1(..)
…
… HE n+m(..)
HEn+m (..)
가중치
가중치
27
Prediction Phase: 내적 암호
24
함수암호 (Functional Encryption)
동형암호 vs 함수암호
• 동형암호 Enc(m1),…, Enc(mn) Enc(f(m1, m2, …, mn)) 모든 f
• 함수암호 Enc(m1),…, Enc(mn) f(m1, m2, …, mn) 특정한 f
함수암호의 응용
• 생체인식 : EncK(m1), EncK(m2) m1=m2인지 판별
25
향후 연구
제도적 문제
– 암호화된 데이터의 개인정보보호법 적용 문제
– 동형암호 : 복호화 권한 분산
– 익명성/동형암호/함수암호 등의 안전성 분류
기술적 문제
– 동형기계학습 (homomorphic machine learning) 알고리즘
– 효율적 동형암호 알고리즘 개발
– 동향암호 고속 구현
– 동형 블록체인
26