Download as pdf or txt
Download as pdf or txt
You are on page 1of 2

머신러닝 대본

이어서 출력을 통한 데이터 클리닝과정과 프리프로세싱에 대해 보여드리도록 하겠습니다. 먼저


기존 데이터의 출력을 확인해보면 (그림을 가리키며) 잘못된 데이터가 있고 이를 제거한 클리닝
데이터는 다음과 같습니다. (그림을 계속 가리키며) 또 중간에 위치하지 못한 데이터는 centering
코드를 이용해 다음과 같은 전처리를 적용했습니다. 이 이미지는 단순 출력 이미지로 centering
코드는 pipeline으로 모델에 적용했습니다. 이를 적용했을 때 각 score값은 svc기준 다음과 같습니
다.

오리지널 mnist데이터에 베스트 모델 탐색과정을 말씀드리겠습니다. 먼저 softmax입니다. 저희는


for문을 이용한 score값의 그래프화로 베스트 파라미터를 찾는 방식을 이용했습니다. 더하여 먼저
한 파라미터값의 best가 정해지면 그 값을 고정하고 나머지 파라미터의 best 스코어를 찾는 방식
을 사용했습니다.

Softmax는 max_iter가 위와 같이 나왔지만 다음과 같은 에러가 나오지 않는 max_iter를 1000으로


채택하였고, 이 값을 고정하고 정규화 역수값 c는 다음과 같이 구했습니다. score값과 출력 시간은
다음과 같습니다.

다음으로 mlp classifier입니다. Mnist dataset에서는 은닉층 사이즈인 hidden_layer_Sizes와 정규화


alpha값이 중요하다고 결정하고 앞의 방식과 같이 진행했습니다. 이에 따라 다음 파라미터를 베
스트 파라미터로 지정했고 다음과 같은 시간과 score를 얻을 수 있었습니다.

디시설 대본

입출력 알고리즘을 소개하겠습니다.

그림을 보시면 1920바이 1080의 픽셀에서 인덱스값을 조정하여 오른쪽 위의 9바이9의 픽셀 이미


지를 불러와 출력한 값입니다. 위 그림을 뽑아내는데 rgb의 순서문제, 연산자 문제가 있었지만 이
는 출력의 파트 셀렉트와 적절한 연산자 적용으로 이를 해결했습니다.

끝값 문제에 대해 설명하도록 하겠습니다. 이전 중간발표에도 설명 드렸듯이 필터가 들어가는


과정은 왼쪽에서 오른쪽으로 적용하는 방식을 사용했습니다. 하지만 이 과정에서 일반적으로 진
행하게 되면 이전 발표에서 설명 드렸듯이 다음과 같이 파란부분의 픽셀이 남는 문제가 발생합니
다. 가로 세로 픽셀값이 3의 배수가 아닐경우 파란 부분의 픽셀을 어떻게 처리할지 문제가 생깁
니다. 저희가 이문제를 해결한 방식은 다음과 같습니다. 그림을 보시면 먼저 만약 가로, 세로의
픽셀갯수가 3의 배수가 아닌 경우 (그림을 가리키며) 이렇게 필터를 적용하고 기존 필터는 시작
점은 픽셀수에 3을 나눈 나머지 값을 더하여 시작점을 옮겼습니다.

파란부분은 2번이상 겹치는 문제가 발생하지만 1920바이 1080의 픽셀갯수를 생각했을 때 3000
개 정도의 픽셀만 중복되므로 이는 무시해도 될 정도라고 생각해 이 방식을 채택했습니다.

You might also like