기능소개서 - onTune GPU 모니터링

You might also like

Download as pdf or txt
Download as pdf or txt
You are on page 1of 16

GPU 모니터링

GPU 모니터링 개요
onTune 에서는 최근 빅데이터 업무 등에 널리 사용되고 있는 GPU(NVIDIA) 서버의 기본 information 정보 및 개별 GPU의 자원 사용률을
자동으로 수집하여 사용자에게 실시간 모니터링 환경을 제공해 드립니다.

◼ 지원 중인 대상 장비
➢ NVIDIA 계열의 GPU 서버
➢ x86 Linux, Windows, IBM Power Linux

◼ 지원중인 성능 항목
➢ GPU Usage(%)
➢ GPU Memory Usage(%)
➢ GPU Memory Used(MB)
➢ GPU Temperature
➢ GPU Power
➢ GPU information

1
GPU 모니터링 항목
GPU(%) 항목은 개별 GPU의 사용률 모니터링 기능을 제공합니다.
해당 항목을 통해 개별 GPU의 실시간 사용률 모니터링 및 누적데이터를 통한 추이분석이 가능합니다.

◼ GPU별 Usage(%)

[ 개별 GPU항목 ]

2
GPU 모니터링 항목
Memory(%) 항목은 개별 GPU의 Memory 사용률 모니터링 기능을 제공합니다.
해당 항목을 통해 개별 GPU의 실시간 Memory 사용률 모니터링 및 누적데이터를 통한 추이분석이 가능합니다.

◼ GPU별 Memory Usage(%)

[ 개별 GPU항목 ]

3
GPU 모니터링 항목
Memory Used(MB) 항목은 개별 GPU의 Memory Total, Used, Free Size에 대한 모니터링 기능을 제공합니다.
해당 항목을 통해 개별 GPU의 실시간 Memory 사용량 변화량에 대한 모니터링이 가능합니다.

◼ GPU별 Memory Used (MB)

[ 개별 GPU항목 ]
Memory Total(MB)

[ 개별 GPU항목 ]
Memory Used(MB)

Memory Free(MB) [ 개별 GPU항목 ]

4
GPU 모니터링 항목
Temperature 항목은 개별 GPU의 온도 정보 모니터링 기능을 제공합니다.
해당 항목을 통해 개별 GPU의 실시간 온도 변화량에 대한 모니터링이 가능합니다.

◼ GPU별 Temperature

[ 개별 GPU항목 ]

5
GPU 모니터링 항목
Power 항목은 개별 GPU의 Power 정보 모니터링 기능을 제공합니다.
해당 항목을 통해 개별 GPU의 실시간 Power 변화량에 대한 모니터링이 가능합니다.

◼ GPU별 Power

[ 개별 GPU항목 ]

6
GPU 모니터링 항목
information 항목은 개별 GPU의 information 정보를 제공합니다.
해당 항목을 통해 개별 GPU 들의 information 정보를 하나의 창을 통해 손쉽게 확인 및 비교가 가능합니다.

◼ GPU별 information

[ 개별 GPU항목에 대한 information ]

State The current performance state for the GPU. States range from P0 (maximum performance) to P12 (minimum performance).
Temperature Core GPU temperature. in degrees C.
GPUUsage(%) Percent of time over the past sample period during which one or more kernels was executing on the GPU.
MemUsage(%) Percent of time over the past sample period during which global (device) memory was being read or written.
MemUsed(MB) Total memory allocated by active contexts.
MemTotal(MB) Total installed GPU memory.
GRClocks Current frequency of graphics (shader) clock.
SMClocks Current frequency of SM (Streaming Multiprocessor) clock.
MemClocks Current frequency of memory clock.
VideoClocks Current frequency of video encoder/decoder clock.
AppGRClocks User specified frequency of graphics (shader) clock.
AppMemClocks User specified frequency of memory clock.
PowerMng A flag that indicates whether power management is enabled. Either "Supported" or "[Not Supported]".
PowerCurr The last measured power draw for the entire board, in watts. Only available if power management is supported.
PowerLimit The software power limit in watts. Set by software like nvidia-smi.
PowerEnforced The power management algorithm's power ceiling, in watts.
Serial This number matches the serial number physically printed on each board. It is a globally unique immutable alphanumeric value.
UUID This value is the globally unique immutable alphanumeric identifier of the GPU. It does not correspond to any physical label on the board.
PCIBusID PCI bus id as "domain:bus:device.function", in hex.

7
GPU 모니터링 개선사항(1)
onTune 에서는 사용자에게 다양하고 정확한 GPU 모니터링 환경을 제공하고자 지속적인 관심 및 노력을 기울이고 있으며,
내부적으로 현재 아래와 같은 내역을 개선하고 있는 중입니다.

◼ Multi 서버 대상 GPU 사용률 조회


➢ 현재 서버 개별적으로만 GPU 모니터링 항목 조회가 가능하여 여러 서버 대상으로 GPU 사용률 확인 시
번거로운 부분이 존재합니다.
➢ GPU Basic Table(가칭) 항목을 통해 여러 GPU 서버 대상으로 하나의 화면을 통해 GPU 사용률 확인 및 비교가
가능하도록 개선 예정입니다.

◼ 예시화면

ㆍHostname : GPU 서버명


ㆍTop : GPU를 가장 많이 사용하고 있는 프로세스명 (ex, GPU%, GPU ID, Process명)
ㆍGPU(%) : Total GPU의 평균 GPU 사용률
ㆍMemory(%) : Total GPU의 평균 Memory 사용률
ㆍTemperature : Total GPU의 평균 Temperature 사용량
ㆍPower : Total GPU의 평균 Power 사용량
ㆍGPU Count : GPU Total Count
8
GPU 모니터링 개선사항(2)
onTune 에서는 사용자에게 다양하고 정확한 GPU 모니터링 환경을 제공하고자 지속적인 관심 및 노력을 기울이고 있으며,
내부적으로 현재 아래와 같은 내역을 개선하고 있는 중입니다.

◼ 프로세스별 GPU 사용률


➢ 현재 개별 프로세스가 사용 중인 GPU 성능항목에 대해서는 제공되지 않습니다.
➢ 추후 개별 프로세스가 사용 중인 GPU 및 Memory 성능 항목에 대해서도 실시간 수집하여 사용자에게 제공할
예정이며, 해당 항목을 통해 기존 모니터링 환경보다 좀더 자세한 GPU 성능 모니터링 환경이 가능할 것으로
생각됩니다.

◼ 예시화면

GPU(%), Memory(MB) 항목 Tab으로 구분하여 표기

[ 개별 프로세스 항목 ]

ex) 프로세스명, GPU ID, PID, Command, StartTime

9
GPU 모니터링 개선사항(3)
onTune 에서는 사용자에게 다양하고 정확한 GPU 모니터링 환경을 제공하고자 지속적인 관심 및 노력을 기울이고 있으며,
내부적으로 현재 아래와 같은 내역을 개선하고 있는 중입니다.

◼ GPU 성능리포트
➢ 현재 GPU 성능항목에 대해서는 별도의 성능리포트 기능이 제공되지 않아 사용자가 직접 개별 서버마다
과거 데이터 조회하여 리포트를 작성해야 하는 어려움이 존재합니다.
➢ 추후 GPU 성능항목에 대해서도 기존 성능리포트 기능에 포함시켜 사용자가 원하는 기간별 성능리포트를 손쉽게
작성할 수 있도록 개선할 예정입니다.

◼ 예시화면

[ GPU 항목
추가 예정 ]

10
첨부

◼ 기상청 종합상황판(예)
➢ 기상청은 기상 예보를 위하여 슈퍼컴퓨터를 활용하고 있습니다.
➢ 슈퍼컴퓨터를 활용하기 위해서는 여러가지 모델링을 위한 데이터 분석이 필요한데 이 데이터 분석 요청을 스케쥴링
및 배포하는 대표적인 SW 가 IBM LSF 입니다.
➢ 온튠은 IBM 의 LSF 에서 주는 정보를 수집하여 종합상황판에서 활용할 수 있도록 구성이 되어 있습니다.
➢ 기상청은 GPU 는 없으며 CPU 만으로 구성되어 있습니다.

◼ 예시화면
기상청 LSF 연동을 통한 종합상황판(예시)
로그인 노드 성능 현황 (onTune agent를 통해서 수집된 CPU, Memory 성능 , 동시 접속자수, Load average값 표기 )
기상청 LSF 연동을 통한 종합상황판(예시)
기상청의 관리 기준인 가동율, 사용률, 공유 파일 시스템 사용률과 전체 노드 중 장애 노드수 현황
기상청 LSF 연동을 통한 종합상황판(예시)
처리 중인 Job이 수행 되는 노드 분포 현황
상단 – 슈퍼컴포터의 사용되는 개별 노드 정보 / 하단 – 각 개별노드 CPU 및 Memory 사용율 표시
(주) 팀스톤 서울시 송파구 충민로 52, B동 201호 (문정동, 가든파이브 웍스)
T. 02 2057 7393 F. 02 2057 7394 E . support@ontune.co.kr http://www.ontune.co.kr

You might also like