리소스 보드 살펴보기

이 문서는 와탭 모니터링 서비스 중 하나인 서버 모니터링의 리소스 보드 메뉴의 차트형 위젯에 대한 분석 방법을 소개합니다. 서버(Server)의 문제를 리소스 보드를 통해 어떻게 파악하고 분석하는지 살펴보겠습니다. 리소스 보드의 기능에 대한 개괄 소개는 다음 문서를 참조하세요.

서버 모니터링의 핵심은 프로세스입니다. 프로세스가 정상 동작 범위 내에 중단없이 운영될 수 있도록 모니터링을 통해 서버 현황을 빠르게 파악하고 각종 장애 상황에 대응할 수 있어야 합니다. 자원 사용량을 조회해 추론하는 것이 그 시작입니다. 와탭의 리소스 보드는 데이터 집약적인 화면에서 자원 사용량을 한눈에 확인할 수 있도록 CPU, Memory, Disk, Network 관련 연관 지표들로 구성된 시계열 차트 위젯을 제공합니다.

서버 상태 요약: Server, OS, Total Cores, Avg CPU, Avg Memory, Avg Disk, Server Status Map
시스템 운영 통계: CPU Resource Map
조기 경보 및 알림: CPU TOP5, Memory TOP5, Disk I/O TOP5, 프로세스 CPU TOP5, 프로세스 TOP5, 실시간 알림

서버 모니터링 핵심 지표

CPU: CPU의 성능 지표는 서버의 성능을 파악하는 가장 중요한 척도로 사용합니다. CPU의 사용률이 일정 이상을 넘어가면 서비스에 영향을 주기 시작합니다. 문제 상황이 발생한다면 하드웨어를 추가로 구매하거나 CPU를 사용하는 애플리케이션의 성능을 조정하는 등의 방법을 포함하여 CPU 사용량의 관리 목표치에 도달하기 위한 조치를 취할 수 있습니다.

노트
IT 관련 솔루션들은 서버의 성능에 따른 가격 체계를 가지는 경우가 많습니다. 대부분 CPU의 코어를 기준으로 가격을 책정하는 것도 같은 이유입니다.
Memory: 버퍼 및 캐시 메모리를 포함하여 메모리의 사용량을 확인합니다. 메모리의 사용량이 너무 빨리 소모되거나 지속적으로 사용량이 떨어지지 않는다면 메모리 사용량의 관리 목표치에 도달하기 위한 조치를 취할 수 있습니다.
Disc I/O: Disk I/O는 네트워크 드라이브를 사용하는 경우 꼭 확인해야 하는 모니터링 요소입니다. 디스크의 읽는 속도, 쓰기 속도, 대기열, 대기 시간의 비율 등을 모니터링합니다.
Network: 네트워크 지표는 네트워크 인터페이스의 입출력 트래픽 속도와 오류 패킷 등을 모니터링합니다.

서버 상태 요약

인포 패널

사용자는 리소스 보드의 상단 인포 패널을 통해 프로젝트에 등록된 전체 서버에 대한 요약 지표들을 쉽게 확인할 수 있습니다.

Server 위젯에서 전체 서버의 수와 장애가 있는 서버의 수를 조회할 수 있습니다. 버튼을 선택하면 서버 목록 메뉴로 이동합니다. 상태 컬럼에서 조치가 필요할 수 있는 위험(빨간색), 향후 문제 발생의 가능성을 미리 알리는 경고(주황색) 단계의 예외 상태와 보통(녹색), 비활성(회색) 상태를 아이콘과 색으로 쉽게 구분해 확인할 수 있습니다. 서버 목록에 대한 자세한 설명은 다음 문서를 참조하세요.

OS 위젯은 프로젝트 내 운영체제의 수, Total Cores는 전체 서버들 코어의 합, Avg CPU는 전체 서버들의 CPU 평균 사용량, Avg Memory는 전체 서버들의 메모리 평균 사용량, Avg Disk는 전체 서버 디스크 장치들의 평균 사용량을 나타냅니다.

또한 리소스 보드 중앙 메인 차트의 아이콘을 선택해 Server Status Map으로 이동하면 벌집 차트를 통해 프로젝트 내 서버의 상태를 한눈에 볼 수 있습니다. 벌집 차트 뷰는 서버 대수가 많을 경우 유용합니다. 개별 육각형 하나가 서버 에이전트 하나를 의미합니다. 문제가 발생한 서버는 색깔로 시각화하여 직관적인 파악이 가능합니다. 개별 육각형을 선택하면 해당 서버 에이전트의 서버 상세 페이지로 이동합니다.

벌집차트 ch

와탭 리소스 보드의 각 위젯을 활용해 전체 자원 사용량의 윤곽과 서버 상태를 쉽게 살필 수 있습니다.

시스템 운영 통계

프로세스 정상 동작을 확인하기 위해 가장 중요한 요소는 CPU 사용량입니다. CPU 지표가 시스템 부하 상황을 가장 빠르게 반영하기 때문입니다. 와탭은 전체 시스템 운영 상황을 한눈에 확인할 수 있도록 CPU 사용량을 분포도 차트로 제공합니다. 리소스 보드 중앙의 아이콘을 선택하면 CPU Resource Map 위젯 조회가 가능합니다. CPU Resource Map 위젯에서 프로젝트 내 전체 서버의 CPU 사용량 분포도를 확인할 수 있습니다. 셀 영역을 드래그해 해당 구간의 상세 정보를 조회해 보세요.

리소스 맵 리소스 보드

클라우드 IT 자산의 효율적인 운영을 위해 자원의 과다와 과소 상태를 모두 피하고 사용량을 적절하게 조절하는 것이 필요합니다. 다음의 예시 화면은 운영 최적화를 위해 자원 사용량 기준을 50% 전후로 삼아 비용 및 성능 효율의 균형을 추구하고 있습니다. 예시와 같은 경우 사용량 급증 시 50%의 성능 마진으로 일시적인 장애를 회피할 수 있습니다.

40% 언더 리소스맵

과다 투입은 서비스에 비해 시스템이 과하게 설치되어 인프라 비용이 필요 이상으로 지출되고 있는 상태입니다. 시스템 안정성이 보장되기에 사용자가 피크 상황에서 받는 영향이 크지 않습니다. 그래서 모니터링에 투자하는 시간을 줄이기 위해 사용량의 평균값을 낮추는 과다 투입 경향을 보이는 경우가 있습니다. 하지만 과다 투입으로 가는 경향이 커질 수록 비용이 증가하기에 빠른 상태 파악이 중요합니다. 과소 투입은 시스템 변경 등으로 인한 부하 증가 때문에 시스템 사용량이 관리 범위를 벗어난 경우로 서비스의 품질 악화 및 사용 편의성 저하를 야기합니다. 사용자의 서비스 이탈로 이어지기 전에 적절한 조치가 필요합니다.

와탭의 CPU Resource Map은 과다 투입과 과소 투입 상황을 쉽게 파악하고 확인할 수 있습니다. 맵의 하단은 대체로 과다 투입 경향을 보이고, 상단은 과소 투입 경향을 보입니다.

리소스맵예시 cht

예시 화면 CPU Resource Map 하단의 영역을 드래그해 상세 정보를 조회 시 서버당 CPU 사용률 그래프에서 다음과 같이 과다 투입 경향을 확인할 수 있습니다.

과대 투입

이는 높은 경향성을 제시한 것으로 하단에서 조회되는 서버가 모두 과다 투입 상태인 것은 아닙니다. 주기적인 피크 부하가 있는 서버의 경우 차트 해석에 주의해야 합니다.

CPU Resource Map 상단의 영역을 드래그해 상세 정보를 조회 시 서버당 CPU 사용률 그래프에서 과소 투입 경향을 확인할 수 있습니다. 다음의 상세 정보 예시는 전형적인 CPU 부족 즉 Starvation 상태 화면으로 해당 서버는 피크와 해소가 반복되는 요주의 서버입니다.

starvation cht

IT 자원은 끊임없는 효율과 개선의 대상으로 지속적인 검토가 필요합니다. 와탭의 서버 모니터링은 비정상 상황을 빠르게 확인하고 프로세스를 바로 조회할 수 있도록 엔지니어의 노하우를 시각화에 반영했습니다. CPU Resource Map을 활용해 자원 과다 및 과소 상태를 쉽게 파악하는 것과 더불어 다음에 설명할 자원 사용량 상위 5개 목록 위젯으로 핵심 프로세스를 한눈에 확인할 수 있습니다. 여러가지 사전 설정을 요구하는 불필요한 차트 구성을 줄이고 데이터 집약적인 와탭의 대시보드를 통해 과대와 과소 투입 상태 및 핵심 프로세스를 빠르게 조회해 보세요.

조기 경보 및 알림

와탭의 리소스 보드는 자원 사용량이 가장 높은 서버와 프로세스 상위 5개 목록 차트를 제공합니다. 사용자가 문제 소지가 있는 서버를 파악할 수 있도록 돕는 조기 경보 관점의 위젯으로 각각 우측과 하단에서 확인할 수 있습니다.

자원 사용량이 높으면 문제 상황이 반드시 발생합니다. 와탭은 Top 5 목록 차트를 통해 서버 모니터링의 핵심 지표인 CPU, Memory, Disk I/O, Network 등의 자원 사용량이 높은 요주의 대상 서버와 CPU, Memory 사용량이 높은 프로세스를 한눈에 조회하고 이슈를 조기에 해결할 수 있도록 돕습니다.

더 큰 문제 상황이 발생하기 전에 와탭의 리소스 보드를 통해 시스템의 주요 이슈를 탐지한 사례를 하나 소개하겠습니다. 다음 예시 화면의 Disk I/O Top 5 위젯을 보면 가용량 대비 Disk I/O가 높은 장비의 현황을 파악할 수 있습니다.

예시의 현황 정보를 기반으로 동일 장비에서 발생한 장애 이력을 검토한 결과, 속도 저하 현상과 인덱스 파일 손상 등의 이상 상황이 발생한 것을 확인할 수 있었습니다. 이에 SSD를 도입하고 대용량으로 도입하기 어려운 부분은 NAS 스냅샷 백업을 활용하는 조치를 취해 Disk I/O 이슈를 해결했습니다.

disk 사양 변경 cht

최근 이벤트 추이를 확인할 수 있는 실시간 알림은 리소스 보드 상단의 고정 메뉴에서 버튼을 선택해 확인할 수 있습니다. 와탭은 독자적인 알림 임계치 기본 설정을 제공합니다. 에이전트를 설치하고 데이터가 수집되면 사전 설정 없이도 그때부터 알림을 확인할 수 있습니다. 예를 들어 Disk I/O(%) 지표는 5초 동안의 디스크 사용률을 보여줍니다. Disk I/O(%)가 80%를 넘으면 시스템 성능에 영향을 줄 수 있고 100%라면 디스크가 쉬지 않고 일하고 있다는 의미입니다. 와탭 서버 모니터링에서 기본으로 설정된 Disk I/O(%)의 경고 값은 90%입니다. 다시 말해 90%가 넘으면 사용자가 임계치 세부 설정을 하지 않았더라도 바로 알림이 발생합니다.

실시간 알림 cht2

와탭만의 기본 알림 설정은 사용자가 복잡한 추가 과정 없이도 에이전트 설치와 동시에 빠르게 모니터링을 시작할 수 있도록 합니다. 와탭 서버 모니터링의 특장점인 효율성과 사용자 편의성을 반영한 것입니다. 간편하게 설정할 수 있는 프로세스 알림 등 서버 모니터링 알림 설정에 대한 자세한 내용은 다음 문서를 참조하세요.

리소스 보드는 전체 서버의 현황 정보를 요약하여 간결하고 이슈 위주로 볼 수 있는 효율적인 대시보드입니다. CPU 이슈가 존재하는 서버의 대수 및 추이를 동시에 감지하기 위한 메인 차트(CPU Resource Map)와 OS 모니터링의 핵심 지표별 Top 5 목록을 통해 이슈 발생 가능성이 높은 대상 자원을 노출 시키며 서버에서 발생한 알림 내역을 최신 순으로 표시합니다. 와탭의 직관적이고 간결한 대시보드 구성은 대규모 시스템을 모니터링 해야 하는 경우 더욱 유용합니다.

노트

대시보드 추가 활용

자원별 Top 5 위젯에서 버튼을 선택하면 리소스 이퀄라이저 메뉴로 이동해 전체 서버에 대한 실시간 사용량을 볼 수 있습니다.
서버 단위의 상세 정보는 위젯 내 해당 차트 영역을 선택해 이동하는 서버 상세 메뉴에서 확인 가능합니다.
서버 자원 소모 패턴을 조회하거나 부하 설계와 비교하고자 한다면 분석 > 메트릭 차트 메뉴를 활용하세요.

서버 모니터링 핵심 지표​

서버 상태 요약​

시스템 운영 통계​

조기 경보 및 알림​

서버 모니터링 핵심 지표

서버 상태 요약

시스템 운영 통계

조기 경보 및 알림