XAIOps | AI 지능형 IT 운영 관리 솔루션

XAIOps

AI 기반 지능형 IT 운영 관리 솔루션

XAIOps는 기업의 다양한 IT 인프라 환경, 즉 애플리케이션 / 데이터베이스 / 서버 / 네트워크 / 비정형 로그 등에 대한
데이터 수집 및 학습을 통하여 운영 중인 시스템의 실시간 부하 특성과 이상 패턴을 탐지하고, 미래 장애 상황을
예측함으로써 IT 운영의 선제적 대응을 지원하는 인공지능 기반의 IT 운영 지능화 솔루션입니다.

XAIOps
XAIOps 소개 자료
  • 시계열 성능 데이터에 최적화된
    딥러닝 기반 솔루션

  • 지능형 미래 예측으로
    선제적 장애 대응

  • 다양한 IT 자원에 대한
    통합 장애 원인 분석

  • 대형 금융 / 제조 / 유통사에서
    검증된 솔루션

특장점

XAIOps는 실시간으로 데이터를 수집하고 패턴을 학습하는 머신러닝 / 딥러닝 방식으로 설계되어
보다 정확한 이상 징후 탐지, 부하 예측, 근본 원인 분석, 능동적인 알림 제공 등 지능형 IT 운영을 보장합니다.

  • 지능형 통합 운영 관리
    최신 AI 학습 모델을 적용한
    탐지 / 예측 / 분석
  • 대량의 데이터 수집 및 학습
    실시간 데이터 수집 및 정교화를 통한 AI 모델과의 유연한 연결성 제공
  • 이상 징후 탐지
    과거 데이터 학습을 통한
    정형 / 비정형 데이터의 실시간 이상 탐지
  • 부하 예측
    딥러닝 기반의 학습 모델을 적용하여
    미래 상황에 대한 정확도 높은 예측 가능
  • 이벤트 / 장애 예측
    미래 특정 시점의 장애를
    사전 예측하여 선제적 대응 가능
  • 인과 / 상관 관계 분석
    이상 탐지 상황에 대한
    유사 패턴이나 연관 관계 분석
  • 근본 원인 분석
    장애의 근본 원인에 대한 신속한
    Root-cause 제공
  • 지능형 알람
    AI 학습을 통해 동적 부하 상황에
    맞는 Smart Alert 제공

모니터링 뷰

Integrated Monitoring

Integrated Monitoring

전체 운영 IT 시스템 환경에 대해 애플리케이션 서비스 관점, WAS / DB 등
인스턴스 관점, 서버 / 네트워크 등 인프라 관점에서 AI가 자동 진단하여
종합 상황판 형태로 실시간 통합 모니터링을 제공합니다.

Service / Instance View

Service / Instance View

AI 이상 탐지 모델 기준으로 각 시스템 영역별(Service / Instance) 이상 유무를 실시간 판단하고, 이상 판단 등급에 따른 알람을 제공하여 가시성 있는 실시간 모니터링을 제공합니다.

AI Monitoring

AI Monitoring

수집된 IT 운영 데이터를 기준으로 실시간 장애를 탐지합니다.
장애 발생 시 자동 추론 / 분석을 통하여 장애 근본 원인과 상세 연계 정보를 제공합니다.

Proactive Prediction

Proactive Prediction

과거 데이터 학습을 통하여 신뢰 구간(Base-line)을 생성하고, 실시간 관측치가 해당 범위를 벗어나는 경우 이상 징후로 탐지합니다.
미래 30분 ~ 1시간의 상황을 사전 예측하여 선제적 대응이 가능합니다.

Anomaly Detection

Log Anomaly Detection

다양한 유형의 비정형 로그 파일(Biz Log, Sys Log, Was Log 등)에 대한 학습을 통해 실시간 이상 로그 패턴을 탐지합니다. 로그 메시지 확인 및 연관 관계 분석이 가능합니다.

분석 뷰

Load Prediction

Load Prediction

단기 부하 예측은 향후 1주일 이내의 단기간 주요 성능 지표 예측을 위한 분석 기능입니다. 장기 부하 예측은 향후 1~12개월까지의 장기간 주요 성능 지표 예측을 분석하기 위한 기능으로, 주로 거래량, 시스템 자원 예상 사용량 등에 활용됩니다.

Performance Statistics

Performance Statistics

이상 탐지, 예측 모델의 주요 지표별 성능에 대해 원하는 분석 기간을 설정하여 분석하거나 과거 패턴 유형을 분석할 때 유용합니다. 운영 모델의 성능(정확도)을 파악하여 개선 활동의 기준으로 활용할 수 있습니다.

Instance Association

Instance Association

특정 서버의 인스턴스 장애 발생 시 어떤 지표에 의해서 유발되었는지, 해당 인스턴스 장애로 인하여 연관 호출에서 어떤 시스템들과 문제가 발생될 수 있을지를 상세 분석하여 장애 확대를 사전에 예방할 수 있습니다.

Service Analysis

Service Analysis

특정 애플리케이션의 서비스 장애 발생 시 장애에 영향을 미친 주요 성능 지표의 추이 분석과 성능 지연 구간 및 원인에 대한 추적 분석이 가능합니다.
서비스 간 호출 분석을 연동하여 상세한 연계 추적이 가능합니다.

Event Statistics

Event Statistics

최근 1주일간의 일자별 이벤트 발생 현황과 등급별 통계 현황 등을 확인할 수 있으며, 장애 발생일 기준 발생된 이벤트 유형을 상세히 분석할 수 있습니다.

아키텍처

도입 사례

  • 전력

    AI 기반 지능형
    통합 모니터링 체계 구축

    도입 배경

    기관 내 핵심 업무 시스템에 AI 기반 최신 기술 도입을 통하여 효율적이고 안정적인 시스템 운영 필요

    도입 효과

    • IT 장애 발생 시 신속한 장애 탐지와 예측으로 선제적 장애 대응 가능

    • AIOps 구축으로 장애 발생의 원인 분석이 5분 내로 단축되어 신속한 대응 체계 마련

    • 다양한 IT 운영 데이터 수집으로 통합적인 분석 및 데이터 활용 방안 수립

    • 기관 내 핵심 업무 시스템의 안정적인 운영과 선제적 대응으로 직원들의 서비스 만족도 향상

  • 은행

    AI 기반 지능형
    탐지 / 예측 시스템 구축

    도입 배경

    선제적 장애 대응을 위한 지능형 장애 예측 시스템 구축 필요

    도입 효과

    • 다양한 IT 운영 데이터의 수집 / 가공 / 분석 체계 구축으로 이상 탐지 및 예측 시스템 가능성 확인

    • 신속한 장애 탐지와 판단으로 선제적 장애 대응 시스템 구축

    • 종합적인 장애 원인 분석이 가능해짐에 따라 부서간 커뮤니케이션 일원화에 의한 의사소통 단축 및 명확화

    • 지능형 관제를 통하여 IT 운영 인력의 효율적인 재배치로 업무 집중도 향상

  • 은행

    지능형 ICT 통합 모니터링
    시스템 구축

    도입 배경

    전사 모니터링 데이터 통합을 통한 지능형 관제 시스템 구축 필요

    도입 효과

    • 다양한 IT 운영 데이터 수집을 통한 중앙집중형 성능 및 장애 분석 대응 체계 마련

    • ML / DL기반 최신 알고리즘을 적용한 장애 탐지 및 원인 분석의 정확도 향상으로 신속한 ICT 운영 관제 가능

    • 신속한 장애 탐지와 예측으로 선제적인 장애 대응 체계 마련

    • 개발 / 운영 부서 간 장애 원인 분석의 명확화와 의사소통 일원화

엑셈 솔루션으로 더 안정적인 IT 시스템을 운영하세요