PRODUCT

끝없는 도전과 변화로 미래를 선도하는 조직, 빠르고 편리함을 제공하는 조직

AI/HPC Solution

 

Web UI 기반의 MLOps 도구 AI Pub을 소개합니다.

AI Pub은 컨테이너 플랫폼 COASTER를 바탕으로 AI 개발, 학습을 위한 GPU인프라 리소스 관리를 지원하는 툴입니다.
다양한 사람들이 모여 이야기를 나누는 Pub처럼 개발자, 비개발자 모두 사용할 수 있는 접근성 높은 서비스를 지원합니다.

INFRASTRUCTURE

CoasterAI Pub Dev, AI Pub Ops

여러분의 MLOps 라이프 사이클이 가치를 생산할 수 있도록 돕습니다.
효율적인 AI 개발과 운영 프로세스 경험을 전달합니다.

  • AI Pub DEV
  • AI Pub Ops
  • Coaster

AI Pub Dev는 개발, 학습을 위한 리소스 관리 도구입니다.

한정된 AI 인프라를 여러 AI 개발자들이 작업에 맞게 할당 받은 GPU 인프라 리소스를 사용할 수 있어 효율적이죠.
관리자는 AI Pub Dev를 활용해 다양한 인프라 패턴에 맞춰 GPU 인프라 리소스를 관리할 수 있습니다.

Training result - NAS

AI Pub Dev를 경험해보세요

AI Pub Dev는 COASTER를 코어로 하여 모델 학습, 리소스 및 워크로 등에 관한 완전 관리형 서비스를 제공합니다.

AI Pub Dev를 경험해보세요
주요 서비스 서비스 상세
워크로드 생성
  • 사용자의 개발 환경을 이미지의 형태로 관리
  • 개발 이미지 기반 워크스페이스 생성
  • 주피터노트북 및 텐서보드 연동
모델 학습
  • AI 학습 별로 필요한 자원을 자동으로 할당하여 작업 수행
  • GPU 리소스와 CPU 리소스 신청 가능
리소스 관리
  • 사용자 계정 별 리소스 사용 제한 설정
  • 유휴 리소스 회수
  • 노드 별 워크스페이스 관리
  • 노드 별 MIG 설정
  • 전체 인프라 모니터링
워크로드 관리
  • 스케줄러 멈춤/재개 기능
  • 대기열 관리 및 우선순위 조절 기능
사용내역 관리
  • 사용자 계정별 리소스 사용 내역 관리
  • 사용 내역 다운로드 기능

AI Pub Ops는 여러분의 AI 서비스를 더 효율적으로 운영할 수 있도록 도와줍니다.

COASTER의 GPU 100분할 기능을 바탕으로 하여, AI Pub Ops에서 GPU 블록을 다양한 AI 서비스에 필요한 만큼 할당하여 운영할 수 있죠.
또한 개발자가 아니더라도 AI 서비스를 생성하고 운영할 수 있도록 친숙하고 편리한 Web UI를 제공하고 있습니다.

100분할

AI Pub Ops를 경험해 보세요

AI Pub Ops는 COASTER를 코어로 하여 서비스 생성 및 관리, 리소스 등에 관한 완전 관리형 서비스를 제공합니다.

AI Pub Dev를 경험해보세요
주요 서비스 서비스 상세
서비스 생성 및 업데이트
  • UI를 통한 서비스 생성 / 중지 / 삭제 및 배포 가능
  • UI를 통한 무중단 서비스 업데이트
  • 버전 관리 및 서비스 롤백 기능
서비스 모니터링
  • 서비스 목록과 서비스 상세를 통한 운영 상태 모니터링
  • 서비스 장애 시 알림 및 로그 확인을 통한 트러블 슈팅
리소스 그룹 관리
  • 관리자가 리소스 그룹을 생성 및 사용자 권한 설정 기능
  • 리소스 그룹 편집 기능
리소스 관리
  • 서비스 별 GPU 블록 단위 할당 가능
  • GPU 블록 및 서버의 실시간 가동률 모니터링
사용내역 관리
  • 사용자 계정별 리소스 사용 내역 관리
  • 사용 내역 다운로드 기능

Coaster로 GPU 자원을 분할합니다

Coaster는 GPU 1개의 Utilization과 Memory를 100개의 블록으로 분할합니다. 블록을 단위로 해서 분할한 GPU에 컨테이너를 다중으로 띄울 수 있죠.
컨테이너 간 리소스 침해를 막고, 다수의 프로세스를 동시 작업할 수 있어서 안정성에 도움이 됩니다.

100분할

컨테이너 플랫폼 Coaster의 운영 관리 기능을 경험해 보세요.

AI Pub Dev를 경험해보세요
주요 서비스 서비스 상세
GPU 자원의 분할 사용 GPU 1개의 Utilization과 Memory를 100개 블록으로 나누어 활용
GPU 자원의 조회와 할당 Kubernetes의 확장 명령어로 클러스터 전체의 컴퓨팅 자원 조회
User 권한 관리 - Group 리소스 접근 권한을 사용자 그룹단위로 설정 및 관리
스케줄러 대기열 관리 작업 대기열 상의 우선 순위 변경

AI Pub의 기능을 영상으로 확인해 보세요.

TEN의 유튜브 채널에서 AI Pub의 기능을 DEMO 영상으로 만나 보실 수 있습니다.

 

AI Pub에 대해 더 자세히 알고 싶으신가요?

arrow_upward
close