끝없는 도전과 변화로 미래를 선도하는 조직, 빠르고 편리함을 제공하는 조직
Web UI 기반의 MLOps 도구 AI Pub을 소개합니다.
AI Pub은 컨테이너 플랫폼 COASTER를 바탕으로 AI 개발, 학습을 위한 GPU인프라 리소스 관리를 지원하는 툴입니다.
다양한 사람들이 모여 이야기를 나누는 Pub처럼 개발자, 비개발자 모두 사용할 수 있는 접근성 높은 서비스를 지원합니다.
여러분의 MLOps 라이프 사이클이 가치를 생산할 수 있도록 돕습니다.
효율적인 AI 개발과 운영 프로세스 경험을 전달합니다.
한정된 AI 인프라를 여러 AI 개발자들이 작업에 맞게 할당 받은 GPU 인프라 리소스를 사용할 수 있어 효율적이죠.
관리자는 AI Pub Dev를 활용해 다양한 인프라 패턴에 맞춰 GPU 인프라 리소스를 관리할 수 있습니다.
AI Pub Dev는 COASTER를 코어로 하여 모델 학습, 리소스 및 워크로 등에 관한 완전 관리형 서비스를 제공합니다.
주요 서비스 | 서비스 상세 |
---|---|
워크로드 생성 |
|
모델 학습 |
|
리소스 관리 |
|
워크로드 관리 |
|
사용내역 관리 |
|
COASTER의 GPU 100분할 기능을 바탕으로 하여, AI Pub Ops에서 GPU 블록을 다양한 AI 서비스에 필요한 만큼 할당하여 운영할 수 있죠.
또한 개발자가 아니더라도 AI 서비스를 생성하고 운영할 수 있도록 친숙하고 편리한 Web UI를 제공하고 있습니다.
AI Pub Ops는 COASTER를 코어로 하여 서비스 생성 및 관리, 리소스 등에 관한 완전 관리형 서비스를 제공합니다.
주요 서비스 | 서비스 상세 |
---|---|
서비스 생성 및 업데이트 |
|
서비스 모니터링 |
|
리소스 그룹 관리 |
|
리소스 관리 |
|
사용내역 관리 |
|
Coaster는 GPU 1개의 Utilization과 Memory를 100개의 블록으로 분할합니다. 블록을 단위로 해서 분할한 GPU에 컨테이너를 다중으로 띄울 수 있죠.
컨테이너 간 리소스 침해를 막고, 다수의 프로세스를 동시 작업할 수 있어서 안정성에 도움이 됩니다.
주요 서비스 | 서비스 상세 |
---|---|
GPU 자원의 분할 사용 | GPU 1개의 Utilization과 Memory를 100개 블록으로 나누어 활용 |
GPU 자원의 조회와 할당 | Kubernetes의 확장 명령어로 클러스터 전체의 컴퓨팅 자원 조회 |
User 권한 관리 - Group | 리소스 접근 권한을 사용자 그룹단위로 설정 및 관리 |
스케줄러 대기열 관리 | 작업 대기열 상의 우선 순위 변경 |
TEN의 유튜브 채널에서 AI Pub의 기능을 DEMO 영상으로 만나 보실 수 있습니다.