[ kt cloud AI플랫폼팀 최지우 님 ]
kt cloud의 AI 서비스가 2025년 상반기에 더욱 강력한 기능을 추가하며 한 단계 발전합니다.
AI 모델 서빙과 학습 과정에서의 효율성과 안정성을 높이기 위한 다양한 업데이트가 포함되었는데요. 이번 업데이트를 통해 AI 개발과 운영이 더욱 간편해질 것입니다. 주요 변경 사항을 살펴보겠습니다.
1. AI SERV 모델 서비스 컨테이너 오토스케일링 지원
AI SERV는 AI 모델을 배포하고 운영하는 과정에서 중요한 역할을 합니다. 이번 상반기 업데이트에서는 AI 모델 서빙의 확장성과 안정성을 높이기 위해 여러 기능이 추가되었으며, 이를 통해 사용자는 더욱 효율적인 AI 서비스를 구축하고 운영할 수 있습니다. 첫 번째로, 오토스케일링 기능을 소개합니다.
기존에는 AI 모델 서비스 운영 시 트래픽이 급증하면 수동으로 컨테이너를 확장해야 했습니다. 이는 운영자의 지속적인 모니터링과 관리가 필요하다는 점에서 번거로움을 초래했으며, 예측하지 못한 트래픽 증가로 인해 서비스 성능이 저하될 위험도 있었습니다. 하지만 이번 업데이트에서는 오토스케일링 기능이 도입되면서 이러한 문제를 효과적으로 해결할 수 있게 되었습니다.
모델 서비스 오토스케일링이란?
모델 서비스 오토스케일링은 CPU, 메모리, GPU 사용률 등의 리소스 메트릭을 실시간으로 모니터링하여 자동으로 컨테이너 개수를 조절하는 기능입니다. 이를 통해 사용자는 트래픽 변화에 맞춰 자동으로 컨테이너를 확장하거나 축소할 수 있으며, 성능 최적화와 비용 절감을 동시에 달성할 수 있습니다.
특히 AI 서비스에서는 GPU 리소스가 핵심 자원인데요, GPU는 고가의 연산 자원이므로 사용량을 최적화하지 않으면 불필요한 비용이 발생할 수 있습니다. 컨테이너 오토스케일링 기능을 활용하면 GPU 사용량을 실시간으로 모니터링하고, 부하가 걸릴 때만 GPU 컨테이너를 추가로 확장할 수 있습니다.
오토스케일링이 중요한 이유
- 운영 부담 감소 – 운영자가 직접 리소스를 조정할 필요 없이, 트래픽에 따라 시스템이 자동으로 대응
- 비용 절감 – 필요할 때만 리소스를 확장하고, 사용량이 줄어들면 자동으로 축소하여 불필요한 비용 발생 방지
- 성능 유지 – 트래픽 급증 시에도 빠르게 확장하여 서비스 지연이나 과부하 방지
이번 AI SERV 오토스케일링 기능 도입으로 모델 서비스의 안정성, 확장성, 비용 효율성이 한층 강화되었습니다. AI 서비스를 운영하는 기업과 개발자들은 이제 보다 손쉽고 효율적으로 AI 모델을 배포하고 관리할 수 있으며, 예상치 못한 트래픽 변화에도 유연하게 대응할 수 있는 환경을 확보할 수 있습니다.
2. Model Repository: Open AI 모델 배포 간소화
AI 모델을 배포하는 과정은 많은 개발자들에게 반복적이고 번거로운 작업이었습니다. 기존 방식에서는 사용자가 오픈소스 모델을 활용하려면 외부에서 직접 모델을 다운로드한 후, 특정 폴더에 저장하고, 이를 불러오기 위한 경로를 지정하는 작업이 필요했습니다. 또한, 배포를 위해 model-definition.yaml 같은 모델 정의 파일을 별도로 작성해야 했기 때문에, 모델 배포 과정이 다소 복잡하고 시간이 걸릴 수밖에 없었습니다.
이러한 불편함을 해소하기 위해, 이번 업데이트에서는 AI SERV에 ‘모델 레포지토리’ 기능이 추가되었습니다. 이 기능은 사용자가 직접 모델을 업로드하는 방식이 아니라, 널리 사용되는 오픈소스 모델을 공용 저장소에서 제공하는 방식입니다. 즉, 사용자는 외부에서 모델을 다운로드할 필요 없이, 공용 저장소에 이미 저장된 모델을 선택해 내 폴더로 Import하여 바로 배포할 수 있습니다.
또한, 모델을 배포하기 위해 별도의 모델 정의 파일을 작성할 필요 없이, 미리 설정된 환경에서 자동으로 모델을 실행할 수 있도록 지원합니다. 이를 통해 YAML 파일 작성, 모델 파일 경로 지정 등의 번거로운 작업을 최소화할 수 있으며, 보다 빠르고 간편하게 AI 모델을 배포할 수 있습니다.
모델을 Import하면 사용자의 전용 모델 폴더에 생성되기 때문에, 모델이나 서비스 코드를 자유롭게 조정할 수 있습니다. 사용자는 가져온 모델을 그대로 사용할 수도 있지만, 필요에 따라 코드를 수정하거나 최적화하여 자신만의 커스터마이징된 AI 서비스를 구축할 수 있습니다.
뿐만 아니라, YAML 스펙 없이 이미지 CMD 실행을 지원하는 기능도 함께 추가되었습니다. 기존에는 AI 모델을 배포할 때 YAML 파일을 작성해야 했지만, 이번 업데이트를 통해 이미지에 설정된 CMD를 자동으로 읽어 실행하는 방식이 지원됩니다. 즉, 사용자는 YAML 설정 없이도 간편하게 모델을 실행하고 배포할 수 있어, 접근성이 더욱 향상되었습니다.
이번 업데이트를 통해, 복잡한 설정 과정 없이도 공용 저장소의 오픈소스 모델을 바로 배포하고 실행할 수 있는 환경이 마련되었습니다. 이를 통해 AI 모델 배포가 한층 더 쉬워지고, 빠른 실험과 서비스 운영이 가능해질 것으로 기대됩니다.
3. 자동 Failover 기능 추가
AI 모델 서비스의 연속성을 유지하는 것은 매우 중요한 요소입니다. 특히, AI 서비스가 실시간으로 동작해야 하는 환경에서는 시스템 장애가 발생할 경우, 서비스 중단으로 인해 심각한 피해가 발생할 수 있습니다. 예를 들어, AI 기반 챗봇, 음성 인식 서비스, 금융 데이터 분석 시스템 등에서는 단 몇 초간의 서비스 중단도 사용자 경험과 운영 안정성에 큰 영향을 미칠 수 있습니다.
이러한 문제를 해결하기 위해 이번 업데이트에서는 노드 장애 발생 시 자동으로 다른 노드로 전환되는 '자동 Failover' 기능이 도입되었습니다. 이 기능은 AI 모델 서비스가 실행 중인 노드에서 장애가 감지될 경우, 동일한 서비스를 다른 정상 노드로 자동 이전하여 운영을 지속할 수 있도록 지원합니다.
이번 업데이트를 통해, 개발자와 운영자는 서비스 연속성에 대한 부담을 덜고, 장애 발생 시에도 안정적인 AI 서비스 운영을 보장할 수 있게 되었습니다.
4. AI SERV NPU 컨테이너 이미지 사용 개선
기존에는 AI SERV NPU(Rebellions ATOM) 이미지를 실행할 때, 사용자가 컨테이너 내부에서 직접 SDK를 설치해야 하는 번거로운 과정이 필요했습니다.
이번 업데이트에서는 이러한 불편을 해소하기 위해, NPU용 이미지에 SDK가 사전 설치된 상태로 제공됩니다. 이를 통해 개발자는 별도의 설치 과정 없이 즉시 NPU 가속 기능을 활용할 수 있으며, 설정 시간을 대폭 단축할 수 있습니다. 특히, 새로운 개발 환경을 구성할 때마다 SDK를 개별적으로 설치할 필요가 없으므로, AI 서비스 개발과 배포의 효율성이 크게 향상됩니다.
또한, 이번 업데이트를 통해 NPU 이미지가 항상 최신 버전의 SDK를 포함하도록 유지 관리됩니다. 이를 통해 사용자는 최신 AI 프레임워크와 최적화된 환경에서 작업할 수 있으며, NPU의 성능을 최대한 활용할 수 있습니다. 최신 SDK가 자동으로 반영되기 때문에 호환성 문제를 최소화하고, AI 모델의 추론 성능과 연산 효율성을 극대화할 수 있습니다.
이러한 개선을 통해 개발자는 보다 안정적이고 빠르게 AI 서비스를 구축할 수 있으며, NPU 환경에서도 최적의 성능을 유지할 수 있는 기반이 마련되었습니다. 개발자들은 복잡한 환경 설정에 소요되는 시간을 줄이고, AI 모델 개발과 최적화에 집중할 수 있게 되었습니다.
5. AI Train Pipeline: AI 워크플로우 자동화
AI 모델 학습 과정은 데이터 수집 및 전처리, 모델 학습, 평가, 하이퍼파라미터 튜닝, 배포 등의 여러 단계로 이루어집니다. 기존에는 이러한 과정이 개별적으로 실행되었기 때문에 학습 프로세스를 체계적으로 운영하기 어렵고, 각 단계마다 수동 작업이 필요해 비효율적인 경우가 많았습니다.
이번 AI Train 업데이트에서는 이러한 과정을 보다 체계적으로 자동화할 수 있도록 ‘파이프라인(Pipeline) 기능’이 새롭게 추가되었습니다. 이를 통해 AI 개발자는 복잡한 워크플로우를 효율적으로 관리하며, 시간과 리소스를 절약할 수 있습니다.
Pipeline 기능이란?
Pipeline 기능은 AI 모델 학습의 각 단계를 논리적으로 연결하여, 전체 프로세스를 자동화하는 워크플로우 관리 시스템입니다. 이를 활용하면 데이터 수집부터 학습, 검증, 배포까지의 과정을 하나의 자동화된 프로세스로 구성할 수 있으며, 특정 단계에서 오류가 발생해도 손쉽게 재시작할 수 있습니다.
Pipeline 기능의 주요 이점
- AI 개발 프로세스 자동화 – 데이터 전처리부터 모델 학습, 평가, 배포까지의 모든 과정을 자동으로 실행
- 시간 및 리소스 절감 – 반복적인 수작업을 최소화하여 개발 및 운영 비용 절감
- 워크플로우 시각화 및 모니터링 – 각 단계의 진행 상태를 직관적으로 확인할 수 있어 디버깅 및 최적화 용이
- 재사용 가능한 AI 학습 프로세스 – 한 번 정의한 Pipeline을 다양한 프로젝트에서 반복적으로 활용 가능
Pipeline 기능 동작 방식
Pipeline 기능은 AI 학습 과정의 주요 단계를 연결하여 순차적으로 실행되도록 구성됩니다.
각 단계는 개별적으로 실행될 수도 있으며, 특정 단계에서 오류가 발생하면 해당 단계만 다시 실행하여 학습 시간을 절약할 수 있습니다.
마무리
2025년 상반기 kt cloud AI 서비스 업데이트를 통해 AI 모델의 서빙과 학습 과정이 더욱 원활해질 것으로 기대됩니다. 모델 서비스 오토스케일링, 모델 레포지토리, YAML 없이 모델 실행, 자동 Failover, 그리고 AI Train의 파이프라인 기능까지, 이번 업데이트는 AI 개발자들에게 더 많은 유연성과 안정성을 제공할 것입니다.
“AI, Effortless for All Users”
전문가부터 초급자까지 쉽고 편하게!
앞으로도 지속적으로 발전할 kt cloud AI 서비스에 많은 관심과 기대 부탁드립니다!
'kt cloud Story > Service Updates' 카테고리의 다른 글
K-클라우드의 심장, ‘고성능, 저전력’ 국산 AI반도체 기반 AI Cloud Farm 구축 완료 ( w. NIPA 정보통신산업진흥원) (0) | 2023.11.30 |
---|