Kubernetes 기반 NPU 서빙 플랫폼 구축
K8s Device Plugin 연동부터 Custom CRD(NpuDeploy) 개발, Istio 네트워크 구성, 그리고 vLLM을 활용한 고성능 추론 서비스 구축까지의 엔지니어링 경험을 공유합니다. 들어가며 LLM 서비스를 운영하다
K8s Device Plugin 연동부터 Custom CRD(NpuDeploy) 개발, Istio 네트워크 구성, 그리고 vLLM을 활용한 고성능 추론 서비스 구축까지의 엔지니어링 경험을 공유합니다. 들어가며 LLM 서비스를 운영하다
Furiosa NPU에 LLM 모델을 포팅하고, LlamaIndex와 LangChain 기반 RAG 시스템을 구축한 과정을 공유드립니다. 들어가며 최근 LLM(Large Language Model) 서비스가 급격히 확산되면서, GPU 자원의 수급