NPU - Dudaji Tech Blog

K8s 위에서 만난 NPU: NuFi로 풀어낸 이기종 디바이스 확장성

1. 도입: 공식 지원을 넘어선 진정한 인프라 확장성 K8s 위에서 만난 NPU: NuFi로 풀어낸 Furiosa RNGD 통합과 성능 검증1. 도입: AI 하드웨어 관리의 복잡성을 풀다

1. 도입: AI 하드웨어 관리의 복잡성을 풀다 LLM(대규모 언어 모델) 서비스가 고도화되면서, 막대한 GPU 도입 비용과 전력 소모를 해결하기 위해 NPU(신경망 처리 장치)

들어가며 최근 AI 산업은 초거대 모델의 등장으로 인해 연산 자원 확보가 곧 경쟁력이 되는 시대에 진입했습니다. 그러나 NVIDIA GPU 중심의 서버향 연산 자원 독점은 공급망

K8s Device Plugin 연동부터 Custom CRD(NpuDeploy) 개발, Istio 네트워크 구성, 그리고 vLLM을 활용한 고성능 추론 서비스 구축까지의 엔지니어링 경험을 공유합니다. 들어가며 LLM 서비스를 운영하다

Furiosa NPU에 LLM 모델을 포팅하고, LlamaIndex와 LangChain 기반 RAG 시스템을 구축한 과정을 공유드립니다. 들어가며 최근 LLM(Large Language Model) 서비스가 급격히 확산되면서, GPU 자원의 수급