Kubernetes 기반 NPU 서빙 플랫폼 구축
K8s Device Plugin 연동부터 Custom CRD(NpuDeploy) 개발, Istio 네트워크 구성, 그리고 vLLM을 활용한 고성능 추론 서비스 구축까지의 엔지니어링 경험을 공유합니다. 들어가며 LLM 서비스를 운영하다
K8s Device Plugin 연동부터 Custom CRD(NpuDeploy) 개발, Istio 네트워크 구성, 그리고 vLLM을 활용한 고성능 추론 서비스 구축까지의 엔지니어링 경험을 공유합니다. 들어가며 LLM 서비스를 운영하다
Furiosa NPU에 LLM 모델을 포팅하고, LlamaIndex와 LangChain 기반 RAG 시스템을 구축한 과정을 공유드립니다. 들어가며 최근 LLM(Large Language Model) 서비스가 급격히 확산되면서, GPU 자원의 수급
TL;DR ssh -L [로컬포트]:[접속대상주소(원격서버기준)] [사용자명]@[호스트주소] ssh -L 8080:127.0.0.1:80 root@172.17.0.11 ssh 포트 포워드란
MongoDB의 특징과 사용 방법에 대해 기본적인 내용들을 정리해보았다. * MongoDB 특징 * NoSQL 데이터베이스 * 스키마 x * 느슨한 ACID * 수평 확장 가능(Scale out) → 주로 분산 아키텍처 위주
단순한 채팅 상호작용뿐만 아니라 내용 요약, 번역 등 다방면으로 활용 가능한 ChatGPT를 프로그램에서 사용할 수 있도록 OpenAI에서 제공하는 GPT API를 사용하기 위한 조건과 사용방법에 대해
클러스터,클라우드 운영에 있어서 가장 중요한 것 중 하나는 가용자원 모니터링이 아닐까 생각합니다. 쿠버네티스 클러스터 내의 CPU,Memory의 사용량은 kubectl descirbe 명령어와 kubectl top 명령어를
서비스를 개발하면서 API-Gateway에 토큰 캐시를 구축하기 위해 RabbitMQ를 공부했던 내용을 정리해 보았습니다. RabbitMQ는 AMQP를 따르는 오픈소스 메세지 브로커인데, 메세지를 많은 사용자에게 전달하거나, 요청에 대한 처리
좋은 점 1. 필요한 만큼만 gpu를 사용하기 쉽다. 2. 장비를 구입하지 않아도 필요한 만큼만 사용할 수 있음. 2019년 5월 기준 V100 가격: $10,000 이상
기본 정보 https://github.com/NVIDIA/tensorrt-inference-server r19.12 branch Installing the Server # sudo apt install software-properties-common autoconf \\\\ # automake build-essential cmake git libgoogle-glog0v5 libre2-dev \\\\ # libssl-dev
On Kubernetes helm chart 중에 elastic stack 이 있어서 한번 설치해 본 적이 있습니다. 설치 후 kibana에서 모든 Container 로그들을 볼 수 있었습니다. namespace, label,
AWS 를 사용했던 프로젝트가 있었습니다. dev, stage, production 세 단계로 구분해서 resource를 생성했었습니다. 처음에 컨설팅 나온 업체에서는 Browser를 켜고 AWS에 접속해서 vpc 및 ec2 등
안녕하세요. Jeff 입니다. 이번에는 클라우드 플랫폼 중 잘 알려진 GCP(Google Cloud Platfrom) 에서 제공하는 GKE(Google Kubernetes Engine) 를 사용하여 컨테이너 웹 애플리케이션을 배포하는