(실무 일지 2) 폐쇄망 LLM 배포 팁

폐쇄망 환경에서 로컬 LLM을 운영하며 정리한 실전 팁. 추론 속도, 컨텍스트 길이 산정, 다중 요청 처리 성능, MoE 모델 양자화 시 주의점 등을 다룹니다.

Posted May 3, 2026 Updated May 2, 2026

폐쇄망 LLM 배포 팁

By 이준범

8 min read

(실무 일지 2) 폐쇄망 LLM 배포 팁

이전 글: 폐쇄망 LLM 4개월간 배포 후기
이 글은 AI 활용 시리즈의 실무 일지 편 두 번째 글입니다.

이번 글에서는 제가 실제로 배포를 하면서 알게 된 on-premise 배포 시 알아두면 좋은 노하우에 대해 정리합니다.

추론 시 GPU 간 직접통신의 영향은?

멀티 GPU 환경에서 직접 통신¹ 지원 여부는 추론 속도에 얼마나 영향을 줄까요? 결론부터 말하면 추론 시에는 큰 영향이 없다는 것이 중론입니다². 이 의견은 저의 경험과도 일치합니다. 저 또한 PCIe 5.0으로 통신하는 장비를 사용하는데요, GPU 1개만 사용했을 때 대비 2개로 추론할 때 약 1.8배 정도의 decode 속도 향상이 있었습니다. 만약 PCIe 통신이 병목이었다면 이 정도의 선형에 가까운 스케일링은 나오기 어렵습니다.

컨텍스트 길이

글을 쓰는 현재 시점(2026-05-02) 256k 이상은 굳이 필요하지 않습니다.

현재 오픈 모델들은 정말 훌륭합니다. 그럼에도 불구하고 만약 어떤 문제를 풀기 위해 200k 이상의 컨텍스트가 필요하다면, 그 시점에 이미 실패했다고 보시면 됩니다. 컨텍스트 길이는 200k ~ 256k 정도면 충분하고, 그보다는 풀고자 하는 문제 자체를 작게 나누는 것이 좋습니다.

참고로 저는 상용 모델을 쓸 때도 256k 이상의 컨텍스트를 사용하는 경우가 거의 없습니다. 굳이 떠올려 보면, 며칠 동안 tmux 위에서 데이터베이스의 데이터를 parquet 파일로 변환하는 작업을 관찰하면서 중간중간 발생하는 버그를 수정하는 정도가 전부였습니다. 이런 경우는 실제로 다뤄야 할 문제가 항상 최근 컨텍스트에 집중되어 있기 때문에, 굳이 컨텍스트를 초기화하지 않고 길게 끌고 가도 큰 문제가 없습니다. 제 사용 범위 안에서 장문 컨텍스트를 쓰는 경우는 이런 특수한 상황 정도뿐입니다.

가능하면 MTP 사용 권장

MTP(Multi-Token Prediction)는 한 번의 forward pass에서 다음 토큰만이 아니라 여러 토큰을 동시에 예측해 decode 경로를 가속하는 기법입니다. DeepSeek-V3에서 본격적으로 알려진 뒤 Qwen 등 여러 모델에 도입되었고, vLLM에서도 지원합니다.

서빙 측에서 MTP를 활성화하면 추가적인 모델 수정 없이도 decode 속도가 눈에 띄게 올라갑니다. 현재 운용 중인 Qwen3.5 계열 모델 기준으로 약 30% 정도의 decode TPS 향상을 확인했습니다.

vLLM은 동시 요청에 강건

두 명의 동시 요청을 받아도 각 요청 속도가 절반으로 떨어지지는 않습니다. 러프하게 말하면 요청 두 개일 때 각 요청이 단일 요청 대비 약 90% 정도의 속도를 유지하고, 요청이 6개까지 늘어나도 각 요청이 약 80% 정도의 속도를 유지합니다. 예를 들어 현재 운영 중인 Qwen3.6-27B-FP8 모델은 단일 요청 시 약 100 TPS 정도가 나오는데, 6개의 동시 요청을 처리할 때는 합산 약 500 TPS 정도가 나옵니다.

작은 모델은 양자화에 취약, MoE 모델도 공격적인 양자화는 피할 것

작은 모델이 양자화에 취약하다는 점은 비교적 널리 알려져 있습니다. 8bit 양자화는 모델 크기와 관계없이 원본에 가까운 품질을 유지하지만, 6bit 이하로 내려가면 이야기가 달라집니다. 정해진 기준이 있는 건 아닙니다만 제 체감상 10B 이하 모델을 6bit 이하로 양자화하면 눈에 띄는 성능 저하가 발생합니다.

그럼 MoE 모델은 어떻게 해석해야 할까요? 경험상 activation 쪽입니다. 저는 MiniMax-M2.5를 테스트해 봤는데요. 이 모델은 230B-A10B, 전체 사이즈는 230B로 아주 크지만 실제 activation 되는 부분은 10B로 아주 작은 부분만 활성화되는 MoE 모델입니다. 이 모델의 AWQ 4bit 양자화 버전을 테스트해 봤는데요, 같은 말을 반복하는 현상이 너무 많이 발생해서 사용 불가능할 정도였습니다.

고지 의무는 확실하게 지킬 것

2026년 1월 22일부터 시행된 인공지능 발전과 신뢰 기반 조성 등에 관한 기본법 제31조 제1항에 따라, 고영향 AI 또는 생성형 AI를 이용한 제품·서비스를 제공하는 경우 해당 서비스가 AI 기반으로 운용된다는 사실을 이용자에게 사전 고지해야 합니다. 위반 시 과태료가 부과됩니다(법 제43조 제1항 제1호).

사내에서 LLM 기반 도구를 다른 팀에 제공하거나 결과물을 외부로 내보낼 가능성이 있는 흐름이라면, 사전 고지·결과물 표시(법 제31조 제2·3항) 부분을 한 번씩 체크해 두시는 것을 권장드립니다. 혹시 모르니 내/외부 감사의 지적 대상이 되지 않도록 조심할 필요가 있습니다.

GPU 간 직접 통신은 PCIe를 거치지 않고 GPU끼리 직접 데이터를 주고받는 기술을 말합니다. 벤더별로 NVIDIA는 NVLink / NVSwitch 계열, AMD는 Infinity Fabric (xGMI) 계열을 사용합니다. ↩︎
r/LocalLLaMA, Myth about nvlink - 스레드 댓글에서 NVLink 없이도 추론 성능 차이가 크지 않다는 의견이 다수. ↩︎

AI 활용, 실무 일지

This post is licensed under CC BY 4.0 by the author.