망분리 환경에서 AI 코딩 도구를 사용할 수 있나요?

네, 로컬 LLM을 구축하면 망분리 환경에서도 Claude Code와 유사한 AI 코딩 환경을 구축할 수 있습니다. vLLM으로 모델을 서빙하고 claude-code-router로 연동하면 업무망에서 agentic coding이 가능합니다.

망분리 환경 AI 배포에 필요한 예산은 얼마인가요?

3,000만원에서 6,000만원 정도의 예산으로 Sonnet 4.0급 성능의 로컬 LLM 환경을 구축할 수 있습니다. RTX Pro 6000 Blackwell 96GB x 2 구성이 4명 정도의 팀원이 동시 사용하기에 적합합니다.

로컬 LLM 환경 구축에 필요한 구성 요소는 무엇인가요?

크게 세 가지가 필요합니다. LLM 모델(Qwen, Devstral, GLM 등), 서빙 프레임워크(vLLM, SGLang, Ollama 등), 그리고 클라이언트(Claude Code, Mistral Vibe, Open WebUI 등)입니다.

(폐쇄망 LLM 1) 목표: 망분리 환경에서 에이전트 코딩

폐쇄망/내부망에서 로컬 LLM 서버를 구축하여 Claude Code 에이전트 코딩 환경을 만드는 방법. 망분리 환경에서 vLLM 기반 AI 코딩 시스템 구축 가이드.

Posted Dec 26, 2025 Updated Apr 6, 2026

증권사 망분리 환경 구조도

By 이준범

5 min read

(폐쇄망 LLM 1) 목표: 망분리 환경에서 에이전트 코딩

이 글은 망분리 환경 AI 배포 시리즈의 첫 번째 글입니다.
다음 글: 모델 선택과 메모리 요구량

증권사 망분리 환경의 현실

증권사에서 일하시는 분들은 잘 아시겠지만, 보안 규정상 네트워크가 철저히 분리되어 있습니다. 보통 다음과 같은 구조로 되어 있죠:

인터넷망: 외부 인터넷에 연결된 PC (보통 1대)
업무망: 인터넷과 완전히 단절된 내부 네트워크

무언가 설치하려면 인터넷망에서 파일을 다운로드한 뒤, 망간 자료전송 시스템을 통해 업무망으로 옮겨야 합니다. 게다가 설치할 때마다 보안 예외 신청이라는 번거로운 절차를 거쳐야 하죠.

여기서 중요한 점은, 인터넷망에서 업무망으로의 반입은 그럭저럭 허용해 주는 반면, 업무망에서 인터넷망으로의 반출은 원칙적으로 불가하다는 것입니다. 당연한 이야기죠.

문제는 이런 구조 때문에 코드가 대부분 업무망에 있다는 점입니다. Claude Code 같은 AI 코딩 도구를 쓰려면 코드가 있는 곳에서 실행해야 하는데, 업무망은 인터넷이 안 되니 API 호출이 불가능합니다. 결국 로컬에서 돌아가는 AI가 필요합니다.

이 시리즈의 목표

예산은 사용 인원과 원하는 AI 성능에 따라 달라지는데, 대략 3,000만원 ~ 6,000만원 정도를 투자하여 업무망에서 Claude Code와 유사한 AI 코딩 환경을 구축하는 것이 이 시리즈의 목표입니다.

물론 Sonnet 4.5 수준의 성능을 기대하기는 어렵습니다. 하지만 이 정도 예산이면 대략 Sonnet 4.0 급 성능의 로컬 LLM 구축은 가능합니다. 실무에서 코딩 생산성을 높이기에는 충분한 수준이죠.

최종적으로는 RTX Pro 6000 x 2 환경에서 다음 두 가지 조합으로 업무망에서 agentic coding을 해보는 것까지가 이 시리즈의 마무리입니다:

자, 처음부터 차근차근 짚어보겠습니다.

전체 구성 요소

아주 처음부터 차근차근 시작해 보겠습니다. AI 코딩 환경을 구축하려면 크게 세 가지 요소가 필요합니다:

┌─────────────┐     ┌─────────────────────┐     ┌─────────────────────┐
│    Model    │ ──> │  Serving Framework  │ ──> │       Client        │
│    (LLM)    │     │   (Model Hosting)   │     │    (WebUi, CLI)     │
└─────────────┘     └─────────────────────┘     └─────────────────────┘

1. Model (LLM 모델)

로컬에서 구동할 수 있는 오픈소스 LLM을 선택해야 합니다. Qwen, Devstral, GLM, Minimax 정도가 현시점 괜찮은 선택지입니다.

2. Serving Framework

모델을 API 형태로 서비스해주는 프레임워크입니다. 대표적으로 다음과 같은 것들이 있습니다:

vLLM - 다중 사용자 동시 처리에 강함
SGLang - 단일 처리 속도가 가장 빠름, 멀티턴 대화에 최적화
Ollama - 간편한 로컬 LLM 실행
llama.cpp - CPU/GPU 최적화 추론

3. Client (사용자 인터페이스)

서빙되는 모델을 편리하게 사용하기 위한 인터페이스입니다:

웹 UI: Open WebUI, LibreChat 등 ChatGPT 스타일의 웹 인터페이스
CLI: Claude Code, Aider, Mistral Vibe 같은 터미널 기반 코딩 도구

이 시리즈에서는 두 가지 방식 모두 다뤄볼 예정입니다.

다음 글 예고

다음 글에서는 어떤 모델을 선택할지 쇼핑을 해보겠습니다. 벤치마크, 사용자 경험, 그리고 속도와 메모리 요구량을 기준으로 모델을 골라볼 예정입니다. 모델이 정해져야 필요한 하드웨어도 결정할 수 있으니까요.

이 시리즈의 전체 목차는 AI 활용에서 확인하실 수 있습니다.

AI 활용, 망분리 배포

This post is licensed under CC BY 4.0 by the author.