본문으로 건너뛰기
AI 8분 읽기

AI 모델 공급망 리스크: 가중치 파일도 소프트웨어 산출물이다

오픈 모델, 파인튜닝 데이터, 추론 컨테이너를 하나의 공급망으로 보고 서명과 출처 검증을 적용하는 방법을 다룬다. Model Supply Chain·AI Security·Provenance 관점에서 처음 접하는 독자도 개념, 적용 조건, 실패 가능성을 차례대로 이해할 수 있게 설명한다.

박지민
에디터
2026년 6월 22일
AI 모델 공급망 리스크: 가중치 파일도 소프트웨어 산출물이다

핵심 요약

AI 모델 공급망은 가중치 파일 하나가 아니라 모델·토크나이저·설정·어댑터·데이터·코드·컨테이너·평가 결과의 묶음이다. 출처와 해시를 고정하고 격리된 환경에서 검사하며, 승인된 레지스트리로 승격하고, 서명·provenance·배포 digest를 검증해야 한다.

오픈 모델을 내려받아 추론 서버에 올리는 과정은 일반 소프트웨어 의존성을 설치하는 과정과 크게 다르지 않다. 모델 저장소 계정이 탈취되거나, 태그가 다른 파일을 가리키거나, 직렬화 형식이 로드 시 코드를 실행하거나, 추론 컨테이너가 운영 중 외부에서 새 파일을 받으면 공급망 경계가 무너진다.

가중치만 해시로 고정해도 충분하지 않다. 토크나이저와 설정 파일이 바뀌면 입력 해석과 출력이 달라질 수 있고, LoRA·adapter와 커스텀 코드는 별도 실행 경로를 만든다. 운영에 배포되는 AI 시스템 전체를 하나의 릴리스 묶음으로 관리해야 한다.

모델 릴리스 명세에 포함할 것

구성 요소기록할 정보
기본 모델공급자, 저장소, 정확한 revision, 파일 해시
가중치형식, shard 목록, 크기, 서명·검증 결과
토크나이저vocab·merges·special token 버전
설정architecture, context, dtype, generation 기본값
커스텀 코드커밋 SHA, 실행 권한, 네트워크 필요성
어댑터base model 호환성, 학습 출처, 해시
데이터학습·파인튜닝·평가 출처와 사용 권리
런타임프레임워크, 라이브러리, GPU 드라이버, 컨테이너 digest
평가안전·품질·성능 기준과 결과
승인소유자, 검토자, 배포 환경, 만료·재검토일

이 명세는 모델 카드와 SBOM을 대체한다기보다 서로 연결하는 배포 인벤토리다.

다운로드를 격리된 수입 단계로 만든다

운영 서버가 시작할 때 인터넷에서 모델을 직접 내려받지 않게 한다.

  1. 승인된 공급자와 정확한 revision을 요청한다.
  2. 인터넷 접근이 제한된 수입 환경에서 파일을 다운로드한다.
  3. 예상 파일 목록, 크기, 해시, 라이선스·사용 조건을 확인한다.
  4. 직렬화 형식과 로더가 임의 코드 실행을 요구하는지 검토한다.
  5. 커스텀 코드, 설치 스크립트, 외부 URL 참조를 정적·동적으로 검사한다.
  6. 악성코드·비밀값·민감 데이터 스캔을 실행한다.
  7. 대표 입력으로 샌드박스 추론과 네트워크 행위를 관찰한다.
  8. 통과한 아티팩트만 내부 레지스트리에 승격한다.

공급자 옵션인 “remote code trust” 같은 기능을 무조건 켜지 않는다. 필요한 경우 정확한 커밋과 코드를 리뷰하고, 파일·프로세스·네트워크 권한을 제한한다.

해시, 서명, provenance의 역할을 구분한다

  • 해시: 받은 파일이 승인한 바이트와 같은지 확인
  • 서명: 승인된 주체가 해당 아티팩트에 서명했는지 확인
  • provenance: 어떤 소스와 빌드 과정이 아티팩트를 만들었는지 설명
  • 투명성 로그: 서명 이벤트의 사후 검증과 이상 탐지 지원

하나가 다른 것을 대신하지 않는다. 공격자가 승인된 빌드 계정을 탈취하면 올바르게 서명된 악성 아티팩트가 나올 수 있으므로 빌드 권한과 리뷰, 행위 평가도 필요하다.

SLSA provenance와 Sigstore/Cosign 같은 도구는 모델·컨테이너·일반 파일의 출처 증거를 구성하는 데 활용할 수 있다. 실제 도입 시 지원 형식, 키 관리, 오프라인 검증, 투명성 로그 의존성을 공식 문서로 확인한다.

내부 레지스트리에서 승격한다

환경별로 임의 다운로드하지 말고 상태를 거쳐 승격한다.

  • quarantine: 외부에서 받은 원본, 실행 금지
  • verified: 해시·형식·출처 검사 완료
  • evaluated: 안전·품질·성능 평가 통과
  • approved: 특정 제품·환경 배포 승인
  • deprecated: 신규 배포 금지, 기존 사용 추적
  • revoked: 즉시 사용 중단과 사고 대응

운영 배포는 태그가 아니라 immutable digest를 참조한다. 태그를 사용하더라도 실제 digest를 배포 기록에 저장한다.

데이터와 파인튜닝 공급망을 포함한다

파인튜닝 데이터는 코드와 달리 눈에 보이지 않는 위험을 가져올 수 있다.

  • 데이터 출처와 수집 목적, 사용 권리를 기록한다.
  • 개인정보와 비밀값을 최소화하고 삭제 요청 경로를 만든다.
  • 중독·중복·라벨 오류를 샘플링하고 변경 이력을 남긴다.
  • 학습 데이터와 평가 데이터의 누출을 방지한다.
  • 외주 라벨링과 합성 데이터 생성 도구를 공급자로 관리한다.
  • adapter가 어느 base model과 데이터로 만들어졌는지 연결한다.

개인정보와 삭제는 벡터 데이터베이스 개인정보데이터 분류 체계와 연결한다.

평가를 공급망 게이트로 사용한다

서명과 해시가 맞아도 모델 행동이 안전하다는 뜻은 아니다. 버전 변경마다 다음을 비교한다.

  • 업무 품질과 회귀 테스트
  • 유해·민감 출력과 거부 동작
  • 프롬프트 주입·도구 사용 경계
  • 개인정보 재현과 데이터 누출
  • 모델 크기·지연·GPU 메모리·비용
  • 알려진 안전 설정의 변경
  • 예상치 못한 외부 네트워크·파일 접근

평가 기준과 허용 임계치를 배포 전에 정하고, 실패한 모델은 예외 승인 없이 승격하지 않는다.

운영 중 탐지 신호

  • 추론 서버가 시작 시 외부 모델 저장소에 연결한다.
  • 승인된 digest와 로드된 파일 해시가 다르다.
  • 태그가 새 digest를 가리키지만 변경 기록이 없다.
  • 커스텀 코드 또는 새 Python 패키지가 런타임에 설치된다.
  • 예상하지 않은 adapter·토크나이저 파일이 로드된다.
  • 모델 파일의 크기·shard 수가 기준선과 다르다.
  • 업데이트 후 안전 평가와 거부율이 급격히 변한다.
  • 모델 레지스트리 관리자나 서명 키가 평소와 다르게 사용된다.
  • 운영 모델이 승인되지 않은 데이터셋을 읽는다.

엣지 보안 정책과 동일하게 배포 버전, digest, 모델 ID를 로그에 포함한다.

사고 대응

  1. 의심 모델 digest와 배포 범위를 식별한다.
  2. 신규 배포를 중단하고 승인된 이전 digest로 롤백한다.
  3. 원본 파일, 서명, provenance, 수입 로그, 평가 결과를 보존한다.
  4. 모델 로더와 런타임의 파일·네트워크 행위를 조사한다.
  5. 노출 가능성이 있는 토큰·데이터·레지스트리 자격 증명을 폐기한다.
  6. 같은 공급자·revision을 사용한 다른 환경을 검색한다.
  7. 깨끗한 수입 환경에서 독립적으로 다시 검증한다.
  8. revoked 상태를 레지스트리와 배포 정책에 반영한다.

모델이 생성한 결과만 보고 침해 범위를 판단하지 않는다. 로드 과정에서 코드가 실행됐다면 일반 서버 침해와 같은 수준으로 조사한다.

실패 모드

실패결과교정
모델 이름·태그만 기록파일이 바뀌어도 추적 불가revision·digest·해시 고정
운영 서버가 직접 다운로드검증 우회와 가용성 의존격리 수입과 내부 레지스트리
가중치만 검사토크나이저·코드·adapter 누락릴리스 묶음 전체 명세
서명만 신뢰탈취된 빌드·키 위험 누락provenance·권한·평가 결합
평가 결과 수동 보관배포와 다른 모델 승인digest에 평가·승인 연결
롤백이 태그 기반이전 버전도 바뀔 수 있음immutable digest 롤백

운영 체크리스트

  • 모델 릴리스에 가중치·토크나이저·설정·코드·adapter가 포함된다.
  • 공급자, 정확한 revision, 파일 해시와 라이선스를 기록한다.
  • 외부 아티팩트는 격리된 수입 환경에서 검사한다.
  • 운영 서버는 인터넷에서 모델을 직접 받지 않는다.
  • 내부 레지스트리에 quarantine부터 approved까지 상태가 있다.
  • 배포는 태그가 아닌 immutable digest를 기록한다.
  • 서명과 provenance를 배포 전에 검증한다.
  • 데이터 출처·권리·개인정보·삭제 경로를 관리한다.
  • 모델 변경마다 안전·품질·성능 회귀 평가를 수행한다.
  • revoked 모델을 즉시 차단하고 이전 digest로 롤백할 수 있다.

참고 기준

결론

AI 모델은 다운로드한 파일이 아니라 배포 가능한 소프트웨어 릴리스다. 구성 요소 전체의 출처와 해시를 고정하고, 격리된 환경에서 검사·평가한 뒤, 서명과 provenance가 연결된 immutable digest로 배포하는 것이 모델 공급망의 기본이다.

전체 댓글 0

댓글을 불러오는 중입니다...
새로고침

태그

Model Supply Chain AI Security Provenance

공유하기

관련 기사