클린룸 및 다자간 데이터 분석
ACC(Azure 기밀 컴퓨팅)는 여러 당사자가 데이터에 대해 협업할 수 있도록 하는 솔루션을 위한 토대를 제공합니다. 솔루션에 대한 다양한 접근 방식과 Azure 고객, 연구원, 데이터 과학자 및 데이터 공급자가 개인 정보를 보호하면서 데이터에 대해 협업할 수 있도록 지원하는 파트너의 에코시스템이 증가하고 있습니다. 이 개요에서는 ACC에서 실행되는 일부 접근 방식과 사용할 수 있는 기존 솔루션에 대해 설명합니다.
데이터 및 모델 보호란?
데이터 클린룸 솔루션은 일반적으로 하나 이상의 데이터 공급자가 처리를 위해 데이터를 결합하는 수단을 제공합니다. 일반적으로 공급자 또는 다른 참가자(예: 연구원 또는 솔루션 공급자)가 만든 코드, 쿼리 또는 모델에 동의합니다. 대부분의 경우 데이터는 다른 데이터 공급자, 연구원 또는 솔루션 공급업체와 관계없이 다른 참가자와 직접 공유하는 것은 민감하고 바람직하지 않은 것으로 간주될 수 있습니다. 데이터 클린룸 내에서 사용되는 데이터와 모델 모두에서 보안 및 개인 정보를 보장하기 위해 기밀 컴퓨팅을 사용하여 참가자가 처리 중을 포함하여 데이터 또는 모델에 액세스할 수 없는지 암호화 방식으로 확인할 수 있습니다. 이 솔루션은 ACC를 사용하여 클라우드 운영자, 솔루션 공급자 및 데이터 협업 참가자의 데이터 및 모델 IP를 보호할 수 있습니다.
업계 사용 사례의 예는 무엇인가요?
ACC를 통해 고객과 파트너는 "기밀 클린룸"이라고도 하는 개인 정보를 보호하는 다자간 데이터 분석 솔루션을 빌드합니다. 새 솔루션은 고유한 기밀로 유지되고 기존 클린룸 솔루션은 ACC를 통해 기밀로 유지됩니다.
- Royal Bank of Canada - 가상 클린룸 솔루션은 안전한 enclave에서 Azure 기밀 컴퓨팅 VM 및 Azure SQL AE를 사용하여 개인화된 제품을 제공하기 위해 가맹점 데이터와 은행 데이터를 결합합니다.
- Scotiabank – Azure 기밀 컴퓨팅 및 솔루션 파트너인 Opaque를 통해 은행 간 자금 흐름에서 AI를 사용하여 인신매매 사례를 나타내는 자금 세탁을 식별했습니다.
- Novartis Biome – 희귀 질환에 대한 임상 시험 후보를 찾기 위해 ACC에서 실행되는 BeeKeeperAI의 파트너 솔루션을 사용했습니다.
- 주요 결제 공급자는 사기 및 변칙 검색을 위해 은행 간에 데이터를 연결합니다.
- 데이터 보호를 강화하고 EU 고객 규정 준수 요구 사항 및 개인 정보 보호 규정을 충족하기 위해 ACC를 사용하는 데이터 분석 서비스 및 클린룸 솔루션입니다.
기밀 컴퓨팅을 사용하는 이유
데이터 클린룸은 새로운 개념은 아니지만 기밀 컴퓨팅의 발전으로 더 광범위한 데이터 세트로 클라우드 규모를 활용하고, AI 모델의 IP를 보호하고, 데이터 개인 정보 보호 규정을 더 잘 충족할 수 있는 기능이 더 많아졌습니다. 이전의 경우와 같은 이유로 특정 데이터에 액세스하지 못할 수 있습니다.
- 경쟁상의 불이익 또는 규제로 인해 업계 회사 간에 데이터를 공유할 수 없게 됩니다.
- 익명화로 인해 데이터에 대한 인사이트의 품질이 저하되거나 비용과 시간이 너무 많이 듭니다.
- 데이터가 특정 위치에 바인딩되고 보안 문제로 인해 클라우드에서 처리할 수 없습니다.
- 데이터가 노출되거나 남용되는 경우 비용이 많이 들거나 긴 법적 절차에 따른 책임을 부담합니다.
이러한 현실로 인해 불완전하거나 비효율적인 데이터 세트가 발생하여 인사이트가 약해지거나 AI 모델을 학습하고 사용하는 데 더 많은 시간이 필요할 수 있습니다.
클린룸 솔루션을 빌드할 때 고려해야 할 사항은 무엇인가요?
Batch 분석 및 실시간 데이터 파이프라인: 클린룸 솔루션을 설계하거나 사용할 때 데이터 세트의 크기와 인사이트의 속도를 고려해야 합니다. 데이터를 "오프라인"으로 사용할 수 있는 경우 전체 데이터 세트가 아니더라도 많은 양의 데이터에 대한 데이터 분석을 위해 검증된 보안 컴퓨팅 환경으로 로드할 수 있습니다. 이 일괄 처리 분석을 사용하면 즉각적인 결과를 제공할 것으로 예상되지 않는 모델 및 알고리즘을 사용하여 대규모 데이터 세트를 평가할 수 있습니다. 예를 들어 일괄 처리 분석은 수백만 개의 건강 기록에 대해 ML 추론을 수행하여 임상 시험에 가장 적합한 후보를 찾을 때 효과적입니다. 다른 솔루션에는 알고리즘 및 모델이 여러 엔터티 간의 거의 실시간 트랜잭션에서 사기를 식별하는 것을 목표로 하는 경우와 같이 데이터에 대한 실시간 인사이트가 필요합니다.
제로 트러스트 참여: 기밀 클린룸의 주요 차별화 요소는 모든 데이터 공급자, 코드 및 모델 개발자, 솔루션 공급자 및 인프라 운영자 관리자로부터 신뢰할 수 있는 당사자가 없다는 것입니다. 모든 당사자로부터 데이터와 모델 IP를 모두 보호할 수 있는 솔루션이 제공될 수 있습니다. 솔루션을 온보딩하거나 빌드할 때 참가자는 보호하려는 항목과 각 코드, 모델 및 데이터를 보호할 대상을 모두 고려해야 합니다.
페더레이션 학습: 페더레이션 학습에는 솔루션을 만들거나 사용하는 반면 모델 프로세스는 데이터 소유자의 테넌트에서 처리되고 인사이트는 중앙 테넌트에서 집계됩니다. 경우에 따라 Azure 외부의 데이터에서 모델을 실행할 수도 있으며, 모델 집계는 여전히 Azure에서 발생합니다. 페더레이션 학습은 인사이트를 집계한 후 모델의 매개 변수가 개선됨에 따라 데이터를 여러 번 반복합니다. 모델의 반복 비용 및 품질은 솔루션 및 예상 결과에 반영되어야 합니다.
데이터 상주 및 원본: 고객에게는 여러 클라우드 및 온-프레미스에 저장된 데이터가 있습니다. 협업에는 다양한 원본의 데이터와 모델이 포함될 수 있습니다. 클린룸 솔루션은 이러한 다른 위치에서 Azure로 들어오는 데이터 및 모델을 용이하게 할 수 있습니다. 온-프레미스 데이터 저장소에서 Azure로 데이터를 이동할 수 없는 경우 일부 클린룸 솔루션은 데이터가 있는 사이트에서 실행할 수 있습니다. 관리 및 정책은 가능한 경우 공통 솔루션 공급자에 의해 구동될 수 있습니다.
코드 무결성 및 기밀 원장: Azure 기밀 컴퓨팅에서 실행되는 DLT(분산 원장 기술)를 사용하면 조직 전체의 네트워크에서 실행되는 솔루션을 빌드할 수 있습니다. 코드 논리 및 분석 규칙은 다양한 참가자 간에 합의가 있을 때만 추가할 수 있습니다. 코드에 대한 모든 업데이트는 Azure 기밀 컴퓨팅에서 사용하도록 설정된 변조 방지 로깅을 통해 감사하기 위해 기록됩니다.
시작할 수 있는 옵션은 무엇인가요?
기밀 클린룸을 사용하도록 지원하는 ACC 플랫폼 제품
소매를 롤업하고 이러한 기밀 컴퓨팅 서비스 제품에서 직접 데이터 클린룸 솔루션을 빌드합니다.
애플리케이션 enclave가 포함된 ACI(Azure Container Instances) 및 Intel SGX VM의 기밀 컨테이너는 기밀 클린룸 솔루션을 빌드하기 위한 컨테이너 솔루션을 제공합니다.
기밀 VM(Virtual Machine)은 기밀 클린룸 솔루션에 대한 VM 플랫폼을 제공합니다.
보안 enclave의 Azure SQL AE는 다자간 데이터 분석 및 기밀 클린룸에서 사용할 수 있는 SQL의 데이터 및 쿼리를 암호화하기 위한 플랫폼 서비스를 제공합니다.
기밀 컨소시엄 프레임워크는 사용 편의성과 성능을 위해 중앙 집중식 컴퓨팅을 사용하는 동시에 분산형 신뢰를 제공하는 고가용성 상태 저장 서비스를 빌드하기 위한 오픈 소스 프레임워크입니다. 이를 통해 여러 당사자가 서로 또는 권한 있는 운영자를 신뢰하지 않고도 기밀 데이터에 대해 감사 가능한 컴퓨팅을 실행할 수 있습니다.
기밀 클린룸을 사용하도록 설정하는 ACC 파트너 솔루션
Azure 기밀 컴퓨팅 플랫폼을 기반으로 다자간 데이터 분석 솔루션을 빌드한 파트너를 사용합니다.
- Anjuna는 기밀 컴퓨팅 플랫폼을 제공하여 조직이 중요한 정보를 노출하지 않고 신용 위험 점수 계산 또는 기계 학습 모델 개발과 같은 공동 분석을 위해 데이터를 공유할 수 있도록 보안 클린룸을 비롯한 다양한 사용 사례를 사용할 수 있도록 지원합니다.
- BeeKeeperAI를 사용하면 알고리즘 소유자와 데이터 관리자를 위한 안전한 협업 플랫폼을 통해 의료 AI를 사용할 수 있습니다. BeeKeeperAI™는 기밀 컴퓨팅 환경에서 보호된 데이터의 다중 기관 원본에 대한 개인 정보 보호 분석을 사용합니다. 이 솔루션은 엔드투엔드 암호화, 보안 컴퓨팅 enclave 및 Intel의 최신 SGX 지원 프로세서를 지원하여 데이터와 알고리즘 IP를 보호합니다.
- Decentriq은 데이터를 공유하지 않고도 안전한 데이터 협업을 가능하게 하는 기밀 컴퓨팅을 기반으로 빌드된 SaaS 데이터 클린룸을 제공합니다. 데이터 과학 클린룸을 사용하면 유연한 다자간 분석이 가능하며, 미디어 및 광고를 위한 코드가 없는 클린룸을 사용하면 자사 사용자 데이터를 기반으로 규격 대상 그룹 활성화 및 분석을 수행할 수 있습니다. 기밀 클린룸은 Microsoft 블로그의 이 문서에 자세히 설명되어 있습니다.
- Fortanix는 다자간 분석을 위해 함께 협업하는 여러 조직을 포함하여 기밀 AI를 사용할 수 있는 기밀 컴퓨팅 플랫폼을 제공합니다.
- Habu는 기업이 스마트하고 안전하며 확장 가능하고 간단한 방식으로 협업 인텔리전스를 잠금 해제할 수 있는 상호 운용 가능한 데이터 클린룸 플랫폼을 제공합니다. Habu는 더 나은 협업, 의사 결정 및 결과를 위해 부서, 파트너, 고객 및 공급자 간에 분산된 데이터를 연결합니다.
- Mithril Security는 SaaS 공급업체가 보안 enclave 내에서 AI 모델을 제공하고 온-프레미스 수준의 보안과 제어를 데이터 소유자에게 제공하는 데 도움이 되는 도구를 제공합니다. 데이터 소유자는 SaaS AI 솔루션을 사용할 수 있지만 계속 규정을 준수하고 데이터를 제어할 수 있습니다.
- Opaque는 협업 분석 및 AI를 위한 기밀 컴퓨팅 플랫폼을 제공하여 데이터 엔드투엔드를 보호하고, 확장 가능한 협업 분석을 수행할 수 있으며 조직은 법률 및 규제 의무를 준수할 수 있도록 지원합니다.
- SafeLiShare는 다자간 데이터 공유 중에 데이터를 보호하면서 데이터에 대한 액세스가 감사 가능하고 추적 가능하며 표시 가능한 정책 기반의 암호화된 데이터 클린룸을 제공합니다.