"인적 데이터"는 무엇이며, 왜 책임감 있게 소싱해야 하나요?
적용 대상:Azure CLI ml 확장 v2(현재)Python SDK azure-ai-ml v2(현재)
인적 데이터는 사람들로부터 직접 수집되는 데이터입니다. 인적 데이터에는 이름, 연령, 이미지 또는 음성 클립과 같은 개인 데이터와 유전 데이터, 생체 인식 데이터, 성 정체성, 종교적 신념 또는 정치적 배경과 같은 중요한 데이터가 포함될 수 있습니다.
이 데이터를 수집하는 것은 모든 사용자에게 적합한 AI 시스템을 구축하는 데 중요할 수 있습니다. 그러나 특정 사례, 특히 데이터 기여자에게 신체적 및 심리적 피해를 줄 수 있는 사례는 피해야 합니다.
이 문서의 모범 사례는 관련된 모든 사람을 존중하고 잠재적 피해(특히 취약한 그룹이 직면하는 피해)를 예상하고 완화하는 자원 봉사자의 수동 데이터 수집 프로젝트를 수행하는 데 도움이 됩니다. 이는 다음을 의미합니다.
- 데이터에 기여하는 사람들은 어떤 방식으로도 강요되거나 악용되지 않으며 수집되는 개인 데이터를 제어할 수 있습니다.
- 데이터를 수집하고 레이블을 지정하는 사람들은 적절한 교육을 받고 있습니다.
또한 이러한 사례는 더 균형 잡힌 고품질 데이터 세트와 더 나은 인적 데이터 관리를 보장하는 데 도움이 될 수 있습니다.
이러한 사례는 새로운 사례이며 Microsoft는 지속적으로 습득하고 있습니다. 다음 섹션의 모범 사례는 사용자 고유의 책임 있는 인적 데이터 수집을 위한 시작점입니다. 이러한 모범 사례는 정보 제공 목적으로만 제공되며 법률 자문으로 취급하면 안 됩니다. 모든 인적 데이터 수집은 특정 개인 정보 보호 및 법적 검토를 거쳐야 합니다.
일반적인 모범 사례
사람으로부터 직접 인적 데이터를 수동으로 수집하기 위해 다음과 같은 모범 사례를 적용하는 것이 좋습니다.
모범 사례
그 이유는 무엇일까요?
자발적 정보 제공 동의를 받습니다.
- 참가자는 데이터 수집 및 해당 데이터가 사용되는 방법을 이해하고 이에 동의해야 합니다.
- 데이터는 원래 문서화된 정보 제공 동의의 일부인 목적으로만 저장, 처리 및 사용해야 합니다.
- 동의 문서화는 적절하게 저장되고 수집된 데이터와 연결해야 합니다.
데이터 기여자에게 적절하게 보상합니다.
- 데이터 기여자는 데이터 수집에서 압력을 받거나 강요되지 않아야 하며 시간과 데이터에 대해 공정하게 보상을 받아야 합니다.
- 부적절한 보상은 착취적이거나 강압적일 수 있습니다.
기여자가 인구 통계 정보를 스스로 식별할 수 있도록 합니다.
- 데이터 기여자가 직접 보고하지 않지만 데이터 수집기에서 할당한 인구 통계 정보는 1) 부정확한 메타데이터를 생성하고 2) 데이터 기여자에게 무례할 수 있습니다.
취약한 그룹을 모집하는 경우의 피해를 예상합니다.
- 취약한 인구 그룹에서 데이터를 수집하면 데이터 기여자와 조직에 위험이 발생합니다.
데이터 기여자를 존중합니다.
- 데이터 수집의 모든 단계에서 데이터 기여자와의 부적절한 상호 작용은 데이터 품질 및 데이터 기여자와 데이터 수집기에 대한 전반적인 데이터 수집 환경에 부정적인 영향을 미칠 수 있습니다.
외부 공급업체의 자격을 신중하게 부여합니다.
- 자격이 없는 공급업체를 통한 데이터 수집으로 인해 낮은 품질의 데이터, 열악한 데이터 관리, 비전문적인 사례 및 데이터 기여자와 데이터 수집기에 잠재적으로 유해한 결과(인권 침해 포함)가 발생할 수 있습니다.
- 자격이 없는 공급업체를 통한 주석 또는 레이블 지정 작업(예: 오디오 대화 내용 기록, 이미지 태그 지정)으로 인해 품질이 낮거나 편향된 데이터 세트, 안전하지 않은 데이터 관리, 비전문적인 사례, 데이터 기여자에게 잠재적으로 유해한 결과(인권 침해 포함)가 발생할 수 있습니다.
공급자와의 SOW(작업 명세서)(계약 또는 계약)에서 기대치를 명확하게 전달합니다.
- 책임 있는 데이터 수집 작업에 대한 요구 사항이 없는 계약으로 인해 데이터의 품질이 낮거나 데이터가 제대로 수집되지 않을 수 있습니다.
지리적 위치를 신중하게 한정합니다.
- 해당하는 경우 지정학적 위험이 높은 지역 및/또는 알 수 없는 지역에서 데이터를 수집하면 사용할 수 없거나 품질이 낮은 데이터가 생성될 수 있으며 관련 당사자의 안전에 영향을 미칠 수 있습니다.
데이터 세트를 효율적으로 관리합니다.
- 부적절한 데이터 관리 및 잘못된 문서화로 인해 데이터가 오용될 수 있습니다.
참고 항목
이 문서에서는 개인 데이터 및 중요한 데이터(예: 생체 인식 데이터, 건강 데이터, 인종 또는 민족 데이터), 일반 대중 또는 회사 직원으로부터 수동으로 수집한 데이터, 주석 또는 레이블 지정을 통해 생성될 수 있는 인간 특성(예: 연령, 가계 및 성 정체성)과 관련된 메타데이터를 포함하여 인적 데이터에 대한 권장 사항에 중점을 둡니다.
연령, 가계, 성 정체성을 수집하기 위한 모범 사례
AI 시스템이 모든 사람에게 효율적으로 작동하려면 학습 및 평가에 사용되는 데이터 세트에서 해당 시스템을 사용하거나 영향을 받는 사람들의 다양성을 반영해야 합니다. 많은 경우에서 연령, 가계 및 성 정체성은 제품이 다양한 사람들에게 효율적으로 작동하는 수준에 영향을 줄 수 있는 요인의 범위에 대한 근사값을 예측하는 데 도움이 될 수 있습니다. 그러나 이 정보를 수집하려면 특별히 고려해야 합니다.
이 데이터를 수집하는 경우 데이터 수집기에서 정확하지 않을 수 있는 가정을 수행하는 대신 항상 데이터 기여자가 스스로 식별(자신의 응답 선택)할 수 있도록 합니다. 또한 각 질문에 대해 “대답하지 않음” 옵션을 포함합니다. 이러한 사례는 데이터 기여자를 존중하고 더 균형 잡힌 고품질 데이터를 생성합니다.
이러한 모범 사례는 3년 동안 의도한 이해 관계자 및 공정성 및 포용성 작업 그룹, 글로벌 다양성 및 포함, 글로벌 준비, 책임 있는 AI 업무 등 Microsoft의 많은 팀과의 협업을 통한 연구를 기반으로 하여 개발되었습니다.
사람들이 스스로 식별할 수 있도록 하려면 다음과 같은 설문 조사의 질문을 사용하는 것이 좋습니다.
나이
나이가 어떻게 되세요?
연령대 선택
[프로젝트 목적, 지리적 지역 및 도메인 전문가의 지침에 따라 정의된 적절한 연령대 포함]
- #~#
- #~#
- #~#
- 대답하지 않음
가계
자신의 가계를 가장 잘 설명하는 범주를 선택하세요.
여러 항목 선택 가능
[프로젝트 목적, 지리적 지역 및 도메인 전문가의 지침에 따라 정의된 적절한 범주 포함]
- 가계 그룹
- 가계 그룹
- 가계 그룹
- 복합(다인종, 혼합 가계)
- 나열되지 않음, 자신에 대해 다음과 같이 설명합니다. _________________
- 대답하지 않음
성 정체성
내 정체성은 무엇인가요?
여러 항목 선택 가능
[프로젝트 목적, 지리적 지역 및 도메인 전문가의 지침에 따라 정의된 적절한 성 정체성 포함]
- 성 정체성
- 성 정체성
- 성 정체성
- 자신에 대해 다음과 같이 설명합니다. _________________
- 대답하지 않음
주의
전 세계의 일부 지역에는 특정 성별 범주를 범죄화하는 법률이 있으므로 데이터 기여자가 이 질문에 정직하게 대답하는 것은 위험할 수 있습니다. 항상 사람들에게 옵트아웃할 수 있는 방법을 제공합니다. 그리고 지역 전문가 및 변호사와 협력하여 데이터를 수집하려는 각 장소의 법률 및 문화적 규범을 주의 깊게 검토하고, 필요한 경우 이 질문을 완전히 무시하세요.
다음 단계
데이터를 사용하는 방법에 대한 자세한 내용은 다음을 참조하세요.
- Azure Machine Learning에서 데이터 액세스 보호
- Azure Machine Learning 워크플로에 대한 데이터 수집 옵션
- Azure Machine Learning을 사용하여 데이터 처리 최적화
데이터를 수집한 후 다음 방법 가이드에 따라 데이터를 사용합니다.