何謂「人類資料」,以及為何需要可靠來源?
適用於:Azure CLI ml 延伸模組 v2 (目前)Python SDK azure-ai-ml v2 (目前)
人類資料是直接從人員所收集或收集與其相關的資料。 人類資料可能包含個人資料,例如名稱、年齡、影像或語音片段,以及敏感性資料,例如基因數據、生物特徵辨識資料、性別認同、宗教信仰或政治立場。
收集此資料對於建置適用於所有使用者的 AI 系統而言非常重要。 但應避免特定做法,特別是可能會對資料參與者造成身體和心理傷害的作法。
本文中的最佳做法將協助您進行手動從志願者收集資料的專案,其中所有人都會受到尊重,但也包含潛在傷害,特別是易受傷害族群的那些人,我們會進行預測並降低傷害。 這表示:
- 提供資料的人員不會以任何方式被迫提供或遭到惡意探索,且他們可以控制所要收集的個人資料。
- 收集及標記資料的人員皆經過充分的訓練。
這些做法也可以協助確保更平衡且更高品質的資料集,且能更妥善地管理人類資料。
這些是新興的做法,而我們會持續學習。 下一節中的最佳做法是開始負責任的人類資料收集作業的起點。 這些最佳做法僅供參考之用,不應視為法律建議。 所有人類資料收集皆應接受特定的隱私權和法律審查。
一般最佳做法
我們建議使用下列最佳做法,直接從人員手動收集人類資料。
最佳做法
為什麼呢?
取得自願的知情同意書。
- 參與者應該瞭解並同意資料收集及其資料的使用方式。
- 資料的儲存、處理及使用應限於正本知情同意書中包含的目的。
- 同意文件應該妥善儲存,並與收集的資料相關聯。
適當地補償資料提供者。
- 資料提供者不應感到壓力或被迫參與資料收集,且針對其時間和資料應該提供相當補償。
- 不適當的補償可能屬於惡意探索或強制。
讓提供者自行識別人口統計資訊。
- 非由資料提供者自述而由資料收集器指派的人口統計資訊,可能 1) 導致中繼資料不正確,以及 2) 不尊重資料提供者。
在招募易受傷害族群時預測傷害。
- 從易受傷害人口族群收集資料時,會對資料提供者和組織帶來風險。
尊敬地對待資料提供者。
- 在資料收集的任何階段,與資料提供者的不當互動可能會對資料品質,以及資料提供者和資料收集器的整體資料收集體驗造成負面影響。
仔細審查外部供應商的資格。
- 具有不合格供應商的資料收集可能會導致低品質資料、資料管理不佳、非專業做法,以及對於資料提供者和資料收集器的潛在有害結果 (包括違反人權)。
- 具有不合格供應商的註釋或標記工作 (例如音訊轉錄、影像標記) 可能會導致低品質或偏差的資料集、不安全的資料管理、非專業的做法,以及對於資料提供者的潛在有害結果 (包括違反人權)。
在與供應商的工作說明 (SOW) (合約或協議) 中清楚傳達期望。
- 缺少負責任資料收集工作需求的合約,可能會導致低品質或不當收集的資料。
仔細審查地理位置。
- 適用時,在高地緣政治風險和/或不熟悉的地理位置收集資料可能會導致無法使用或低品質的資料,且可能會影響相關當事人的安全性。
妥善管理您的資料集。
- 不正確的資料管理和不當的文件可能會導致資料濫用。
注意
本文著重於針對人類資料的建議,包括個人資料和敏感性資料,例如生物特徵辨識資料、健康資料、種族或族裔資料、從一般大眾或公司員工手動收集的資料,以及與人類特徵相關的中繼資料,例如年齡、血統和性別認同,這些資料可能是透過註釋或標記所建立。
收集年齡、血統和性別認同的最佳做法
為了讓 AI 系統適用於每個人,用於定型和評估的資料集應該反映將使用或受這些系統影響人員的多樣性。 在許多情況下,年齡、血統和性別認同有助於接近可能會影響產品對各種人員執行效果的因素範圍;不過,收集這項資訊時需要特別考量。
如果您收集此資料,請一律讓資料提供者自行識別 (選擇自己的回應),而非讓資料收集器提出假設,因為這可能不正確。 這也包含針對每個問題的「不想回答」選項。 這些做法將展現對資料提供者的尊重,且能產生更平衡且更高品質的資料。
這些最佳做法是以為期三年的研究為基礎,並計劃性地與 Microsoft 的許多專案關係人和小組共同合作:公平性和包容性工作群組、全球多樣性與包容、全球整備、負責任 AI 辦公室等等。
若要讓使用者能夠自我識別,請考慮使用下列問卷問題。
年齡
您幾歲?
選取您的年齡範圍
[包含依專案用途、地理區域和領域專家提供指導所定義的適當年齡範圍]
- # to #
- # to #
- # to #
- 不想回答
上階
請選取最能描述您血統的類別
可以選取多個
[包含依專案用途、地理區域和領域專家提供指導所定義的適當類別]
- 祖系
- 祖系
- 祖系
- 多重 (多民族、混合血統)
- 未列出,我將自己描述為:_________________
- 不想回答
性別身分識別
如何識別?
可以選取多個
[包含依專案用途、地理區域和領域專家提供指導所定義的適當性別認同]
- 性別身分識別
- 性別身分識別
- 性別身分識別
- 傾向於自我描述:_________________
- 不想回答
警告
在世界上某些地區的法律將特定性別認同視為犯罪,因此資料提供者誠實回答這個問題時可能會很危險。 一律讓人員可以選擇退出。此外,請與區域專家和律師合作,仔細檢閱您計畫收集資料之每個位置的法律和文化規範,並視需要完全避免詢問這個問題。
下一步
如需關於如何使用您資料的詳細資訊:
- Azure Machine Learning 中的安全資料存取
- Azure Machine Learning 工作流程的資料擷取選項
- 使用 Azure Machine Learning 最佳化資料處理
遵循下列操作指南,在收集資料之後使用您的資料: