共用方式為


Azure 開放資料集

使用公開的資料集改進機器學習模型的正確性。 若要節省資料探索和準備的時間,請使用專為機器學習專案所準備的策展資料集。

交通運輸

資料集 描述
TartanAir:AirSim 模擬資料集 產生 AirSim 自動駕駛汽車資料,以解決同步定位與建圖 (SLAM)。
NYC Taxi & Limousine Commission (紐約市計程車和禮車委員會) - 黃色計程車車程記錄 黃色計程車車程記錄包括上車和下車日期/時間、上車和下車地點、車程距離、列舉車資、費率類型、付款類型和司機回報的乘客數。
NYC Taxi & Limousine Commission (紐約市計程車和禮車委員會) - 綠色計程車車程記錄 綠色計程車車程記錄包括上車和下車日期/時間、上車和下車地點、車程距離、列舉車資、費率類型、付款類型和司機回報的乘客數。
NYC Taxi & Limousine Commission (紐約市計程車和禮車委員會) - 營運汽車 (FHV) 車程記錄 「營運汽車」行程記錄包括分派公司授權號碼以及上車日期、時間和計程車區域位置識別碼。

健康情況與基因體學

資料集 描述
COVID-19 資料湖 新型冠狀病毒 (COVID-19) Data Lake 集合集結了各種來源的新型冠狀病毒 (COVID-19) 相關資料集,涵蓋檢測及病患結果追蹤資料、社交距離政策、醫院量能、人潮流動情況等。
COVID-19 開放研究資料集 COVID-19 和新冠肺炎相關學術文章的全文檢索和中繼資料資料集,已經過最佳化可供電腦讀取,並可供全球研究社群使用。
基因體學資料湖 「基因體學資料湖」提供多種免費可用的公用資料集,可整合到您的基因體學分析工作流程及應用程式。 本資料集包含基因體序列、變異資訊,以及 BAM、FASTA、VCF、CSV 檔案格式的主體/樣本中繼資料。

人力和經濟效益

資料集 描述
US Labor Force Statistics (美國勞動力統計資料) 「美國勞動力統計資料」提供勞動力統計資料、勞動力參與率,以及美國各年齡、性別、種族和民族的適合工作人口。
US National Employment Hours and Earnings (美國全國的工時與工資) 目前就業統計 (CES) 計劃會產生詳細的美國非農就業產業預估值、工作時數和工作者的薪資收入。
US State Employment Hours and Earnings (美國各州的工時與工資) 目前就業統計 (CES) 計劃會產生詳細的美國非農就業產業預估值、工作時數和工作者的薪資收入。
US Local Area Unemployment Statistics (美國各地區域的失業統計資料) 美國地區別失業統計資料 (LAUS) 資料集提供美國普查區域和行政區、州/省、郡縣、都會區和許多城市的月度和年度就業、失業和勞動力資料。
美國消費者物價指數 「消費者物價指數」(CPI) 衡量都市消費者針對消費品和服務購物籃所支付價格一段時間的平均變化。
US Producer Price Index - Industry (美國生產者物價指數 - 產業) 「生產者物價指數」(PPI) 衡量國內生產者針對其產量所收到銷售價格一段時間的平均變化。
US Producer Price Index - Commodities (美國生產物價指數 - 商品) 「生產者物價指數」(PPI) 衡量國內生產者針對其商品所收到銷售價格一段時間的平均變化。

人口和安全

資料集 描述
美國人口數 (依郡排列) 美國各縣 2000 和 2010 年十年一度普查的美國人口數 (依性別和種族)。 此資料集的資料來源為美國人口普查局。
美國人口數 (依郵遞區號排列) 美國各郵遞區號 2010 年十年一度普查的美國人口數 (依性別和種族)。 此資料集的資料來源為美國人口普查局。
波士頓安全資料 閱讀向波士頓市通報的 311 通話相關資料。 此資料集以 Parquet 格式儲存,並每日更新。
芝加哥安全資料 閱讀向芝加哥市通報的 311 通話相關資料。 此資料集以 Parquet 格式儲存,並每日更新。
紐約市安全資料 此資料集包含 2010 年至今所有的紐約市 311 服務要求。 此資料集以 Parquet 格式儲存,並每日更新。
舊金山安全資料 舊金山的消防部門服務通話和 311 案件。 此資料集包含從 2015 年累積至今的歷史記錄。
西雅圖安全資料 西雅圖消防部門 911 調度中心。 此資料集會每日更新,並包含 2010 年累積至今的歷史記錄

補充和一般資料集

資料集 描述
糖尿病 糖尿病資料集有 442 份具有 10 項特徵的範例,因此很適合作為機器學習演算法入門。
OJ 銷售模擬資料 此資料集衍生自 Dominick 的 OJ 資料集,內含額外的模擬資料,旨在提供可輕鬆於 Azure Machine Learning 上同時定型數千個模型的資料集。
手寫數字的 MNIST 資料庫 手寫數字的 MNIST 資料庫包含一個訓練集 (共有 60,000 個範例) 及一個測試集 (共有 10,000 個範例)。 數字已大小正規化且在固定大小的影像置中。
Microsoft 新聞建議資料集 Microsoft 新聞資料集 (MIND) 為適用於新聞推薦研究的大型資料集。 其旨在為新聞推薦的資料集樹立典範,推動新聞推薦與推薦系統的研究。
國定假日 來自 PyPI 假日套件和 Wikipedia 的全球國定假日資料,涵蓋 1970 年至 2099 年的 38 個國家或地區。
俄文開放語音轉換文字 Russian Open STT 是俄文的大型開放語音轉換文字資料集