你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
必应新冠肺炎
必应新冠肺炎数据包含来自各地区的已确诊病例、死亡病例和治愈病例,该数据每日更新。 必应 COVID-19 跟踪器会反映此数据。
必应会从多个受信任的可靠源收集数据,包括:
- BNO 新闻
- 疾病控制和预防中心 (CDC)
- 国家/地区和州公共卫生部门
- 维基百科
- 世界卫生组织 (WHO)
- 华尔街 24/7
注意
Microsoft 按“原样”提供 Azure 开放数据集。 Microsoft 对数据集的使用不提供任何担保(明示或暗示)、保证或条件。 在当地法律允许的范围内,Microsoft 对使用数据集而导致的任何损害或损失不承担任何责任,包括直接、必然、特殊、间接、偶发或惩罚性损害或损失。
此数据集是根据 Microsoft 接收源数据的原始条款提供的。 数据集可能包含来自 Microsoft 的数据。
数据集
修改后的必应 COVID-19 数据集现提供 CSV、JSON、JSON-Lines 和 Parquet 格式。
修改后的所有数据集都添加了 ISO 3166 细分代码和加载次数。 列名称使用小写字母,带下划线分隔符。
此资源提供已修改数据的早期版本和原始数据。
数据量
所有数据集都会收到每日更新。 截至 2023 年 3 月 5 日,它们包含 4,766,737 行。 数据集以以下文件格式提供:
- CSV (560.3 MB)
- JSON (1515.6 MB)
- JSONL (1506.2 MB)
- Parquet (55.4 MB)
许可和使用权归属
根据这些条款和条件,这些数据仅可用于教育和学术目的。 有效用途包括:
- 学术机构
- 政府机构
- 医学研究
出版物中使用或引述的数据应包含归属于“必应 COVID-19 跟踪器”这一表述,且附上指向 www.bing.com/covid 的链接。
联系人
如有关于 COVID-19 数据湖中此数据集或其他数据集的任何问题或反馈,请联系 askcovid19dl@microsoft.com。
列
名称 | 数据类型 | 唯一 | 值(示例) | 说明 |
---|---|---|---|---|
admin_region_1 | string | 864 | Texas Georgia | country_region 中的区域 |
admin_region_2 | string | 3,143 | Washington County Jefferson County | admin_region_1 中的区域 |
confirmed | int | 120,692 | 1 2 | 该区域的确诊病例数 |
confirmed_change | int | 12,120 | 1 2 | 前一天确诊病例数的变化 |
country_region | string | 237 | United States India | 国家/地区 |
deaths | int | 20,616 | 1 2 | 该区域的死亡病例数 |
deaths_change | smallint | 1,981 | 1 2 | 前一天死亡病例数的变化 |
id | int | 1,783,534 | 742546 69019298 | 唯一标识符 |
iso_subdivision | string | 484 | US-TX US-GA | 两部分组成的 ISO 细分代码 |
iso2 | string | 226 | US IN | 双字母国家/地区代码标识符 |
iso3 | string | 226 | USA IND | 三字母国家/地区代码标识符 |
latitude | Double | 5,675 | 42.28708 19.59852 | 区域质心的纬度 |
load_time | timestamp | 1 | 2021-04-26 00:06:34.719000 | 从 GitHub 上的必应源中加载文件的日期和时间 |
longitude | Double | 5,693 | -2.5396 -155.5186 | 区域质心的经度 |
recovered | int | 73,287 | 1 2 | 该区域的治愈病例数 |
recovered_change | int | 10,441 | 1 2 | 前一天治愈病例数的变化 |
已更新 | date | 457 | 2021-04-23 2021-04-22 | 记录的截至日期 |
预览
id | 已更新 | confirmed | deaths | iso2 | iso3 | country_region | admin_region_1 | iso_subdivision | admin_region_2 | load_time | confirmed_change | deaths_change |
---|---|---|---|---|---|---|---|---|---|---|---|---|
338995 | 2020-01-21 | 262 | 0 | Null | Null | 全球 | Null | Null | Null | 4/26/2021 12:06:34 AM | ||
338996 | 2020-01-22 | 313 | 0 | Null | Null | 全球 | Null | Null | Null | 4/26/2021 12:06:34 AM | 51 | 0 |
338997 | 2020-01-23 | 578 | 0 | Null | Null | 全球 | Null | Null | Null | 4/26/2021 12:06:34 AM | 265 | 0 |
338998 | 2020-01-24 | 841 | 0 | Null | Null | 全球 | Null | Null | Null | 4/26/2021 12:06:34 AM | 263 | 0 |
338999 | 2020-01-25 | 1320 | 0 | Null | Null | 全球 | Null | Null | Null | 4/26/2021 12:06:34 AM | 479 | 0 |
339000 | 2020-01-26 | 2014 | 0 | Null | Null | 全球 | Null | Null | Null | 4/26/2021 12:06:34 AM | 694 | 0 |
339001 | 2020-01-27 | 2798 | 0 | Null | Null | 全球 | Null | Null | Null | 4/26/2021 12:06:34 AM | 784 | 0 |
339002 | 2020-01-28 | 4593 | 0 | Null | Null | 全球 | Null | Null | Null | 4/26/2021 12:06:34 AM | 1795 | 0 |
339003 | 2020-01-29 | 6065 | 0 | Null | Null | 全球 | Null | Null | Null | 4/26/2021 12:06:34 AM | 1472 | 0 |
339004 | 2020-01-30 | 7818 | 0 | Null | Null | 全球 | Null | Null | Null | 4/26/2021 12:06:34 AM | 1753 | 0 |
数据访问 - Azure Notebooks
注意
此笔记本记录了用于访问必应 COVID-19 数据集的 URL 和示例代码。
使用以下 URL 获取存放在 Azure Blob 存储中的特定文件格式:
使用 Pandas 中的内置功能从 HTTP URL 下载数据集文件。 Pandas 具有各种文件格式的读取器:
import pandas as pd
import numpy as np
%matplotlib inline
import matplotlib.pyplot as plt
df = pd.read_parquet("https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/bing_covid-19_data/latest/bing_covid-19_data.parquet")
df.head(10)
要验证更新的列是否采用日期/时间格式,请检查各字段的数据类型:
df.dtypes
查看全球数据。 若要可视化数据,请生成一些图表:
df_Worldwide=df[df['country_region']=='Worldwide']
df_Worldwide_pivot=df_Worldwide.pivot_table(df_Worldwide, index=['country_region','updated'])
df_Worldwide_pivot
df_Worldwide.plot(kind='line',x='updated',y="confirmed",grid=True)
df_Worldwide.plot(kind='line',x='updated',y="deaths",grid=True)
df_Worldwide.plot(kind='line',x='updated',y="confirmed_change",grid=True)
df_Worldwide.plot(kind='line',x='updated',y="deaths_change",grid=True)
数据访问 - Azure Databricks
没有适用于此平台/包组合的示例。
数据访问 - Azure Synapse
没有适用于此平台/包组合的示例。
后续步骤
查看开放数据集目录中的其余数据集。