NYC Taxi & Limousine Commission (紐約市計程車和禮車委員會) - 黃色計程車車程記錄
黃色計程車車程記錄包括各種欄位:用以擷取上車和下車日期/時間、上車和下車地點、車程距離、列舉車資、費率類型、付款類型和司機回報的乘客數。
注意
Microsoft 依「現況」提供 Azure 開放資料集。 針對 貴用戶對資料集的使用方式,Microsoft 不提供任何明示或默示的擔保、保證或條件。 在 貴用戶當地法律允許的範圍內,針對因使用資料集而導致的任何直接性、衍生性、特殊性、間接性、附隨性或懲罰性損害或損失,Microsoft 概不承擔任何責任。
此資料集是根據 Microsoft 接收來源資料的原始條款所提供。 資料集可能包含源自 Microsoft 的資料。
資料量與保留期
此資料集以 Parquet 格式儲存, 到 2018 年為止,總共約有 15 億個資料列 (50 GB)。
此資料集包含從 2009 年累積到 2018 年的歷程記錄。 在我們的 SDK 中,您可以使用參數設定來擷取特定時間範圍內的資料。
儲存位置
此資料集儲存於美國東部 Azure 區域。 建議您在美國東部配置計算資源,以確保同質性。
其他資訊
紐約市計程車委員會 (TLC):
資料由依計程車與載客量加強計劃 (TPEP/LPEP) 授權的技術提供者收集,並提供給紐約市計程車委員會 (TLC)。 行程資料並非由 TLC 所建立,且 TLC 不保證這些資料的準確性。
資料行
名稱 | 資料類型 | 唯一 | Values (sample) | 描述 |
---|---|---|---|---|
doLocationId | 字串 | 265 | 161 236 | 計程車計費表未涵蓋的 TLC 計程車區域。 |
endLat | double | 961,994 | 41.366138 40.75 | |
endLon | double | 1,144,935 | -73.137393 -73.9824 | |
extra | double | 877 | 0.5 1.0 | 其他事項和附加費。 目前僅包括美金 $0.50 元和美金 $1 元的尖峰時段與隔夜費用。 |
fareAmount | double | 18,935 | 6.5 4.5 | 計費表計算的時間和距離票價。 |
improvementSurcharge | 字串 | 60 | 0.3 0 | 行程起跳價另含美金 $0.30 元的改善附加費。 自 2015 年起開始徵收改善附加費。 |
mtaTax | double | 360 | 0.5 -0.5 | 根據使用中計費率自動觸發的美金 $0.50 元 MTA 稅金。 |
passengerCount | int | 64 | 1 和 2 | 車輛中的乘客數量。 此值由司機輸入。 |
paymentType | 字串 | 6,282 | CSH CRD | 表示旅客應如何支付行程費用的數字代碼。 1= 信用卡;2= 現金;3= 不收費;4= 爭議;5= 未知;6= 無效車程。 |
puLocationId | 字串 | 266 | 237 161 | 計程車計費表已涵蓋的 TLC 計程車區域。 |
puMonth | int | 12 | 3 5 | |
puYear | int | 29 | 2012 2011 | |
rateCodeId | int | 56 | 1 和 2 | 行程結束時生效的最終費率代碼。 1= 標準費率;2= JFK;3= Newark;4= Nassau 或 Westchester;5= 交涉費用;6= 群組車程。 |
startLat | double | 833,016 | 41.366138 40.7741 | |
startLon | double | 957,428 | -73.137393 -73.9821 | |
storeAndFwdFlag | 字串 | 8 | N 0 | 此旗標指出由於車輛無法與伺服器連線,在將記錄傳送給廠商之前,行程記錄是否已保存於車輛記憶體內 (也將其稱為「儲存和轉送」)。 Y= 儲存和轉送車程;N= 非儲存和轉送車程。 |
tipAmount | double | 12,121 | 1.0 2.0 | 此欄位會自動填寫信用卡小費。 不含現金小費。 |
tollsAmount | double | 6,634 | 5.33 4.8 | 行程中支付的所有通行費總金額。 |
totalAmount | double | 39,707 | 7.0 7.8 | 向乘客收取的總金額。 不含現金小費。 |
tpepDropoffDateTime | timestamp | 290,185,010 | 2010-11-07 01:29:00 2013-11-03 01:22:00 | 計量分離的日期和時間。 |
tpepPickupDateTime | timestamp | 289,948,585 | 2010-11-07 01:00:00 2009-11-01 01:05:00 | 計費表計費的日期和時間。 |
tripDistance | double | 14,003 | 1.0 0.9 | 計程車計費表所報告的經過行程距離 (英哩)。 |
vendorID | 字串 | 7 | VTS CMT | 指出提供記錄的 TPEP 提供者代碼。 1= Creative Mobile Technologies, LLC;2= VeriFone Inc. |
vendorID | int | 2 | 2 1 | 指出提供記錄的 LPEP 提供者代碼。 1= Creative Mobile Technologies, LLC;2= VeriFone Inc. |
預覽
vendorID | tpepPickupDateTime | tpepDropoffDateTime | passengerCount | tripDistance | puLocationId | doLocationId | rateCodeId | storeAndFwdFlag | paymentType | fareAmount | extra | mtaTax | improvementSurcharge | tipAmount | tollsAmount | totalAmount | puYear | puMonth |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
2 | 1/24/2088 12:25:39 AM | 1/24/2088 7:28:25 AM | 1 | 4.05 | 24 | 162 | 1 | 否 | 2 | 14.5 | 0 | 0.5 | 0.3 | 0 | 0 | 15.3 | 2088 | 1 |
2 | 1/24/2088 12:15:42 AM | 1/24/2088 12:19:46 AM | 1 | 0.63 | 41 | 166 | 1 | 否 | 2 | 4.5 | 0 | 0.5 | 0.3 | 0 | 0 | 5.3 | 2088 | 1 |
2 | 11/4/2084 12:32:24 PM | 11/4/2084 12:47:41 PM | 1 | 1.34 | 238 | 236 | 1 | 否 | 2 | 10 | 0 | 0.5 | 0.3 | 0 | 0 | 10.8 | 2084 | 11 |
2 | 11/4/2084 12:25:53 PM | 11/4/2084 12:29:00 PM | 1 | 0.32 | 238 | 238 | 1 | 否 | 2 | 4 | 0 | 0.5 | 0.3 | 0 | 0 | 4.8 | 2084 | 11 |
2 | 11/4/2084 12:08:33 PM | 11/4/2084 12:22:24 PM | 1 | 1.85 | 236 | 238 | 1 | 否 | 2 | 10 | 0 | 0.5 | 0.3 | 0 | 0 | 10.8 | 2084 | 11 |
2 | 11/4/2084 11:41:35 AM | 11/4/2084 11:59:41 AM | 1 | 1.65 | 68 | 237 | 1 | 否 | 2 | 12.5 | 0 | 0.5 | 0.3 | 0 | 0 | 13.3 | 2084 | 11 |
2 | 11/4/2084 11:27:28 AM | 11/4/2084 11:39:52 AM | 1 | 1.07 | 170 | 68 | 1 | 否 | 2 | 9 | 0 | 0.5 | 0.3 | 0 | 0 | 9.8 | 2084 | 11 |
2 | 11/4/2084 11:19:06 AM | 11/4/2084 11:26:44 AM | 1 | 1.3 | 107 | 170 | 1 | 否 | 2 | 7.5 | 0 | 0.5 | 0.3 | 0 | 0 | 8.3 | 2084 | 11 |
2 | 11/4/2084 11:02:59 AM | 11/4/2084 11:15:51 AM | 1 | 1.85 | 113 | 137 | 1 | 否 | 2 | 10 | 0 | 0.5 | 0.3 | 0 | 0 | 10.8 | 2084 | 11 |
2 | 11/4/2084 10:46:05 AM | 11/4/2084 10:50:09 AM | 1 | 0.62 | 231 | 231 | 1 | 否 | 2 | 4.5 | 0 | 0.5 | 0.3 | 0 | 0 | 5.3 | 2084 | 11 |
資料存取
Azure Notebooks
# This is a package in preview.
from azureml.opendatasets import NycTlcYellow
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcYellow(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_pandas_dataframe()
nyc_tlc_df.info()
Azure Databricks
# This is a package in preview.
# You need to pip install azureml-opendatasets in Databricks cluster. https://zcusa.951200.xyz/azure/data-explorer/connect-from-databricks#install-the-python-library-on-your-azure-databricks-cluster
from azureml.opendatasets import NycTlcYellow
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcYellow(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()
display(nyc_tlc_df.limit(5))
Azure Synapse
# This is a package in preview.
from azureml.opendatasets import NycTlcYellow
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcYellow(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()
# Display top 5 rows
display(nyc_tlc_df.limit(5))
下一步
檢視開放資料集目錄中的其餘資料集。