共用方式為


NYC Taxi & Limousine Commission (紐約市計程車和禮車委員會) - 黃色計程車車程記錄

黃色計程車車程記錄包括各種欄位:用以擷取上車和下車日期/時間、上車和下車地點、車程距離、列舉車資、費率類型、付款類型和司機回報的乘客數。

注意

Microsoft 依「現況」提供 Azure 開放資料集。 針對 貴用戶對資料集的使用方式,Microsoft 不提供任何明示或默示的擔保、保證或條件。 在 貴用戶當地法律允許的範圍內,針對因使用資料集而導致的任何直接性、衍生性、特殊性、間接性、附隨性或懲罰性損害或損失,Microsoft 概不承擔任何責任。

此資料集是根據 Microsoft 接收來源資料的原始條款所提供。 資料集可能包含源自 Microsoft 的資料。

資料量與保留期

此資料集以 Parquet 格式儲存, 到 2018 年為止,總共約有 15 億個資料列 (50 GB)。

此資料集包含從 2009 年累積到 2018 年的歷程記錄。 在我們的 SDK 中,您可以使用參數設定來擷取特定時間範圍內的資料。

儲存位置

此資料集儲存於美國東部 Azure 區域。 建議您在美國東部配置計算資源,以確保同質性。

其他資訊

紐約市計程車委員會 (TLC):

資料由依計程車與載客量加強計劃 (TPEP/LPEP) 授權的技術提供者收集,並提供給紐約市計程車委員會 (TLC)。 行程資料並非由 TLC 所建立,且 TLC 不保證這些資料的準確性。

檢視原始資料集位置原始使用規定

資料行

名稱 資料類型 唯一 Values (sample) 描述
doLocationId 字串 265 161 236 計程車計費表未涵蓋的 TLC 計程車區域。
endLat double 961,994 41.366138 40.75
endLon double 1,144,935 -73.137393 -73.9824
extra double 877 0.5 1.0 其他事項和附加費。 目前僅包括美金 $0.50 元和美金 $1 元的尖峰時段與隔夜費用。
fareAmount double 18,935 6.5 4.5 計費表計算的時間和距離票價。
improvementSurcharge 字串 60 0.3 0 行程起跳價另含美金 $0.30 元的改善附加費。 自 2015 年起開始徵收改善附加費。
mtaTax double 360 0.5 -0.5 根據使用中計費率自動觸發的美金 $0.50 元 MTA 稅金。
passengerCount int 64 1 和 2 車輛中的乘客數量。 此值由司機輸入。
paymentType 字串 6,282 CSH CRD 表示旅客應如何支付行程費用的數字代碼。 1= 信用卡;2= 現金;3= 不收費;4= 爭議;5= 未知;6= 無效車程。
puLocationId 字串 266 237 161 計程車計費表已涵蓋的 TLC 計程車區域。
puMonth int 12 3 5
puYear int 29 2012 2011
rateCodeId int 56 1 和 2 行程結束時生效的最終費率代碼。 1= 標準費率;2= JFK;3= Newark;4= Nassau 或 Westchester;5= 交涉費用;6= 群組車程。
startLat double 833,016 41.366138 40.7741
startLon double 957,428 -73.137393 -73.9821
storeAndFwdFlag 字串 8 N 0 此旗標指出由於車輛無法與伺服器連線,在將記錄傳送給廠商之前,行程記錄是否已保存於車輛記憶體內 (也將其稱為「儲存和轉送」)。 Y= 儲存和轉送車程;N= 非儲存和轉送車程。
tipAmount double 12,121 1.0 2.0 此欄位會自動填寫信用卡小費。 不含現金小費。
tollsAmount double 6,634 5.33 4.8 行程中支付的所有通行費總金額。
totalAmount double 39,707 7.0 7.8 向乘客收取的總金額。 不含現金小費。
tpepDropoffDateTime timestamp 290,185,010 2010-11-07 01:29:00 2013-11-03 01:22:00 計量分離的日期和時間。
tpepPickupDateTime timestamp 289,948,585 2010-11-07 01:00:00 2009-11-01 01:05:00 計費表計費的日期和時間。
tripDistance double 14,003 1.0 0.9 計程車計費表所報告的經過行程距離 (英哩)。
vendorID 字串 7 VTS CMT 指出提供記錄的 TPEP 提供者代碼。 1= Creative Mobile Technologies, LLC;2= VeriFone Inc.
vendorID int 2 2 1 指出提供記錄的 LPEP 提供者代碼。 1= Creative Mobile Technologies, LLC;2= VeriFone Inc.

預覽​​

vendorID tpepPickupDateTime tpepDropoffDateTime passengerCount tripDistance puLocationId doLocationId rateCodeId storeAndFwdFlag paymentType fareAmount extra mtaTax improvementSurcharge tipAmount tollsAmount totalAmount puYear puMonth
2 1/24/2088 12:25:39 AM 1/24/2088 7:28:25 AM 1 4.05 24 162 1 2 14.5 0 0.5 0.3 0 0 15.3 2088 1
2 1/24/2088 12:15:42 AM 1/24/2088 12:19:46 AM 1 0.63 41 166 1 2 4.5 0 0.5 0.3 0 0 5.3 2088 1
2 11/4/2084 12:32:24 PM 11/4/2084 12:47:41 PM 1 1.34 238 236 1 2 10 0 0.5 0.3 0 0 10.8 2084 11
2 11/4/2084 12:25:53 PM 11/4/2084 12:29:00 PM 1 0.32 238 238 1 2 4 0 0.5 0.3 0 0 4.8 2084 11
2 11/4/2084 12:08:33 PM 11/4/2084 12:22:24 PM 1 1.85 236 238 1 2 10 0 0.5 0.3 0 0 10.8 2084 11
2 11/4/2084 11:41:35 AM 11/4/2084 11:59:41 AM 1 1.65 68 237 1 2 12.5 0 0.5 0.3 0 0 13.3 2084 11
2 11/4/2084 11:27:28 AM 11/4/2084 11:39:52 AM 1 1.07 170 68 1 2 9 0 0.5 0.3 0 0 9.8 2084 11
2 11/4/2084 11:19:06 AM 11/4/2084 11:26:44 AM 1 1.3 107 170 1 2 7.5 0 0.5 0.3 0 0 8.3 2084 11
2 11/4/2084 11:02:59 AM 11/4/2084 11:15:51 AM 1 1.85 113 137 1 2 10 0 0.5 0.3 0 0 10.8 2084 11
2 11/4/2084 10:46:05 AM 11/4/2084 10:50:09 AM 1 0.62 231 231 1 2 4.5 0 0.5 0.3 0 0 5.3 2084 11

資料存取

Azure Notebooks

# This is a package in preview.
from azureml.opendatasets import NycTlcYellow

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcYellow(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_pandas_dataframe()

nyc_tlc_df.info()

Azure Databricks

# This is a package in preview.
# You need to pip install azureml-opendatasets in Databricks cluster. https://zcusa.951200.xyz/azure/data-explorer/connect-from-databricks#install-the-python-library-on-your-azure-databricks-cluster
from azureml.opendatasets import NycTlcYellow

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcYellow(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()

display(nyc_tlc_df.limit(5))

Azure Synapse

# This is a package in preview.
from azureml.opendatasets import NycTlcYellow

from datetime import datetime
from dateutil import parser

end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcYellow(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()

# Display top 5 rows
display(nyc_tlc_df.limit(5))

下一步

檢視開放資料集目錄中的其餘資料集。