快速入門:設定適用於 Linux (Ubuntu) 的資料科學虛擬機器
使用 Ubuntu 20.04 資料科學虛擬機器 (DSVM) 和適用於 PyTorch 的 Azure DSVM 啟動並執行。
必要條件
您需有 Azure 訂用帳戶,才能建立 Ubuntu 20.04 資料科學虛擬機器或適用於 PyTorch 的 Azure DSVM。 免費試用 Azure。
Azure 免費帳戶不支援已啟用 GPU 的虛擬機器 (VM) SKU。
建立 Linux 適用的資料科學虛擬機器
若要建立 Ubuntu 20.04 DSVM 或適用於 PyTorch 的 Azure DSVM 執行個體:
前往 Azure 入口網站。 如果您尚未登入,您可能會收到登入 Azure 帳戶的提示。
輸入資料科學虛擬機器來尋找 VM 清單。 然後選取 [資料科學虛擬機器 - Ubuntu 20.04] 或 [適用於 PyTorch 的 Azure DSVM]。
選取 建立。
在 [建立虛擬機器] 窗格上,填入 [基本資料] 索引標籤:
訂用帳戶:如果您有一個以上的訂用帳戶,請選取計算機建立並計費所在的訂用帳戶。 您必須有此訂用帳戶的資源建立權限。
資源群組:建立新的群組或使用現有群組。
虛擬機器名稱:輸入 VM 的名稱。 此名稱使用於 Azure 入口網站中。
區域:選取最適合的資料中心。 若要獲得最快的網路存取速度,裝載大部分資料或最接近您實體位置的資料中心是最佳選擇。 如需詳細資訊,請流覽 Azure 區域。
映像:請勿變更預設值。
大小:此選項應會自動填入適合一般工作負載的大小。 如需詳細資訊,請流覽 Azure 中的 Linux VM 大小。
驗證類型:如需更快速的設定,請選取 [密碼]。
注意
如果您打算使用 JupyterHub,請務必選取 [密碼],因為 JupyterHub 未設定為使用安全殼層 (SSH) 通訊協定公鑰。
使用者名稱:輸入系統管理員使用者名稱。 您可使用此使用者名稱登入您的 VM。 它不需要符合您的 Azure 使用者名稱。 請勿使用大寫字母。
重要
如果您的使用者名稱使用大寫字母,JupyterHub 將無法運作,而且您會遇到 500 內部伺服器錯誤。
密碼:輸入您打算用來登入 VM 的密碼。
選取 [檢閱 + 建立]。
在 [檢閱 + 建立] 窗格上:
- 請確認您輸入的所有資訊都正確無誤。
- 選取 建立。
佈建流程大約需要 5 分鐘。 您可以在 Azure 入口網站中檢視 VM 的狀態。
存取 Ubuntu 智慧資料科學虛擬機器
您可以使用下列四種方式之一來存取 Ubuntu DSVM:
- SSH (適用於終端機工作階段)
- X2Go (適用於圖形化工作階段)
- X2Go (適用於圖形化工作階段)
- JupyterHub 和 JupyterLab (適用於 Jupyter 筆記本)
SSH
如果您已使用 SSH 驗證來設定 VM,則可使用您在文字殼層介面步驟 4 的 [基本資料] 區段中建立的帳戶認證來登入。 如需詳細資訊,請流覽 深入瞭解如何連線到Linux VM。
xrdp
xrdp 是存取 Linux 圖形化工作階段的標準工具。 雖然發行版本預設不包含此工具,這些指示仍會說明如何安裝此工具。
X2Go
注意
在測試中,X2Go 用戶端的效能優於 X11 轉寄。 我們建議您使用 X2Go 用戶端作為圖形化桌面介面。
Linux VM 已經使用 X2Go 伺服器佈建,並已準備好接受用戶端連線。 若要連線到 Linux VM 圖形化桌面,請在用戶端上完成下列程式:
從 X2Go下載並安裝您用戶端平台適用的 X2Go 用戶端。
請記下 VM 的公用 IP 位址。 在 Azure 入口網站中,開啟您建立的 VM 以尋找此資訊。
執行 X2Go 用戶端。 如果 [新增會話] 窗格未自動開啟,請選取 [會話>新會話]。
在產生的設定窗格中,輸入下列設定參數:
- 工作階段:
- 主機:輸入您稍早記下的 VM IP 位址。
- 登入:輸入 Linux VM 上的使用者名稱。
- SSH 連接埠︰保留預設值 22。
- 工作階段類型:將值變更為 XFCE。 目前,Linux VM 僅支援 XFCE 桌面。
- 媒體:如果您不需要使用聲音支援和用戶端列印,可關閉這些功能。
- 共用資料夾:使用此索引標籤可新增您想要在 VM 上掛接的用戶端電腦目錄。
- 工作階段:
選取 [確定]。
若要顯示 VM 的登入窗格,請選取 X2Go 窗格右窗格中的方塊。
輸入 VM 的密碼。
選取 [確定]。
您可能需要賦予 X2Go 權限,以略過防火牆來完成連線流程。
您現在應該會看到 Ubuntu DSVM 的圖形化介面。
JupyterHub 和 JupyterLab
Ubuntu DSVM 會執行 JupyterHub,這是一個多使用者的 Jupyter 伺服器。 若要連線,請依照下列步驟執行:
請記下 VM 的公用 IP 位址。 若要尋找此值,請在 Azure 入口網站中搜尋並選取您的 VM,如此螢幕擷取畫面所示。
從本機電腦開啟網頁瀏覽器,然後移至
https://your-vm-ip:8000
。 將 your-vm-ip 取代為您先前記下的 IP 位址。您的瀏覽器可能會讓您無法直接開啟窗格。 它可能會告訴您有憑證錯誤。 DSVM 會透過自我簽署憑證提供安全性。 大部分的瀏覽器都可讓您在此警告之後進行選取。 許多瀏覽器會繼續在整個 Web 工作階段中提供有關憑證的某種視覺警告。
如果您在瀏覽器中看到
ERR_EMPTY_RESPONSE
錯誤訊息,請務必明確使用 HTTPS 通訊協定來存取電腦。 HTTP 或僅只網址不適用於此步驟。 如果您在網址行中輸入網址,https://
則大部分瀏覽器預設http
為 ,並會出現錯誤。請輸入您用來建立 VM 的使用者名稱和密碼,然後登入,如此螢幕擷取畫面所示。
如果您在這個階段收到 500 錯誤,您可能在使用者名稱中使用大寫字母。 此問題是 JupyterHub 與其使用的 PAM 驗證器之間的已知互動。
如果您收到 無法連線到此頁面 錯誤,可能是您的網路安全組 (NSG) 許可權需要調整。 在 Azure 入口網站中,尋找資源群組內的 NSG 資源。 若要從公用網際網路存取 JupyterHub,您必須開啟連接埠 8000。 (此映像顯示此 VM 已設定為 Just-In-Time 存取,我們強烈建議使用此 VM。如需詳細資訊,請造訪 使用 Just-In-Time 存取保護您的管理埠。
瀏覽可用的範例筆記本。
也提供 JupyterLab (新一代的 Jupyter 筆記本) 與 JupyterHub。 若要存取它,請登入 JupyterHub。 然後瀏覽至 URL https://your-vm-ip:8000/user/your-username/lab
。 將 your-username 取代為您設定 VM 時所選擇的使用者名稱。 同樣地,潛在的憑證錯誤一開始可能會阻止您存取網站。
若要將 JupyterLab 設定為預設筆記本伺服器,請將這一行新增至 /etc/jupyterhub/jupyterhub_config.py
:
c.Spawner.default_url = '/lab'
下一步
- 請流覽 linux 資料科學虛擬機器 上的數據科學逐步解說,瞭解如何使用此處布建的 Linux DSVM 來執行數個常見的數據科學工作。
- 試用本文描述的工具,在 DSVM 上探索各種資料科學工具。 您也可以在 VM 內的殼層上執行
dsvm-more-info
,以獲得與 VM 上安裝的工具有關的基本簡介和詳細資訊指標。 - 了解如何透過 Team Data Science Process (部分機器翻譯) 以系統化方式建置分析解決方案。
- 請流覽此 VM 的適當 參考檔 。