返回
為幫助企業(yè)用戶降低深度學(xué)習(xí)部署與應(yīng)用門(mén)檻,構(gòu)建軟硬一體的分布式全棧推理平臺(tái),寶德推出了基于 AI 推理服務(wù)器 PR2715P2,可支持 Analytics Zoo Cluster Serving 的自動(dòng)分布式可擴(kuò)展推理平臺(tái)。寶德PR2715P2采用了全新設(shè)計(jì),融合了第二代英特爾® 至強(qiáng)® 可擴(kuò)展處理器和英特爾® 深度學(xué)習(xí)加速(英特爾® DL Boost)技術(shù),在性能與功耗之間實(shí)現(xiàn)了有效平衡,為深度學(xué)習(xí)應(yīng)用提供了一個(gè)高效能的基礎(chǔ)平臺(tái)。
挑戰(zhàn):如何加速深度學(xué)習(xí)部署與優(yōu)化
隨著深度學(xué)習(xí)算法的不斷創(chuàng)新,越來(lái)越多的應(yīng)用需要對(duì)深度學(xué)習(xí)模型進(jìn)行大規(guī)模和實(shí)時(shí)的分布式推理服務(wù)。雖然已經(jīng)有一些工具可用于模型優(yōu)化、服務(wù)、集群調(diào)度、工作流管理等相關(guān)任務(wù),但是對(duì)于許多深度學(xué)習(xí)的工程師和科學(xué)家而言,開(kāi)發(fā)和部署能夠透明地?cái)U(kuò)展到大型集群的分布式推理工作流仍然是一個(gè)嚴(yán)峻的挑戰(zhàn)。
為了便于構(gòu)建和生成面向大數(shù)據(jù)的深度學(xué)習(xí)應(yīng)用程序,英特爾推出了 Analytics Zoo 平臺(tái)。該平臺(tái)提供了統(tǒng)一的數(shù)據(jù)分析+ AI平臺(tái),可將TensorFlow、Keras、Pytorch、BigDl Spark、Flink和 Ray 程序無(wú)縫集成到一個(gè)統(tǒng)一的數(shù)據(jù)分析流水線中,用于分布式訓(xùn)練或預(yù)測(cè),方便用戶構(gòu)建深度學(xué)習(xí)應(yīng)用。整個(gè)流水線可以透明地?cái)U(kuò)展到運(yùn)行在由搭載英特爾® 至強(qiáng)® 處理器的服務(wù)器組成的 Hadoop/Spark 集群上,以進(jìn)行分布式訓(xùn)練或推理。
Analytics Zoo 在較新的版本中還提供了對(duì)于 Cluster Serving 的支持,構(gòu)建了輕量級(jí)、分布式、實(shí)時(shí)的模型服務(wù)解決方案。Analytics Zoo Cluster Serving 支持多種深度學(xué)習(xí)模型,提供了一個(gè)簡(jiǎn)單的發(fā)布/訂閱 API,可支持用戶可輕松地將他們的推理請(qǐng)求發(fā)送到輸入隊(duì)列。然后,Cluster Serving 將使用分布式流框架在大型集群中進(jìn)行實(shí)時(shí)模型推理和自動(dòng)擴(kuò)展規(guī)模。
圖1. Analytics Zoo Cluster Serving 解決方案總體框架
要部署基于 Analytics Zoo Cluster Serving 的深度學(xué)習(xí)算法與應(yīng)用,企業(yè)需要進(jìn)行硬件選型、優(yōu)化與驗(yàn)證,以提供高性能的算力支撐,但在此過(guò)程中,企業(yè)也面臨著艱巨的挑戰(zhàn)。首先,傳統(tǒng)的解決方案并非是全棧設(shè)計(jì),需要在硬件選型、軟硬件適配與優(yōu)化等方面耗費(fèi)大量的時(shí)間與精力,也容易帶來(lái)總體擁有成本 (TCO) 的上升。
其次,深度學(xué)習(xí)算法與應(yīng)用對(duì)于 AI 性能有著很高的要求,未針對(duì) AI 進(jìn)行性能優(yōu)化的 CPU 在運(yùn)行效率上存在明顯瓶頸。GPU 服務(wù)器雖然能夠提供充足的算力支持,但是成本相對(duì)較高,應(yīng)用范圍受到較多的局限,而且其需要專(zhuān)門(mén)的部署與調(diào)優(yōu),不利于深度學(xué)習(xí)應(yīng)用的快速上市。
解決方案:基于寶德 PR2715P2 AI 推理服務(wù)器的自動(dòng)分布式可擴(kuò)展推理平臺(tái)
搭載第二代英特爾至強(qiáng)可擴(kuò)展處理器的寶德 PR2715P2 AI 推理服務(wù)器全面支持Analytics Zoo Cluster Serving分布式推理技術(shù)方案。該推理服務(wù)器是一款軟硬一體的分布式全棧推理解決方案,專(zhuān)為高性能計(jì)算、高級(jí)人工智能分析任務(wù)而設(shè)計(jì),具有出色的性能功耗比。
圖2:寶德 PR2715P2 AI 推理服務(wù)器
第二代英特爾至強(qiáng)可擴(kuò)展處理器專(zhuān)為數(shù)據(jù)中心現(xiàn)代化革新而設(shè)計(jì),能夠提高各種基礎(chǔ)設(shè)施、企業(yè)應(yīng)用及技術(shù)計(jì)算應(yīng)用的運(yùn)行效率,進(jìn)而改善總體擁有成本(TCO),提升用戶生產(chǎn)力。它擁有更高的單核性能,能夠在計(jì)算、存儲(chǔ)和網(wǎng)絡(luò)應(yīng)用中,為計(jì)算密集型工作負(fù)載提供高性能和可擴(kuò)展性。得益于英特爾® 超級(jí)通道互聯(lián)(英特爾® UPI)、英特爾® Infrastructure Management 技術(shù)(英特爾® IMT)、英特爾® 高級(jí)矢量擴(kuò)展指令集512(英特爾® AVX-512)等領(lǐng)先功能,它可滿足嚴(yán)苛的 I/O 密集型工作負(fù)載的需求。
此外,第二代英特爾至強(qiáng)可擴(kuò)展處理器內(nèi)置人工智能加速,并已針對(duì)工作負(fù)載進(jìn)行優(yōu)化,能夠?yàn)楦鞣N高性能計(jì)算工作負(fù)載、AI應(yīng)用以及高密度基礎(chǔ)設(shè)施帶來(lái)一流的性能和內(nèi)存帶寬。同時(shí),采用矢量神經(jīng)網(wǎng)絡(luò)指令(VNNI)的英特爾® 深度學(xué)習(xí)加速(英特爾® DL Boost)顯著提高了人工智能推理的表現(xiàn),與上一代產(chǎn)品相比,性能提升高達(dá) 14 倍。這使其成為拓展 AI 應(yīng)用的卓越基礎(chǔ)設(shè)施。
在寶德 PR2715P2 AI 推理服務(wù)器搭建的平臺(tái)上,用戶只需要準(zhǔn)備 Analytics Zoo Cluster Serving 的 Docker Image、配置文件、訓(xùn)練好的模型(當(dāng)前支持的模型包括TensorFlow、PyTorch、Caffe、BigDL和OpenVINO™的模型)及推理數(shù)據(jù),即可在幾分鐘內(nèi)啟動(dòng)并運(yùn)行推理應(yīng)用。
通過(guò)加入對(duì)于 Analytics Zoo Cluster Serving 的支持,寶德一體化分布式可擴(kuò)展人工智能推理方案顯著降低了配置和流程的復(fù)雜程度,在提供高級(jí)定制化服務(wù)的同時(shí),有效降低了 TCO。這種全新的集群模型服務(wù)支持有助于簡(jiǎn)化用戶的分布式推理工作流,提高工作效率,并為深度學(xué)習(xí)場(chǎng)景帶來(lái)領(lǐng)先的性能。
效果:自動(dòng)分布式可擴(kuò)展推理平臺(tái)加速深度學(xué)習(xí)部署與應(yīng)用
通過(guò)部署基于寶德 PR2715P2AI 推理服務(wù)器的自動(dòng)分布式可擴(kuò)展推理平臺(tái),用戶能夠?qū)崿F(xiàn)如下價(jià)值:
華北/華西 16600088867 華東/華南 13911102923