聚慕 - 專業(yè)醫(yī)療器械服務商
設為首頁 收藏本頁 人事招聘 關于聚慕
400-901-5099
全部商品分類
醫(yī)院本地化部署ds全攻略:選型、ai幻覺與安全風險規(guī)避
發(fā)布時間:2025-04-03 09:14:32

作為國內(nèi)首家成功部署全量版DeepSeek-R1-671B的醫(yī)療機構,深圳大學附屬華南醫(yī)院通過創(chuàng)新的量化技術和動態(tài)算力分配策略,實現(xiàn)了千億參數(shù)模型在醫(yī)療場景的落地應用。

面對大模型部署的算力挑戰(zhàn),華南醫(yī)院通過采用INT4量化技術,將671B模型的顯存需求從1.34TB降至336GB,僅需32張H100顯卡即可流暢運行。更巧妙的是,醫(yī)院同時部署了32B、70B和671B三個版本,讓用戶可以根據(jù)任務復雜度靈活切換,既提升了復雜臨床問題的處理能力,又優(yōu)化了算力資源的使用效率。         

在技術落地的過程中,安全性和可靠性是醫(yī)療AI不可逾越的紅線。華南醫(yī)院人工智能團隊發(fā)現(xiàn),使用Ollama工具部署時,存在未授權訪問等安全風險。為此,他們通過嚴格的本地網(wǎng)絡隔離和安全加固,并進行了全面的壓力測試,確保系統(tǒng)在高并發(fā)場景下的穩(wěn)定性。           

針對大模型普遍存在的「幻覺」問題,華南醫(yī)院開創(chuàng)性地將RAG技術與專病知識庫相結合。以外掛臨床指南、專家共識等權威資料的方式,不僅顯著提升了回答的準確性,還能標注答案出處,實現(xiàn)了診療建議的可追溯性?!     ?/p>

3月27日,深圳大學附屬華南醫(yī)院醫(yī)學人工智能研究所副所長張永波做客健康界ALL?。椋睢。粒臁。龋澹幔欤簦琛?chuàng)新應用大講堂,揭秘大模型部署工程細節(jié),分享技術選型、AI幻覺與安全風險規(guī)避經(jīng)驗,展望「AI醫(yī)院」從構想逐步變?yōu)楝F(xiàn)實的路徑。

本文精選部分內(nèi)容,供廣大同仁交流,歡迎在評論區(qū)留言。

算力優(yōu)化策略

量化技術與動態(tài)模型切換

大模型本地化部署對于硬件資源要求較高,比如CPU、GPU、內(nèi)存、存儲以及網(wǎng)絡帶寬等。其中顯卡和GPU的選擇是重中之重。下表展示了醫(yī)院部署DeepSeek?。遥辈煌瑓?shù)版本的顯存需求以及推薦的顯卡配置?! ?/p>

Image

        

張永波介紹,華南醫(yī)院在部署的過程中是選擇量化的方式,也就是將模型中的權重和激活從高精度(如?。疲校常不颍疲校保叮┺D(zhuǎn)換為低精度(如INT8或INT4)的過程,從而降低內(nèi)存占用和計算需求,同時縮小模型體積,加速推理?!     ?/p>

醫(yī)院最終選擇了以INT4量化顯存來部署。如此,僅需一個336GB的顯存,32×H100的顯卡配置是能夠完全滿足671B的本地化部署需求?!    ?/p>

「盡管醫(yī)院投入了大量硬件資源,但由于671B模型的參數(shù)量龐大,算力需求極高,仍無法滿足全院所有人員的并發(fā)使用需求?!箯堄啦ㄌ寡裕葬t(yī)院部署了三種參數(shù),希望讓用戶能夠有序地、基于任務的復雜程度去選擇不同的模型版本。

比如簡單對話,32B模型版本就能夠很好實現(xiàn),如果涉及到比如數(shù)學問題、代碼邏輯推理或者復雜的臨床診療問題時,就需要切換到671B全量參數(shù)的模型,讓其去做推理?!       ?/p>

Image

(院內(nèi)人員可基于自己的任務需求,切換不同參數(shù)版本模型。)

部署大模型

需防Ollama「裸奔」風險

確定了方略之后,如何進行部署?華南醫(yī)院是基于Ollama工具,進行DeepSeek的本地化部署。

Ollama是一個用于本地運行和管理大語言模型(LLM)的命令行工具,它不僅集成了很多包括DeepSeekR1在內(nèi)的開源大模型,提供適用于macOS、Windows 及?。蹋椋睿酰榷喾N平臺的安裝包,內(nèi)置了GPU相關驅(qū)動,能夠讓用戶在本地環(huán)境中輕松部署、運行和監(jiān)控AI模型?!          ?/p>

「但是Ollama有一個問題,就是滿足了速率,犧牲了性能?!箯堄啦ㄌ寡?,當初華南醫(yī)院人工智能團隊為了能夠快速實現(xiàn)部署而使用了Ollama工具,但是后面在開發(fā)過程中發(fā)現(xiàn),基于Ollama部署的DeepSeek在高并發(fā)量情況下是存在缺陷的,比如說同時50個用戶去訪問DeepSeek模型,可能會出現(xiàn)系統(tǒng)崩潰問題?! ?/p>

另一個非常重要的就是安全問題。3月3日,國家網(wǎng)絡安全通報中心發(fā)布《關于大模型工具Ollama存在安全風險的情況通報》,提醒用戶如使用Ollama私有化部署且未修改默認配置,就會存在數(shù)據(jù)泄露、算力盜取、服務中斷等安全風險?! ?/p>

「由于華南醫(yī)院采用本地部署方案,且未開放Ollama的訪問端口,因此有效規(guī)避了潛在的安全風險。」他表示。

在完成本地模型部署后,需要評估當前軟硬件環(huán)境下的模型效能,定位系統(tǒng)瓶頸,也為后期負載均衡提供數(shù)據(jù)支持。張永波介紹,具體可以通過延遲、吞吐量、資源利用率、階梯加壓、極限測試等幾個方面進行性能基準測試和壓力測試。


注:文章來源于網(wǎng)絡,如有侵權,請聯(lián)系刪除

為您找貨 · 告訴我們您想要找什么商品?我們將盡快給您答復。
* 商品名稱:
* 您想了解:
  • 商品資料
  • 貨期
  • 價格
  • 安調(diào)
  • 其他
* 手機號碼:
* 姓名: