創(chuàng )澤機器人 |
CHUANGZE ROBOT |
DeepSeek 對中國大的啟示,還是“開(kāi)放”二字。無(wú)論是 心態(tài)上還是方法上,都要毫不動(dòng)搖地堅持開(kāi)放,繼續開(kāi)放。 DeepSeek 的勝利,就是開(kāi)源打敗閉源。OpenAI 以前是開(kāi)源 的,后來(lái)變成閉源的,這次 DeepSeek 爆火之后,OpenAI 的 奧特曼也出來(lái)說(shuō)話(huà),承認閉源是一種戰略錯誤。
本周?chē)@ DeepSeek 的熱議,讓許多人清 晰地看到了幾個(gè)一直存在的重要趨勢:美國在 GenAIL域的L先地位正在被中國迎頭趕上,AI 供應鏈格局將被重塑;開(kāi)放權重模型正在推動(dòng)基礎模型層商品化,為應用開(kāi)發(fā)者帶來(lái)新機遇 ;擴大規模并非通往 AI 進(jìn)步的途徑。盡管算力 備受追捧,但算法創(chuàng )新正在快速降低訓練成本。
“DeepSeek 可能會(huì )開(kāi)辟一個(gè)全新的由中國引L的技術(shù) 生態(tài)系統,這會(huì )讓的開(kāi)發(fā)者因 DeepSeek 開(kāi)發(fā)的低成本、 更G效的人工智能產(chǎn)品而受益!币晃 TMT L域投資人如是 說(shuō),“這種競爭從某種程度來(lái)說(shuō)也將打破美國科技巨頭的市 場(chǎng)主導地位。
大模型訓練降低成本主要靠?jì)烧校簤嚎s、并行和提升硬 件使用效率。DeepSeek-V3 這次所用的方法基本上就是猛揮 這三板斧。
1. 壓縮:從結構到量化
壓縮很容易理解,就是把大的東西壓縮成小的。對于模 型訓練來(lái)講,壓縮之后,運算單元(GPU 和 CPU)需要進(jìn)行 的運算數據量就會(huì )減少,運算速率必然會(huì )提升。另一個(gè)重要 影響是,內存占用和緩存會(huì )減少,這樣訓練同樣大小的模型 所需要的硬件規模也可以大幅減少。
2. 并行:對硬件的J限使用
要實(shí)現更快的訓練速度,有效的方法就是增加并行計 算的規模,讓更多的計算單元同時(shí)處理不同的數據或任務(wù)。 而在并行中,需要解決的問(wèn)題就是盡可能的有效利用計算資 源,讓它們都G負載的工作。
DeepSeek-V3 這回真的可以說(shuō)是在訓練工程上無(wú)所不用 其J?偨Y下來(lái),重要的包括以下這么幾個(gè)方面。
DeepSeek-V3 的橫空出世,用一組的數據出色詮釋了沒(méi) 有 GPU Poor,只有卷得不夠多。當 o1、Claude、Gemini 和 Llama 3 等模型還在為數億美元的訓練成本苦惱時(shí), DeepSeek-V3 用 557.6 萬(wàn)美元的預算,在 2048 個(gè) H800 GPU集群上僅花費 3.7 天/萬(wàn)億 tokens 的訓練時(shí)間,就達到了足以 與它們比肩的性能。這意味著(zhù)每萬(wàn)億 tokens 僅需 180K 個(gè) H800 GPU 小時(shí),總計 278 萬(wàn) GPU 小時(shí)的訓練成本。而 Llama 3.1 的訓練使用了 16,384 塊 Nvidia H100 GPU,總計 2100 多 萬(wàn) GPU 小時(shí),翻了十倍。通過(guò) 671B 的總參數量,在每個(gè) token 激活 37B 參數的準確控制下,DeepSeek-V3 用 14.8 萬(wàn) 億G質(zhì)量多樣化 token,構建出了一個(gè)能夠超越所有開(kāi)源模 型,直逼 GPT-4 和 Claude-3.5 的 AI 巨人。
![]() |
機器人底盤(pán) Disinfection Robot 消毒機器人 講解機器人 迎賓機器人 移動(dòng)機器人底盤(pán) 商用機器人 智能垃圾站 智能服務(wù)機器人 大屏機器人 霧化消毒機器人 紫外線(xiàn)消毒機器人 消毒機器人價(jià)格 展廳機器人 服務(wù)機器人底盤(pán) 核酸采樣機器人 智能配送機器人 導覽機器人 |