四月_AI模型專題|DeepSeek 撼動全世界的技術創新(下)
DeepSeek-V3模型概述
DeepSeek於2024年聖誕節推出DeepSeek-V3模型,是基於Transformer架構,並將上文所提及的專家混合(Mixture-of-Experts, MoE)架構做了一些創新,其總參數量達到6710億,且每層256個專家中僅啟動8+1個,達到了高效且精確的處理。其有三大創新點:
一、 客製化模型架構(僅選8+1個專家:8個Routed Expert +1個Shared Expert)
DeepSeek-V3能夠在性能與計算效率之間取得卓越平衡,關鍵在於其精心設計的客製化模型架構。其中,最核心的創新便為自主研發的專家混合(Mixture-of-Experts, MoE)機制。透過更細緻、更小型化、數量更多的專家設計,並額外引入更多詳細內容,請註冊會員或登入會員登入.