四月_AI模型專題｜DeepSeek 撼動全世界的技術創新(下)

發佈於: 2025/04/02|分類: 科技(Technology)|

DeepSeek-V3模型概述

DeepSeek於2024年聖誕節推出DeepSeek-V3模型，是基於Transformer架構，並將上文所提及的專家混合（Mixture-of-Experts, MoE）架構做了一些創新，其總參數量達到6710億，且每層256個專家中僅啟動8+1個，達到了高效且精確的處理。其有三大創新點：

一、客製化模型架構（僅選8+1個專家：8個Routed Expert +1個Shared Expert）

DeepSeek-V3能夠在性能與計算效率之間取得卓越平衡，關鍵在於其精心設計的客製化模型架構。其中，最核心的創新便為自主研發的專家混合（Mixture-of-Experts, MoE）機制。透過更細緻、更小型化、數量更多的專家設計，並額外引入

更多詳細內容，請註冊會員或登入會員登入.

四月_AI模型專題｜DeepSeek 撼動全世界的技術創新(上)

四月_關稅戰專題｜川普關稅新政的動機與風險解析