Abstract:
We present hyper-connections, a simple yet effective method that can serve as an alternative to
residual connections. This approach specifically addresses common drawbacks observed in residual connection variants, such as the seesaw effect between gradient vanishing and representation collapse. Theoretically, hyper-connections allow the network to adjust the strength of connections between features at different depths and dynamically rearrange layers. We conduct experiments focusing on the pre-training of large language models, including dense and sparse models, where hyper-connections show significant performance improvements over residual connections. Additional experiments conducted on vision tasks also demonstrate similar improvements. We anticipate that this method will be broadly applicable and beneficial across a wide range of AI problems.
好的,DeepSeek 去年也是在年初橫空出世,給了市場一波想像空間與 FUD。2026 元旦,梁文鋒沒有先發產品,而是選擇先發論文。
DeepSeek 在 2026 年的第一發,是一篇提出全新模型架構的研究,名為 mHC(流形約束超連接),目標是從「模型底層結構」本身,解決大型 AI 模型越做越大時,訓練容易不穩定、成本急速上升的問題。
簡單說,這篇論文在做的事情是:
讓模型可以變得更強、更複雜,但不會因此更容易炸掉,也不會把顯存和算力浪費光。
目前主流的 Transformer 模型,之所以能穩定訓練,是因為有「殘差連接」這個設計,確保訊號在每一層都不會被破壞。但它也有一個先天限制:
資訊只能走一條路,通道寬度有限。
近年出現的 Hyper-Connections(HC) 嘗試解決這個問題,做法是把殘差連接「加寬」,讓資訊可以多路並行流動,確實能提升模型表現;但代價是:
訓練容易不穩定,深一點就會數值爆炸
顯存與通訊成本大幅上升,難以大規模擴展
mHC 的關鍵突破在於:不是否定 HC,而是把它「管好」。
DeepSeek 的做法,是對殘差連接之間的混合方式加上嚴格約束,確保每一層只是「重新分配資訊比例」,而不是偷偷把訊號放大或抵消。這讓模型在殘差流變寬的同時,仍然能維持過去 Transformer 引以為傲的訓練穩定性。
實驗結果顯示,在 270 億參數等級的大模型中,mHC 幾乎沒有明顯增加訓練成本,卻能帶來穩定且可延展的性能提升。
換句話說,這篇論文不是在「調參」,而是在回答一個更根本的問題:
未來的大模型,除了堆參數,還能不能從架構本身繼續進化?
從梁文鋒署名、又選在元旦發布來看,這很可能不是單篇研究,而是 DeepSeek 下一階段模型設計方向的前哨。