洪恒飛 科技日報記者 江耘
記者29日從阿里云獲悉,當天凌晨,阿里巴巴開源新一代通義千問模型Qwen3(以下簡稱“千問3”)。性能大幅提升的同時,千問3的部署成本還大幅下降,僅需4張H20顯卡即可部署千問3滿血版,顯存占用僅為性能相近模型的三分之一。
據(jù)了解,千問3采用混合專家架構(gòu),總參數(shù)量235B,激活僅需22B。千問3預(yù)訓練數(shù)據(jù)量達36T tokens,并在后訓練階段多輪強化學習,將非思考模式無縫整合到思考模型中。千問3在推理、指令遵循、工具調(diào)用、多語言能力等方面均大幅增強,即創(chuàng)下所有國產(chǎn)模型及全球開源模型的性能新高。
千問3是國內(nèi)首個“混合推理模型”,將“快思考”與“慢思考”集成進同一個模型,對簡單需求可低算力“秒回”答案,對復雜問題可多步驟“深度思考”,大大節(jié)省算力消耗。其在奧數(shù)水平、代碼能力、評估模型人類偏好對齊的多輪測評中展現(xiàn)了較強的能力。
在評估模型Agent能力的BFCL評測中,千問3創(chuàng)下70.8的新高,超越Gemini2.5-Pro、OpenAI-o1等頂尖模型,將大幅降低Agent調(diào)用工具的門檻。同時,千問3原生支持MCP協(xié)議,并具備強大的工具調(diào)用能力,結(jié)合封裝了工具調(diào)用模板和工具調(diào)用解析器的Qwen-Agent框架,將大大降低編碼復雜性,實現(xiàn)高效的手機及電腦Agent操作等任務(wù)。
據(jù)了解,千問3提供多種版本,包括不同參數(shù)規(guī)模的MoE和密集模型,適用于多樣化的應(yīng)用場景。其系列模型均采用Apache2.0協(xié)議開源,支持119種語言,開發(fā)者可通過魔搭社區(qū)、HuggingFace等平臺獲取。個人用戶也可通過通義APP體驗新模型的功能。目前,阿里通義已開源200余個模型,全球下載量超3億次,千問衍生模型數(shù)超10萬個,已超越美國Llama。
阿里云相關(guān)人士表示,模型研發(fā)不僅是模型、算法層的創(chuàng)新,而是個長期系統(tǒng)工程。阿里在通義千問上的投入是非常堅定的,未來,通義團隊將繼續(xù)朝通用人工智能方向探索。