阿里巴巴开源新一代通义千问模型Qwen3(简称千问3),参数量仅为DeepSeek-R1的1/3,成本大幅下降,性能全面超越R1、OpenAI-o1等领先模型,登顶全球最强开源模型。千问3是国内首个“混合推理模型”,将“快思考”与“慢思考”集成进同一个模型,大大节省算力消耗。据了解,千问3采用混合专家(MoE)架构,总参数量235B,激活仅需22B。千问3预训练数据量达36T tokens,并在后训练阶段经过多轮强化学习,将非思考模式无缝整合到思考模型中。
阿里巴巴开源新一代通义千问模型Qwen3(简称千问3),参数量仅为DeepSeek-R1的1/3,成本大幅下降,性能全面超越R1、OpenAI-o1等领先模型,登顶全球最强开源模型。千问3是国内首个“混合推理模型”,将“快思考”与“慢思考”集成进同一个模型,大大节省算力消耗。据了解,千问3采用混合专家(MoE)架构,总参数量235B,激活仅需22B。千问3预训练数据量达36T tokens,并在后训练阶段经过多轮强化学习,将非思考模式无缝整合到思考模型中。
Fastdata极数是一家具备全球服务与竞争力能力的数字技术服务与数据研究分析公司
18510809459
guoliang@ifastdata.com
北京市经济技术开发区凯王共和商务花园
Copyright © Fastdata极数 津ICP备2020008040号-1