混合注意力(沿用Qwen3 Next) 超稀疏MOE(沿用Qwen3 Next) 多token预测(多个头同时解码,预测片段文本,这个我觉得这是个比较新的尝试,不知这个会不会影响效果,这个片段token长度选择也是一个值得研究的方向) 原生多模态(这个也不能算创新点了,毕竟很多模型也都跟上了) #大模型 #人工智能 #算法 #互联网大厂 #阿里 #通义千问
混合注意力(沿用Qwen3 Next) 超稀疏MOE(沿用Qwen3 Next) 多token预测(多个头同时解码,预测片段文本,这个我觉得这是个比较新的尝试,不知这个会不会影响效果,这个片段token长度选择也是一个值得研究的方向) 原生多模态(这个也不能算创新点了,毕竟很多模型也都跟上了) #大模型 #人工智能 #算法 #互联网大厂 #阿里 #通义千问