阿里发布通义千问最新推理模型,股价应声大涨-比特币平台-比特币今日价格-比特币交易平台排名
开源浪潮,仍在持续。
3月6日,阿里通义千问大模型团队宣布,正式推出最新的推理模型qwq-32b。据通义千问大模型团队介绍,这是一款拥有320亿参数的模型,其性能可与具备6710亿参数(其中370亿被激活)的deepseek-r1媲美。
值得注意的是,尽管deepseek-r1拥有6710亿的巨型参数量,但由于deepseek创新性地使用了moe(混合专家模型)架构以及mla(多头潜在注意力机制)的方法,每次推理仅激活370亿参数(占总量的5.5%)。这使得deepseek-r1虽然整体很大,但实际干活时只需要动用一小部分力量,能够做到节省资源,高效完成任务。
在数学推理、编程能力和通用能力的一系列基准测试中,通义千问大模型团队将qwq-32b与openai的o1-mini以及deepseek满血版及蒸馏版进行了比较,结果显示,在测试数学能力的aime24评测集上,以及评估代码能力的livecodebench中,qwq-32b表现与deepseek-r1相当,远胜于o1-mini及相同尺寸的r1蒸馏模型。
至于为何能够实现这一点,奥秘仍在于大规模强化学习的方法。据介绍,在冷启动基础上,阿里通义团队针对数学和编程任务、通用能力分别进行了两轮大规模强化学习。在初始阶段,特别针对数学和编程任务进行了强化学习训练。与依赖传统的奖励模型不同,通义千问大模型团队通过校验生成答案的正确性来为数学问题提供反馈,并通过代码执行服务器评估生成的代码是否成功通过测试用例来提供代码的反馈。
业内人士分析,qwq-32b的成功表明,将强大的基础模型与大规模强化学习相结合,能够在较小的参数规模下实现卓越性能,这为未来通向通用人工智能提供了可行路径。
此外,qwq-32b的另外一个亮点是大幅降低了部署使用成本,开发者和企业可以在消费级硬件上轻松将其部署到本地设备中。
目前,阿里已采用宽松的apache2.0协议,将qwq-32b模型向全球开源,所有人都可免费下载及商用,也可以通过阿里云百炼平台直接调用模型api服务。同时,用户也可通过通义app免费体验最新的qwq-32b模型。
最近,阿里在模型开源方面动作频频。就在2月底,阿里才宣布全面开源旗下视频生成模型万相2.1模型。这款模型同样基于apache2.0协议,14b和1.3b两个参数规格的推理代码和权重全部开源,同时支持文生视频和图生视频任务。
开源仅不到一周的时间,通义万相2.1模型就受到了开源社区的极大欢迎。3月3日,开源社区hugging face最新榜单显示,阿里万相大模型已反超deepseek-r1,登顶模型热榜、模型空间榜两大榜单,成为近期全球开源社区最受欢迎的大模型。
据了解,阿里通义团队一直坚持开源路线。从2023年至今,阿里通义团队已开源200多款模型,包含大语言模型千问qwen及视觉生成模型万相wan等两大基模系列,开源囊括文本生成模型、视觉理解和生成模型、语音理解和生成模型、文生图及视频模型等,覆盖从0.5b到110b等参数,实现了全模态、全尺寸大模型的开源。
长江证券研报指出,近期,阿里在ai 领域持续发力,践行了其ai 驱动战略,随着其后续投入的逐步提升,相关成果有望加速迭代,相关成果或将惠及相关产业链,加速ai应用落地,进而进一步带动算力需求的爆发。同时,随着阿里在ai 基础设施、基础模型平台及ai原生应用、现有业务的ai转型等三方面加大投入,或将引领中国ai 产业加速发展。
资本市场方面,隔夜阿里巴巴美股大涨超8%,今日,阿里巴巴港股大幅高开,一度涨超7%,截至发稿,涨6.47%。今年以来,阿里巴巴股价大幅上涨,累计涨幅已近70%。
下一篇:
相关文章:
相关推荐: