-   
您的当前位置:比特币平台-比特币今日价格-比特币交易平台排名 > > 刚刚,字节豆包大模型团队官宣!攻克了关键技术! 正文

刚刚,字节豆包大模型团队官宣!攻克了关键技术!-比特币平台-比特币今日价格-比特币交易平台排名

来源:比特币平台-比特币今日价格-比特币交易平台排名 编辑:探索 时间:2025-03-16 20:25:39

3月10日,字节豆包大模型团队官宣开源一项针对moe架构的关键优化技术,可将大模型训练效率提升1.7倍,成本节省40%。

据悉,该技术已实际应用于字节的万卡集群训练,累计帮助节省了数百万gpu小时训练算力。

入选顶级会议mlsys 2025

据了解,moe是当前大模型的主流架构,但其在分布式训练中存在大量跨设备通信开销,严重制约了大模型训练效率和成本。以海外主流模型mixtral-8x7b为例,其训练过程中通信时间占比可高达40%。

针对这一难题,字节在内部研发了comet计算-通信重叠技术,通过多项创新,大幅压缩了moe专家通信空转时间。

相较deepseek近期开源的dualpipe等moe优化方案,comet可以像插件一样直接接入已有的moe训练框架,支持业界绝大部分主流大模型,无需对训练框架进行侵入式改动。该工作以5/5/5/4的高分入选全球机器学习系统顶级会议mlsys 2025 ,被认为“在大规模生产环境中极具应用潜力”。

comet与deepseek研发的dualpipe方案还可以联合使用。在降低moe通信开销上,comet采用了计算-通信融合算子的优化方式,dualpipe则通过排布算子来掩盖通信,两种方案并不冲突,结合使用或将更大幅度压缩模型训练成本。

目前,comet支持多种moe并行模式,部署灵活、方便。同时,comet核心代码已开源,并向开发者提供了一套友好的python api,计划兼容triton等编译生态。

近期国内大模型研发技术快速获得突破,相关app下载量也迅速增长。下载量排名成为外界观察各家大模型实用能力最直接的窗口。截至发稿,deepseek在中国区苹果应用商店免费app下载排行榜首,第二名是豆包,第三名是腾讯元宝。

最新辟谣

3月10日,寒武纪(688256.sh)股价午后出现拉升,一度涨超5%,收涨3.87%,报779元/股,总市值3252亿元。

有市场消息称,字节跳动向寒武纪下单4万颗580芯片,单价2.5万元,总价值合计10亿元。

对此,字节跳动相关负责人表示,消息不实。

近期一度大火的manus也传曾婉拒字节的投资。

据报道,开发出manus的中国创业公司——monica,在2024年年初曾经与字节进行过一轮收购谈判。当时字节出价3000万美元,但因为远远达不到创始人肖弘的心理价位,这次谈判最终不欢而散。

接近monica内部的从业者表示,字节收购的逻辑是以3000万美金的价格收购团队,将其团队和产品整合到豆包体系中,但是monica进入字节后就会跟字节大模型战略绑定,就丧失了monica产品上的独特优势。这也是肖弘及其团队不看好这场收购的主要原因。目前monica估值接近1亿美元。

对此,截至目前,字节跳动并未给予回应。

传抖音将接入豆包大模型

近期有消息称,抖音app正在测试接入豆包app的ai能力,为用户带来更加丰富多元的智能体验。

在测试版本中,抖音为豆包app开放了两个超级入口:一个置于短视频界面,与点赞、评论、转发等功能并列;另一个则放在抖音的消息列表内,使ai技术与社交功能深度融合,进一步强化了用户互动体验。

此前,豆包app虽然具备对话、创作及图像生成等功能,但用户需要离开抖音app才能使用,这在一定程度上,也限制了豆包大模型的使用频率。

而通过将豆包直接嵌入抖音的两个重要入口,抖音app将直接打通豆包大模型中成熟的ai功能,用户无需跳转即可使用ai服务,这不仅能强化抖音自身的ai能力,实现流量与功能的深度绑定,还能通过抖音庞大的用户基数为豆包导流,推动“ai生态闭环”的建设。

此外,抖音接入豆包还可以延长用户在抖音的停留时间,增加流量和用户粘性,为广告、电商等传统业务提供更大空间。

上一篇:
下一篇:

相关文章:

相关推荐:

栏目分类
最新文章
热门文章

2.4386s , 12390.1328125 kb

比特币交易平台排名 copyright © 2025 powered by 刚刚,字节豆包大模型团队官宣!攻克了关键技术!,比特币平台-比特币今日价格-比特币交易平台排名  

sitemap

top
网站地图