阿里巴巴开源Qwen1.5-110B：1100亿参数挑战Meta Llama3-70B性能 [复制链接]

gythy1978

军衔等级：

少将

电梯直达

1^# 大中小

发表于 2024-4-28 11:14:47 |只看该作者 |倒序浏览

【ITBEAR科技资讯】4月28日消息，阿里巴巴最近公开宣布，他们已成功开源了Qwen1.5系列中的首个千亿参数模型——Qwen1.5-110B。据称，在基础能力的评估测试中，该模型的表现足以媲美meta旗下的Llama3-70B模型，并且在Chat评估中也大放异彩，这包括了MT-Bench和Alpacaeval 2.0两项基准测试。

这款Qwen1.5-110B模型沿用了Qwen1.5系列一贯的Transformer解码器架构，并引入了分组查询注意力(GQA)机制，使得模型在推理时更为高效。这款模型支持长达32K tokens的上下文长度，同时兼容多种语言，包括但不限于英语、中文、法语、西班牙语、德语、俄语、日语、韩语、越南语以及阿拉伯语。

阿里巴巴将Qwen1.5-110B与当前顶尖的语言模型meta-Llama3-70B和Mixtral-8x22B进行了详尽的对比测试。测试结果显示，新的110B模型在基础能力上至少达到了Llama-3-70B模型的水平。阿里巴巴团队指出，他们在这一模型中并未对预训练方法进行大幅调整，因此性能的提升主要归功于模型规模的扩大。

此外，阿里巴巴还在MT-Bench和Alpacaeval 2.0上对其进行了Chat评估。结果显示，与之前发布的72B模型相比，110B模型在这两个Chat模型基准评估中的表现显著更佳。这一持续改善的评估结果表明，即便没有大幅改变训练方法，更强大、规模更大的基础语言模型也能催生出更优秀的Chat模型。

据ITBEAR科技资讯了解，Qwen1.5-110B不仅是Qwen1.5系列中规模最大的模型，更是该系列首个参数超过1000亿的模型。与最近发布的顶尖模型Llama-3-70B相比，其性能表现同样出色，并且明显优于先前的72B模型。这一突破性的进展无疑将为自然语言处理领域带来新的可能性。

本主题由版主或管理员于 2024-4-28 11:28 审核通过

0 举报本楼

本帖有 1 个回帖，您需要登录后才能浏览登录 | 注册

返回列表

版规|手机版|C114 ( 沪ICP备12002291号-1 )|联系我们 |网站地图

GMT+8, 2024-12-28 04:11 , Processed in 0.108888 second(s), 16 queries , Gzip On.

Discuz Licensed

回顶部

		自动登录	找回密码
密码			注册