Qwen 2.5 更新:推理速度猛增 4.3 倍,或将终结 RAG 时代

Qwen 2.5 更新:推理速度猛增 4.3 倍,或将终结 RAG 时代

Qwen 2.5 更新:推理速度猛增 4.3 倍,或将终结 RAG 时代

国产大语言模型 Qwen 2.5 系列近期更新了 Qwen 2.5-Turbo,在支持超长上下文和性价比方面取得了重大进展。

超长上下文支持

Qwen 2.5-Turbo 扩展了上下文长度,从之前的 128k 扩展到 1M,相当于 100 万个英文单词或 150 万个汉字。这个长度相当于 10 部长篇小说、150 小时语音记录或 30000 行代码。

更快的推理速度

基于稀疏注意力机制,Qwen 2.5-Turbo 处理百万上下文时的首字返回时间从 4.9 分钟降低到了 68 秒,实现了 4.3 倍的加速。

高性价比

Qwen 2.5-Turbo 的定价为 0.3 元/1M tokens。这意味着,在相同成本下,Qwen 2.5-Turbo 可以处理的 token 数量是 GPT-4o-mini 的 3.6 倍。

应用场景

Qwen 2.5-Turbo 的超长上下文支持和快速推理速度使其在以下应用场景中具有优势:

* 快速理解长篇文档:Qwen 2.5-Turbo 可以一口气读完 3 本长篇小说(69 万个 token)并总结主要内容。

* 掌握代码库信息:Qwen 2.5-Turbo 可以迅速掌握一个包含 13.3 万个 token 的代码库,并准确输出各种细节。

* 论文分类和摘要:Qwen 2.5-Turbo 可以一口气读完 7 篇论文,并完成论文分类和摘要。

* 长文本任务:Qwen 2.5-Turbo 在 RULER、LV-Eval 和 LongBench-Chat 等基准测试中,在多个维度上超越了 GPT-4o-mini。

对现有模型的影响

Qwen 2.5-Turbo 的超长上下文支持和高性价比或将终结 RAG(Retrieve-Align-Generate)时代的到来。

RAG 是一种基于检索的语言模型,需要先从大规模语料库中检索相关信息,再将检索到的信息与上下文进行对齐,最后生成答案。

Qwen 2.5-Turbo 无需检索,可以直接处理百万级别的上下文,这使得 RAG 模型在长文本任务中的优势不再明显。

开源计划

阿里云通义开源负责人林俊旸表示,目前没有 Qwen 2.5-Turbo 的开源计划,但正在努力中。

原创文章,作者:讯知在线,如若转载,请注明出处:http://web.xzxci.cn/2024/11/20/19846.shtml

Like (0)
讯知在线讯知在线
Previous 2024年11月20日 上午3:41
Next 2024年11月20日 上午3:47

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注