阿里云通义千问发布新一代端到端多模态旗舰模型 Qwen2.5-Omni 并开源，看听说写样样精通

IT之家 3 月 27 日消息，今日凌晨，阿里云发布通义千问 Qwen 模型家族中新一代端到端多模态旗舰模型 ——Qwen2.5-Omni，并在 Hugging Face、ModelScope、DashScope 和 GitHub 上开源。阿里云表示，该模型专为全方位多模态感知设计，能够无缝处理文本、图像、音频和视频等多种输入形式，并通过实时流式响应同时生成文本与自然语音合成输出。IT之家汇总其主要特点如下：阿里云通义千问发布新一代端到端多模态旗舰模型 Qwen2.5-Omni 并开源，看听说写样样精通休闲区蓝鸢梦想 - Www.slyday.coM 据官方介绍，Qwen2.5-Omni 采用 Thinker-Talker 双核架构。Thinker 模块如同大脑，负责处理文本、音频、视频等多模态输入，生成高层语义表征及对应文本内容；Talker 模块则类似发声器官，以流式方式接收 Thinker 实时输出的语义表征与文本，流畅合成离散语音单元。Thinker 基于 Transformer 解码器架构，融合音频 / 图像编码器进行特征提取；Talker 则采用双轨自回归 Transformer 解码器设计，在训练和推理过程中直接接收来自 Thinker 的高维表征，并共享全部历史上下文信息，形成端到端的统一模型架构。阿里云通义千问发布新一代端到端多模态旗舰模型 Qwen2.5-Omni 并开源，看听说写样样精通休闲区蓝鸢梦想 - Www.slyday.coM 模型性能方面，Qwen2.5-Omni 在包括图像，音频，音视频等各种模态下的表现都优于类似大小的单模态模型以及封闭源模型，例如 Qwen2.5-VL-7B、Qwen2-Audio 和 Gemini-1.5-pro。在多模态任务 OmniBench，Qwen2.5-Omni 达到了 SOTA 的表现。此外，在单模态任务中，Qwen2.5-Omni 在多个领域中表现优异，包括语音识别（Common Voice）、翻译（CoVoST2）、音频理解（MMAU）、图像推理（MMMU、MMStar）、视频理解（MVBench）以及语音生成（Seed-tts-eval 和主观自然听感）。阿里云通义千问发布新一代端到端多模态旗舰模型 Qwen2.5-Omni 并开源，看听说写样样精通休闲区蓝鸢梦想 - Www.slyday.coM
广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，蓝鸢梦想所有文章均包含本声明。

相关文章

鸿蒙 5 商业化吸引应用适配提档加速，生态体验日新月异

特斯拉优化 Cybertruck 线控转向系统，带来更真实驾驶反馈

相关文章

鸿蒙 5 商业化吸引应用适配提档加速，生态体验日新月异

特斯拉优化 Cybertruck 线控转向系统，带来更真实驾驶反馈

相关推荐

微信扫一扫