IT之家 9 月 23 日音问欧洲杯体育,又是熟悉的夜深,阿里云本日发布并开源了全新的 Qwen3-Omni、Qwen3-TTS,以及对标谷歌 Nano Banana 图像剪辑用具的 Qwen-Image-Edit-2509。
Qwen3-Omni 是业界首个原生端到端全模态 AI 模子,简略处理文本、图像、音频和视频多种类型的输入,并可通过文本与当然语音及时流式输出终结,处理了永久以来多模态模子需要在不同智力之间进行衡量选用的清贫。
Qwen3-Omni 是原生端到端的多言语全模态基础模子,其中枢特质主要包括:
跨模态首先进发达:通过早期以文本为中枢的预闇练和羼杂多模态闇练,模子具备原生多模态智力。在完满刚劲音频与音视频性能的同期,单模态的文本与图像效能保抓不降。在 36 项音频 / 视频基准测试中,22 项达到了最新水平,其中 32 项在开源范围内处于卓越;在自动语音识别(ASR)、音频意会与语音对话方面发达可与 Gemini 2.5 Pro 至极。
多言语:撑抓 119 种文本言语、19 种语音输入言语以及 10 种语音输出言语。
语音输入言语:英语、汉文、韩语、日语、德语、俄语、意大利语、法语、西班牙语、葡萄牙语、马来语、荷兰语、印尼语、土耳其语、越南语、粤语、阿拉伯语、乌尔齐语。
语音输出言语:英语、汉文、法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语。
翻新架构:基于 MoE(民众羼杂)的“念念考者–抒发人”计算,并蚁集 AuT 预闇练以赢得刚劲的通用表征智力,同期选用多码本计算以将蔓延降至最低。
及时音频 / 视频交互:低蔓延流式交互,撑抓当然的挨次对话和即时的文本或语音反映。
活泼收尾:可通过系统提醒词自界说行径,完满细粒度收尾与搪塞适配。
细巧音频描述: Qwen3-Omni-30B-A3B-Captioner 已开源,这是一个通用型、细节丰富、低幻觉率的音频描述模子,填补了开源社区在该畛域的空缺。
IT之家附官方地址:
GitHub:https://github.com/QwenLM/Qwen3-Omni
抱抱脸:https://huggingface.co/collections/Qwen/qwen3-omni-68d100a86cd0906843ceccbe
魔塔:https://modelscope.cn/collections/Qwen3-Omni-867aef131e7d4f
Demo:https://huggingface.co/spaces/Qwen/Qwen3-Omni-Demo
TTS 即文本转语音,阿里云这次发布的 TTS 撑抓 17 种音色选用,每一种音色均撑抓 10 种言语。其中不仅包含多国言语,有:正常话、英语、法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语;还撑抓了更多中国方言:闽南语、吴语、粤语、四川话、北京话、南京话、天津话和陕西话。
此外,Qwen3-TTS-Flash 在多项评估基准上均取得了 SoTA 的发达,超越 SeedTTS、MiniMax、GPT-4o-Audio-Preview、Elevenlabs,至极是在语音安谧性和音色相似度。
蔓延对比Qwen3-TTS-FlashQwen-TTS并发数双卡 12 并发双卡 6 并发首包蔓延(单并发)97ms200ms首包蔓延(满并发)420ms733ms首包大小(满并发且越大越好)320ms190msRTF(单并发)0.300.43RTF(满并发)0.510.72官方地址:
Demo:https://huggingface.co/spaces/Qwen/Qwen3-TTS-Demo
博客:https://qwen.ai/blog?id=b4264e11fb80b5e37350790121baf0a0f10daf82&from=research.latest-advancements-list
Qwen-Image-Edit-2509 是 Qwen-Image 月度迭代升级版块,和字节前几天发布的即梦 4.0 图像模子通常主如果一致性上高大进步。
与 8 月份发布的 Qwen-Image-Edit 比拟,Qwen-Image-Edit-2509 的主要转换包括:
多图像剪辑撑抓:关于多图像输入,Qwen-Image-Edit-2509 基于 Qwen-Image-Edit 架构,并通过图像拼接进一步闇练,以完满多图像剪辑。它撑抓各式组合,如“东说念主 + 东说念主”、“东说念主 + 产物”和“东说念主 + 场景”。现在在 1 到 3 张输入图像时发达最好。
增强的单图像一致性:关于单图像输入,Qwen-Image-Edit-2509 权贵提高了剪辑的一致性,至极是在以下方面:
转换的东说念主像剪辑一致性:更好地保留面部身份,撑抓各式肖像作风和姿势变换;
转换的产物剪辑一致性:更好地保留产物身份,撑抓产物海报剪辑;
转换的翰墨剪辑一致性:除了修改翰墨本色外,还撑抓剪辑翰墨字体、形势和材质;
原生撑抓 ControlNet:包括深度图、旯旮图、要道点图等。
官方地址:
博客:https://qwen.ai/blog?id=7a90090115ee193ce6a7f619522771dd9696dd93&from=research.latest-advancements-list
魔塔:https://modelscope.cn/models/Qwen/Qwen-Image-Edit-2509
抱抱脸:https://huggingface.co/Qwen/Qwen-Image-Edit-2509
GitHub:https://github.com/QwenLM/Qwen-Image
另外,Qwen3-Next-80B-A3B-Instruct-FP8 和 Qwen3-Next-80B-A3B-Thinking-FP8 也如故开源:
抱抱脸:https://huggingface.co/collections/Qwen/qwen3-next-68c25fd6838e585db8eeea9d
魔塔:https://modelscope.cn/collections/Qwen3-Next-c314f23bd0264a
关联阅读:
《阿里云发布通义 Qwen3-Next 基础模子架构并开源 80B-A3B 系列:转换羼杂正经力机制、高寥落度 MoE 结构》欧洲杯体育
Powered by 开云·kaiyun(中国)官方网站 登录入口 @2013-2022 RSS地图 HTML地图
Powered by站群