(华盛顿4日综合电)微软不只投资人工智能(AI),帮别人卖AI,现在连文字、语音、影像模型都自己下场做了。
“TechCrunch”报导,微软旗下研究部门Microsoft AI周五(3日)宣布推出3款基础AI模型,分别可用于文字、语音与影像生成,进一步和其他AI实验室正面竞争,尽管微软目前仍与OpenAI维持紧密合作关系。
这3款模型包括语音转文字模型MAI-Transcribe-1、语音生成模型MAI-Voice-1,以及影像生成模型MAI-Image-2。

微软表示,MAI-Transcribe-1可支援25种语言语音转文字,速度是Azure Fast方案的2.5倍;MAI-Voice-1则可在1秒内生60秒音讯,且能建立自订声音;MAI-Image-2则主打影像生成能力。
其中,MAI-Image-2其实已于3月19日先在MAI Playground上线。
如今微软进一步把3款模型都推上Microsoft Foundry,而语音转文字与语音生成模型也同步在MAI Playground开放使用。
报导指出,这些模型由微软MAI Superintelligence团队开发,该团队由Microsoft AI执行长苏莱曼(Mustafa Suleyman)领军,并于2025年11月正式成立与对外公布。
苏莱曼表示,Microsoft AI正在打造“以人为本”的AI,强调在开发模型时,会把人放在中心,依照人们真实的沟通方式进行优化,并以实际应用场景作为训练方向。他也预告,未来还会有更多模型进入Foundry,甚至直接整合进微软产品与使用体验中。
在大型语言模型市场竞争愈来愈拥挤之际,微软认为这批模型的一大卖点,是价格比Google与OpenAI的部分产品更便宜。
以定价来看,MAI-Transcribe-1每小时0.36美元(约1令吉45仙);MAI-Voice-1每100万字元22美元(约89令吉);MAI-Image-2则是文字输入每100万tokens收费5美元(约20令吉15仙),影像输出每100万tokens收费33美元(约133令吉03仙)。
尽管微软持续推出自家模型,苏莱曼接受外媒访问时仍重申,微软对OpenAI的合作承诺并未改变。不过他也透露,双方近期重新谈判合作内容后,确实让微软能更自由推进所谓的“超级智能”研究。
根据报导,微软至今已对OpenAI投资超过130亿美元(约524亿令吉),并透过多年合作,将OpenAI模型部署到旗下多项产品中。微软在晶片策略上也采取类似做法,一方面自行研发,一方面也向外部供应商采购。
文:台湾壹苹新闻网
图:美联社