大模型超进化！ChatGPT将支持图片和语音输入

zhiweiguanliyuan 知闻 7月前

1.66K

据IT之家，近日，OpenAI宣布推出新版ChatGPT，增加了两项新功能：语音输入和图像输入。OpenAI称，新功能将在未来两周内向ChatGPT Plus订阅用户推出，其他人也将“很快”能够使用这些功能。

语音输入功能类似于手机上的语音助手，用户只需按下一个按钮，说出自己的问题，ChatGPT就会将其转换为文本，然后生成答案，再将答案转换为语音，播放给用户。AI识别语音在技术上并非难事，相当于加了一个“语言-文本”转换环节，目前更重要的是提升准确性，尤其是在面对不同语言、甚至是方言和俚语的情况下，能否依旧准确识别并输出对用户有帮助的内容。另外，跨语种场景下的识别和生成结果，同样需要细细打磨。

图像输入功能方面，用户可以拍摄自己感兴趣的事物，并上传到ChatGPT中。ChatGPT会尝试识别用户想要询问的内容，并给出相应的回答。用户还可以用应用中的绘图工具来帮助表达自己的问题，或者配合语音或文本输入来进行交流。ChatGPT的优势在于它可以进行多轮对话，而不是一次性搜索。如果用户对答案不满意或想要更多信息，可以继续向ChatGPT提问，从而得到更准确和全面的答案。

而在公司经营层面，OpenAI除了要面对高昂的运营和训练成本，以及尚未寻找到实现盈利的突破口等挑战外，公司还遭到了阻击。当地时间周一，美国电商和云服务巨头亚马逊宣布，将投资40亿美元，投资人工智能初创企业Anthropic。根据新合作协议，Anthropic将使用亚马逊自研的人工智能芯片来构建、训练和部署亚马逊的智能大模型。同时，Anthropic未来将通过亚马逊云来完成其大部分工作业务，从而帮助提升亚马逊云的服务质量。ChatGPT确实在技术上存在优势地位，但面对“钞能力”这种不讲道理的竞争方式，OpenAI同样压力山大。

大模型超进化！ChatGPT将支持图片和语音输入

相关文章

苹果VisionPro2爆料：换用RGB OLEDoS显示屏，或于2027年发布

江湖纷扰，华为影像是怎么用5年开宗立派的？

酱香鱼？茅台镇酒厂起火，上百吨酱酒流入河

发表评论取消回复

相关文章

苹果VisionPro2爆料：换用RGB OLEDoS显示屏，或于2027年发布

江湖纷扰，华为影像是怎么用5年开宗立派的？

酱香鱼？茅台镇酒厂起火，上百吨酱酒流入河

发表评论 取消回复

发表评论取消回复