消息面上,OpenAI宣布,将在ChatGPT推出新的语音和图像功能,新功能将于未来两周内面向Plus和企业用户推出。据介绍,新功能允许用户进行语音对话或向ChatGPT展示其正在谈论的内容。语音功能将在iOS和Android平台推出,图像功能将覆盖所有平台。
国盛证券分析称,Chatgpt即将开放图生文及语音对话功能,AI技术持续迭代再翻新一页。
语音对话能力让与ChatGPT的互动更直接、灵活,提升客户体验的便捷性。用户可语音直接对话ChatGPT,而ChatGPT也能以语音方式回复,运用新文生语音模型,五种可选声音由ChatGPT定制。
图生文能力使ChatGPT能读懂图片,拓宽应用范围。图像读取理解背后有GPT3.5或GPT4多模态模型支持。客户可上传一张或多张图片给系统,甚至用画笔标注重点内容,让系统读取理解,可用于辅导学生作业、搜索日常食谱等。图生文能力的推出拓展了AI技术应用领域,助力AI在各行各业快速落地。
从过往来看,AI视觉应用的场景会更多一些,人类获取信息的70%-80%是通过视觉方式,也可以看到市场上计算机视觉公司在AI行业的总体发展情况相对较好。
放眼未来,因为很多领域的AI渗透率不高,即使大家看到了生成式AI的潜力,判别式AI依然大有可为,而且可以和生成式AI相互促进和融合发展。
在近期机构调研中,格灵深瞳表示,公司已经搭建了适用于智慧金融领域的行为分析大模型技术架构,目前已完成场景试验、技术论证并实现落地应用。
公司会围绕擅长的垂直领域重点投入,做L1级暨行业/领域多模态大模型和全新形态的AIGC系统,目标是既能结合图像理解、NLP、三维重建技术等多模态任务与数据,利用参数量更大的模型能力,提高系统对场景的重建能力和人员行为的理解能力,并结合大语言模型的归纳推理能力,为用户输出更准确优质的内容,在大部分垂类场景,公司未来自研的大模型是可以满足客户/用户需求的,但如果某些场景需要更通用、更广泛的解决方案,公司也会积极考虑与外部资源灵活合作。