打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
调什么自行车?ChatGPT 再度进化!能看,能听,还能说,大招还在后面
userphoto

2023.09.27 美国

关注
文丨Congerry
OpenAI又深夜放大招,ChatGPT现在可以看,听和说话了!

打开ChatGPT,页面直接变成了下图,可以直接和它对话了。

听到你说话后,它还可以直接语音回复。

不仅如此,现在给ChatGPT发图,它也可以看懂了。

如何调低自行车座椅呢?

ChatGPT看到自行车图后,就会给出方法:

1. 找到座管底部(车架正上方)的快速释放杆或螺栓。
2. 如果有快速释放杆,打开它。如果是螺栓,则需要一把内六角扳手。
3. 将座椅向下滑动到所需高度。
4.拧紧快速释放杆或螺栓,将座椅固定到位。
5 骑车前,确保座椅平直,不会晃动。

如果您有工具,请展示给我看,我会进一步指导您。

如果你不分不清快速释放杆,同样可以拍照给它,问:(圈住的地方)是快速释放杆吗?

ChatGPT:不,那不是杠杆,而是螺栓。松开后,调整座椅高度,然后再次拧紧螺栓。在骑车之前,请确保座椅是直的,并且是牢固的。

那应该用什么工具呢?直接把工具箱的工具拍给ChatGPT,问:这是我的手册和工具箱,我有正确的工具吗?它会告诉你。

ChatGPT:是的,您的工具是正确的。在工具箱的左侧部分,有一套标有 'DEWALT '的工具。在这套工具中,找到 4 毫米内六角(六角)钥匙。用它拧松座椅座圈上的螺栓,调整座椅高度。之后记得将其拧紧。

最后就可以完成自行车座椅调整。

消息以及应用案例一出,网友评价,刚刚五分钟,很多初创公司会因此而死。

ChatGPT是如何实现语音交互能力的呢?

ChatGPT使用了一个新的文本到语音模型,可以根据给定的文本和几秒钟的语音样本,生成类似真人的语音输出。

此外,它还集成了开源语音识别系统Whisper,能够准确把用户的语音输入转换成文本。

为使语音更加丰富多样,ChatGPT还与专业声音演员合作,创造了五种不同风格的语音。些能力加强了ChatGPT与用户的自然语音交互,使对话更加流畅和接近人类交流。

不过OpenAI表示,虽然 Whisper 可以在英语以外的语言中使用,但不鼓励在其他语言中使用,尤其是那些没有拉丁字符的语言。

而ChatGPT实现“看”的能力,就得益于GPT-4 with vision(GPT-4V),一个大型多模态语言模型,能够处理图像和文本输入,并生成文本输出。

GPT-4V(ision) 模型是在 GPT-4 模型的基础上,增加了图像处理模块,该模块能够从图像中提取特征,并将这些特征与文本特征结合起来进行处理。

虽然GPT-4V很强大,但是OpenAI 警告不要在敏感场景中使用 GPT-4V。在 GPT-4V(ision) 的系统卡中,OpenAI 将该模型的图像识别描述为 '不可靠'。

例如,在分析化学结构时,它错误地识别了芬太尼、卡芬太尼和可卡因等物质,但有时也能正确识别毒蘑菇等危险成分。

该模型容易产生幻觉,并能以权威的口吻陈述不正确的事实。'论文称:'这表明该模型并不可靠,不应被用于任何高风险任务,如识别危险化合物或食品。

在医学上,GPT-4V(ision)同样不可靠。

尽管有瑕疵,但新版ChatGPT还是完成了进化!

不过对于永不满足的网友来说,已经在期待输入视频了......

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
长了眼睛和嘴,ChatGPT 开始入侵物理世界
ChatGPT-4.5即将震撼登场,2023年四五月引领智能时代!
AIGC与数字虚拟人
酱酒颐和 投资 引言
三句话说清什么是ChatGPT
chatGPT中的G、P、T代表什么意思
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服