这里记录每周值得分享的AI科技内容,周末发布。

本杂志开源(GitHub: aitobox/newsweekly),欢迎提交 issue,投稿或推荐你的项目。

AI资讯

1. Open AI 发布了ChatGPT-4o

美国时间 5 月 13 日,Open AI 抢在Google I/O大会之前召开了发布会,发布了一个名为ChatGPT-4o(o=omni,即“全方位”的意思)的全新版本。

详细内容

四个亮点:

1)免费:ChatGPT-4o将免费开放给所有用户;

2)实地互动:把实时演绎到了极致,按演示内容,AI可以通过摄像头、收音孔和麦克风,实时查到图像、听到声音,并对获取的信息进行;

3)拟人:可以模拟人的情绪,可以实时读懂人的情绪,在情绪层面与人互动;

4)融合:发布首个电脑客户端,不再只有网页版,可以与电脑深度融合,可以直接针对电脑里你浏览的网页信息、正在处理的办公内容以及随时想问的问题进行解答。

无延迟语音实时对话

在GPT-4o发布之前,与ChatGPT对话,GPT-3.5和GPT-4平均延迟分别为2.8秒和5.4秒。那时,为了实现与ChatGPT以语音进行对话,设置了三个独立模型管线:

第一个模型将音频转录成文本

第二个模型就是GPT-3.5或GPT-4,接收文本并输出响应文本

第三个模型将文本转换成音频

这个过程走下来,不仅导致了延迟时间较长,而且造成ChatGPT不能观察说话者语气、说话者的背景噪音,无法表达情感。但现在,GPT-4o让一切都发生得很自然。GPT-4o 能在 232 毫秒内对音频输入做出反应,平均反应时间为 320 毫秒,这与人类在对话中的反应时间相近。未来,就变成了我们讲话比 ChatGPT 慢半拍了……

高情商,没有AI的机械和僵硬感

工程师要求ChatGPT讲一个睡前故事,主题是恋爱中的机器人。ChatGPT没讲几秒,就被工程师粗暴地打断了:多点情绪,故事里来点戏剧性行不

ChatGPT随即用起伏的声调、夸张的语气绘声绘色的开始讲起了故事。

结果没几秒,它又被挑刺的工程师再次打断:不行不行,再多点情感,给我最大程度的表达可以吗

接下来,ChatGPT语气夸张的仿佛一个在舞台上表演莎士比亚戏剧的演员。

随后,挑剔的工程师依旧不依不饶,又多次打断它,它很有耐心地按照工程师的要求,切换到机器人声和改变唱歌模式。

尤其是ChatGPT听到要求自己唱歌时,表现得像人类一样,甚至叹了口气,然后心情平和的开启了优美的歌喉。

多亏ChatGPT脾气好,要是真人,估计要被暴揍一顿,哪那么多事。整个过程,自然连贯得犹如坐在你对面的真人,完全没有AI的机械和僵硬感!ChatGPT完胜反应迟钝、没法打断还缺少情商的Siri等语音助手。无怪乎ChatGPT-4o发布之后,立刻就曝出苹果要和OpenAI联合开发语音助手的消息。

视觉推理

工程师手写了一个一元一次方程,打开摄像头拍照发给ChatGPT,让它扮演在线导师的角色帮助自己解题,要求只能给提示,不能直接说答案。

工程师在纸上写了一个方程式3x+1=4。问ChatGPT自己写的是什么方程,ChatGPT语调自然地回答出来了。工程师在摄像头中解题,ChatGPT实时地给出了鼓励和引导。ChatGPT反应很快,工程师还在计算,ChatGPT就实时给出了评价和反馈。与之前谷歌剪辑版的Gemini演示相比,高下立判。

其它

GPT-4o是OpenAI首个端到端训练的跨越文本、视觉和音频的新模型,所有多模态及其任意组合输入和输出都由相同的神经网络处理。用户可以上传各种图片、视频,以及包含图片和文字的文档,和ChatGPT讨论其中的内容。Altman说GPT-4o是OpenAI有史以来最好的模型,它很聪明,速度很快,是天然的多模态。并且,所有ChatGPT用户都可以使用,完全免费!

资讯地址

https://openai.com/index/hello-gpt-4o/

AI服务和工具

1. GitHub 正式推出 GitHub Copilot Workspace 的技术预览版

功能特点

其工作原理如下:

🌟一切从任务开始:从一个 GitHub Issue、Pull Request 或仓库中打开 GitHub Copilot Workspace。(截图显示了 octoacademy 仓库中的一个 Issue。)

🌟计划的制定:从任务进展到规范化步骤,概述你想通过 Copilot Workspace 实现的目标。这些步骤是可编辑的,允许你反复迭代。

🌟全面可编辑:Copilot Workspace 提供的所有内容,从计划到代码,都可以完全编辑,使你能不断调整,直到对计划满意。你也可以通过集成终端运行测试、构建等步骤。

🌟直接运行:计划完善后,你可以在 Copilot Workspace 中运行代码,并在 Codespace 中调整,直到对最终结果满意。你还可以通过链接分享 Workspace,使团队成员查看你的工作并进行迭代。

🌟提交与审查:完成后,提交 Pull Request,运行 GitHub Actions 和代码扫描,并请求团队成员进行审查。他们可以通过 Copilot Workspace 查看你从构思到代码的全过程。

🌟移动兼容:GitHub Copilot Workspace 支持在任何设备上使用,使你可以随时随地进行开发。

体验地址

https://githubnext.com/projects/copilot-workspace

(完)

you might also like