这里记录每周值得分享的AI科技内容,周末发布。

本杂志开源(GitHub: aitobox/newsweekly),欢迎提交 issue,投稿或推荐你的项目。

AI资讯

1. OpenAI宣布ChatGPT的一项重要更新:增加了记忆功能和新的用户控制选项

GPT现在可以在与用户的交互中跨聊天记住你们互动的所有信息,并在后续对话中利用这些信息来提供更相关和个性化的回答。

之前测试的内容是GPT可以利用你们之间的对话来自我进化和学习,但是这一次没有提及这些功能!只说了改进聊天回答!

主要特点和功能:

• 记忆功能: ChatGPT可以跨所有聊天记住用户讨论的事情,减少用户重复提供信息的需要,让未来的对话更加有用。

• 用户控制: 用户可以显式地告诉ChatGPT记住某些内容,询问它记住了什么,通过对话或设置告诉它忘记某些信息,甚至可以完全关闭记忆功能。

• 如何工作: 用户与ChatGPT聊天时,可以要求它记住特定的信息或让它自行捕捉细节。ChatGPT的记忆功能会随着使用的增加而改善,并且用户会逐渐注意到这种改进。

• 隐私和安全标准: 记忆功能带来了额外的隐私和安全考虑,OpenAI采取措施评估和减轻偏见,并避免ChatGPT主动记住敏感信息,除非用户明确要求。

• 企业和团队用户: 对于企业和团队用户,记忆功能可以在使用ChatGPT进行工作时提供帮助,学习用户的风格和偏好,并在过去的互动上建立,节省时间并提供更相关和深刻的响应。

• GPTs也将拥有记忆: GPTs将拥有自己独特的记忆。构建者将有选项为他们的GPTs启用记忆功能。与用户的聊天一样,记忆不会与构建者共享。

  • 资讯地址:

https://openai.com/blog/memory-and-new-controls-for-chatgpt

2. 谷歌Bard正式改名!同时宣布上线“有史以来最强大模型”Ultra 1.0″

2月8日,谷歌宣布,将旗下AI聊天机器人Bard正式更名为Gemini。同时宣布推出新的订阅计划,允许用户访问其“最强大模型”Gemini Ultra 1.0,与竞争对手OpenAI的GPT-4直接竞争。

Bard全新升级后,参数较低的版本将继续免费供用户使用,但愿意每月支付19.99美元的用户可以使用谷歌Gemini的最强版本。安卓用户可以下载一个新的专用安卓应用程序来使用Gemini,而iPhone用户可以在iOS上的谷歌应用中使用Gemini。用户通过谷歌One(该公司的付费存储服务)访问的费用为每月19.99美元,对于现有的谷歌One订阅者,还提供两个月的免费试用期。

谷歌表示,这是其迄今为止最大、功能最强的AI模型,在第三方评测员进行的盲测中,与其他主要聊天机器人相比,配备Ultra 1.0 的 Gemini Advanced 是最受欢迎的AI聊天机器人。谷歌副总裁兼谷歌助手及Bard的总经理Sissie Hsiao表示,Gemini的改变是“构建一个真正的AI助手”的第一步。

谷歌还表示,Gemini Advanced还在不断改进,后续会上线附带扩展的多模态功能、更多的交互式编码功能、更深入的数据分析功能等。

支付AI订阅费用的谷歌One订阅者还将能够在Gmail、Docs、Sheets、Slides和Meet等Google Workspace平台中使用Gemini的助手功能,原来在Google Workspace中的AI助手Duet AI被终止,新AI助手将统称为Gemini for Workspace。谷歌云中使用的Duet AI也将更名为Gemini for Google Cloud。

谷歌希望能够将更多来自用户在Gmail、Docs和Drive中的内容的上下文融入Gemini。例如,如果你正在回复一个长邮件串,建议的回复将考虑到邮件串中较早消息的上下文,以及Google Drive中可能相关的文件。

  • 资讯地址:

https://blog.google/products/gemini/bard-gemini-advanced-app/

AI服务和工具

1. MetaVoice-1B:高度真实和自然的文本到语音(TTS)转换模型

开源支持商用的语音模型:模型有1.2亿个参数,经过了10万小时的语音数据训练。

  • 专注英语情感演讲
  • 跨语言语音克隆
  • 支持美国和英国声音的零样本克隆
  • 支持长篇内容语音合成

功能特点

1、情感语音节奏和音调:MetaVoice-1B专注于英语语音的情感表达,提供流畅、自然的语音输出,无幻觉现象。

2、跨语言语音克隆:支持通过微调实现跨语言的声音克隆。例如,对于印度说话者,仅需1分钟的训练数据即可实现成功克隆。

3、零样本克隆:对于美国和英国的声音,MetaVoice能够实现零样本克隆,只需30秒的参考音频即可。

4、长篇朗读支持:适用于长文本内容的语音合成。

体验地址:

模型下载:https://huggingface.co/metavoiceio/metavoice-1B-v0.1

GitHub:https://github.com/metavoiceio/metavoice-src

在线体验:https://ttsdemo.themetavoice.xyz

 

2. Nvidia推出了Chat with RTX

Nvidia推出了Chat with RTX,一款AI聊天机器人,能够在配备至少8GB VRAM的RTX 30或40系列显卡的任何PC上运行。

另外还支持检索、摘要本地文档或者YouTube视频。

Nvidia发布了其Chat with RTX的早期版本——一款演示应用程序,让你能在个人电脑上运行自己的AI聊天机器人。无论是YouTube视频还是个人文档,都能用来生成摘要或获取基于个人数据的相关答案。整个过程完全在本地电脑上进行,你只需要一张拥有至少8GB VRAM的RTX 30或40系列显卡即可。

我在过去一天简单试用了Chat with RTX,尽管应用尚显粗糙,我已经能看到其成为数据研究的有价值工具的潜力,无论是对记者还是需要分析众多文档的任何用户而言。

Chat with RTX支持处理YouTube视频,你只需输入视频URL,它便能让你搜索特定字幕或总结整个视频。这对我搜索视频播客特别有用,尤其是在寻找最近一周有关Microsoft新Xbox战略转变传闻中的特定内容时。

然而,在搜索YouTube视频方面并非完美无缺。尝试搜索一段_Verge_的YouTube视频字幕时,Chat with RTX却下载了一个完全不同视频的字幕,这显然是早期版本中的一个漏洞。

  • Chat with RTX擅长于搜索本地文档。

当其正常工作时,我能够在几秒内找到视频中的相关内容。我还使用Chat with RTX分析了_FTC对Microsoft_的案件文档集。去年在报道此案件时,迅速浏览大量

文档是一大挑战,但Chat with RTX使我能够几乎瞬间完成查询。

例如,该聊天机器人能够从审判公开的内部文件中,精准总结出Microsoft的Xbox Game Pass策略:

根据提供的背景信息,Xbox Game Pass是一个游戏内容订阅服务,通过支付单一月费即可访问游戏库。它旨在成为一个平台,使玩家能够在任何地方游玩自己的游戏,同时让发行商能够触及全球玩家。该服务得到了Project xCloud和Xbox Series X的支持,目标是为发行商提供一个他们的游戏能够实现变现的良好环境。游戏CSA的核心战略目标是扩大Xbox Game Pass的规模,全球有着高达7.5亿的潜在订阅者市场。该服务面临三个主要的内容挑战:需求有差异化的内容、扩展到控制台之外的平台、以及内容供应有限。

我还发现这个工具能够帮助快速扫描PDF文档和核实数据。尽管Microsoft自家的Copilot系统处理Word内的PDF文件并不理想,但Nvidia的Chat with RTX能够轻松提取所有关键信息,并且反应速度快到几乎无感知延迟,这与使用基于云的ChatGPT或Copilot聊天机器人时的体验截然不同。

Chat with RTX的主要缺陷在于它真的给人一种初期开发者演示版的感觉。实际上,Chat with RTX在你的PC上安装了一个Web服务器和Python实例,通过Mistral或Llama 2模型处理输入的数据,再利用Nvidia的Tensor核心通过RTX GPU加速查询过程。

  • Chat with RTX的准确性有时会有所偏差。

在我的PC上,配备Intel Core i9-14900K处理器和RTX 4090 GPU,安装Chat with RTX大约需要30分钟。应用程序体积近40GB,Python实例占用大约3GB的RAM,而我的系统共有64GB RAM。一旦运行起来,你可以通过浏览器访问Chat with RTX,后台则通过命令提示符显示处理过程和任何错误代码。

Nvidia并未将其作为所有RTX用户都应立即下载并安装的成熟应用程序推出。该应用存在一些已知的问题和局限性,包括源头归因可能不总是准确。我最初尝试让它索引25,000份文档,但这导致应用崩溃,必须清除偏好设置才能重新启动。

此外,Chat with RTX不会记住之前的上下文,因此后续问题不能基于先前问题的上下文进行。它还会在索引文件夹内创建JSON文件,因此我不建议在Windows的Documents文件夹中全盘使用此功能。

尽管如此,我仍然对这样的技术演示抱有极大兴趣,Nvidia在这方面确实展现了潜力。这预示了未来AI聊天机器人在个人电脑上本地运行的可能性,特别是对于那些不愿订阅像Copilot Pro或ChatGPT Plus这类服务来分析个人文件的用户而言。

下载地址: 一共有35GB;需要有Nvidia > 8GB的显卡才可以运行;

https://www.nvidia.com/en-us/ai-on-rtx/chat-with-rtx-generative-ai/

3. 谷歌发布开源大模型Gemma

Gemma 采用了和Gemini一样技术的开源LLM,同时质量也比同规模的模型要强。

两种尺寸的模型权重:Gemma 2B和Gemma 7B。每种尺寸都有预训练和指导调整的变体。

一个生成式人工智能工具包,为使用Gemma创建更安全的人工智能应用提供指导和必要工具。

通过原生Keras 3.0为所有主要框架(JAX、PyTorch和TensorFlow)提供推理和监督微调(SFT)的工具链。

准备好的Colab和Kaggle笔记本,以及与Hugging Face、MaxText、NVIDIA NeMo和TensorRT等流行工具的集成,使得开始使用Gemma变得非常容易。

预先训练和经过调整的Gemma模型可以在您的笔记本电脑、工作站或Google Cloud上运行,并可以轻松部署到Vertex AI和Google Kubernetes Engine(GKE)。

跨多个人工智能硬件平台的优化确保了行业领先的性能,包括NVIDIA GPU和Google Cloud TPU。

允许所有组织进行负责任的商业使用和分发,无论规模大小。

未来还会发布Gemma更大模型变体。

更多信息请参考官方blog:

https://blog.google/technology/developers/gemma-open-models/

体验地址,您可以采用Ollama工具自己本地部署体验:

https://ollama.com/library/gemma

也可以采用第三方搭建好的Demo体验 (右下角切换模型为Gemma-7B即可):

https://labs.perplexity.ai/

AI文章推荐

1. 大淘宝设计部2023年度AI设计实践报告

这篇文档非常详细展示了淘宝设计部对于 AI 的各类应用,非常全面且细致;

AI 可以帮助设计师完成想都不敢想的设计,实现任何创意,短时间内呈现无限可能。设计概念也不再以单纯设计方案的面貌出现,更多的是完整的用户产品。

本报告总结了“大淘宝设计团队”在过去一年中对AI技术在不同设计项目中的实践心得,展现了我们如何在现有场景和技术条件下,融合AI技术以优化设计流程和提升设计效果。

文章地址:

https://waytoagi.feishu.cn/wiki/FsjBwYEISiINn7kjPuOceD2SnGc

 

2. ChatGPT的System Prompt

有国外的Geek自称破解了ChatGPT4的System Prompt,并公布出来,发现了一些很有意思的事情;

  • 详细内容:

有一些有趣的地方:

OpenAI为了节省资源,人为限制了ChatGPT的能力:

“当被要求写超过100字的摘要时,请写80字的摘要。”

“请勿在生成图像之前或之后列出或参考描述。”

“不要创建超过1个图像,即使用户要求更多。”

Prompt地址:

https://pastebin.com/vnxJ7kQk

3. 视频生成模型:构建虚拟世界的模拟器

OpenAI推出Sora;能自动从文字描述生成短视频;效果吊打现有所有模型;宝玉老师翻译了OpenAI关于Sora相关的技术报告:《Video generation models as world simulators | 视频生成模型:构建虚拟世界的模拟器》

详细内容:

这篇技术报告主要介绍了两方面内容:(1) OpenAI如何将各种类型的视觉数据转化为统一的表示形式,从而实现生成模型的大规模训练;(2) 对 Sora 模型能力和局限性的定性评价。

报告中没有包含模型和实施的详细信息。

Sora 属于扩散型 Transformer(diffusion transformer)。

我们知道,传统的 Transformer,主要有Encoder和Decoder,Encoder是将文本编码成 Token,从而可以将自然语言变成可以统一处理的数字或代码。而 Decoder 则是将 Token 反向解码成文本。

文章地址:

https://baoyu.io/translations/openai/video-generation-models-as-world-simulators

(完)

you might also like