这里记录每周值得分享的AI科技内容，周末发布。

本杂志开源（GitHub: aitobox/newsweekly），欢迎提交 issue，投稿或推荐你的项目。

AI资讯

1.谷歌推出Gemini 2.0

为应对OpenAI此前推出的众多新产品，谷歌12月12日推出下一代重要人工智能模型Gemini 2.0 Flash，可以原生生成图像和音频，同时支持文本生成。

详细内容

2.0 Flash可以生成并修改图像，同时支持文本生成。该模型还可以读取照片、视频以及音频录制内容，从而回答与这些内容相关的问题。

音频生成是2.0 Flash的另一个关键功能，Doshi将其描述为“可操控”和“可定制”。例如，该模型可以用八种针对不同口音和语言优化的声音来朗读文本。

2.0 Flash的生产力版本将于明年1月推出。但与此同时，谷歌推出了一个API，名为Multimodal Live API，以帮助开发者构建具有实时音频和视频流功能的应用程序。

资讯地址

https://blog.google/technology/google-deepmind/google-gemini-ai-update-december-2024/

2.国产大模型DeepSeek-V3发布

国产大模型DeepSeek-V3一夜火爆全球，671B的MoE，训练成本仅558万美元

详细内容

DeepSeekV3训练成本极低：参数量高达 671B 的大型语言模型的预训练过程竟然只用了 266.4 万 H800 GPU Hours，再加上上下文扩展与后训练的训练，总共也只有 278.8 H800 GPU Hours。

虽然相对于其它前沿大模型， DeepSeek-V3 消耗的训练计算量较少，但其性能却足以比肩乃至更优。

据最新发布的 DeepSeek-V3 技术报告，在英语、代码、数学、汉语以及多语言任务上，基础模型 DeepSeek-V3 Base 的表现非常出色，在 AGIEval、CMath、MMMLU-non-English 等一些任务上甚至远远超过其它开源大模型。就算与 GPT-4o 和 Claude 3.5 Sonnet 这两大领先的闭源模型相比，DeepSeek-V3 也毫不逊色，并且在 MATH 500、AIME 2024、Codeforces 上都有明显优势。

资讯地址

https://support.google.com/youtube/answer/14110396?hl=en