这里记录每周值得分享的AI科技内容,周末发布。
本杂志开源(GitHub: aitobox/newsweekly),欢迎提交 issue,投稿或推荐你的项目。
AI资讯
1.谷歌推出Gemini 2.0
为应对OpenAI此前推出的众多新产品,谷歌12月12日推出下一代重要人工智能模型Gemini 2.0 Flash,可以原生生成图像和音频,同时支持文本生成。
详细内容
2.0 Flash可以生成并修改图像,同时支持文本生成。该模型还可以读取照片、视频以及音频录制内容,从而回答与这些内容相关的问题。
音频生成是2.0 Flash的另一个关键功能,Doshi将其描述为“可操控”和“可定制”。例如,该模型可以用八种针对不同口音和语言优化的声音来朗读文本。
2.0 Flash的生产力版本将于明年1月推出。但与此同时,谷歌推出了一个API,名为Multimodal Live API,以帮助开发者构建具有实时音频和视频流功能的应用程序。
资讯地址
https://blog.google/technology/google-deepmind/google-gemini-ai-update-december-2024/
2.国产大模型DeepSeek-V3发布
国产大模型DeepSeek-V3一夜火爆全球,671B的MoE,训练成本仅558万美元
详细内容
DeepSeekV3训练成本极低: 参数量高达 671B 的大型语言模型的预训练过程竟然只用了 266.4 万 H800 GPU Hours,再加上上下文扩展与后训练的训练,总共也只有 278.8 H800 GPU Hours。
虽然相对于其它前沿大模型, DeepSeek-V3 消耗的训练计算量较少,但其性能却足以比肩乃至更优。
据最新发布的 DeepSeek-V3 技术报告,在英语、代码、数学、汉语以及多语言任务上,基础模型 DeepSeek-V3 Base 的表现非常出色,在 AGIEval、CMath、MMMLU-non-English 等一些任务上甚至远远超过其它开源大模型。就算与 GPT-4o 和 Claude 3.5 Sonnet 这两大领先的闭源模型相比,DeepSeek-V3 也毫不逊色,并且在 MATH 500、AIME 2024、Codeforces 上都有明显优势。
资讯地址
AI服务
1.PDFMathTranslate-基于 AI 完整保留排版的 PDF 文档全文双语翻译
将 PDF 文档直接翻译,并支持双语对照;
功能特点
- 基于 AI 完整保留排版的 PDF 文档全文双语翻译
- 支持 Google/DeepL/Ollama/OpenAI 等服务
- 提供 CLI/GUI/Docker
- 适用于科技论文、经济论文的阅读
服务地址
AI视觉大模型的最常见应用是图像处理, 其中对于怎么增强图像质量的AI方案众多,这个网站收集了绝大多数图像增强模型;
功能特点
收集非常全面,包罗各种增强方案;
服务地址
往期推荐
(完)