← 全部日期

AI & CV 每日科普 · 2026年5月29日

6 条当日/近期热点 · 工程师向浅科普

【主题】Claude Opus 4.8 进入 GitHub Copilot,可作为高阶代码模型选择

解读 GitHub 把 Claude Opus 4.8 接入 Copilot,并覆盖 VS Code、GitHub.com、CLI、移动端等多个入口。对工程团队来说,这类更新的重点不是“又多一个模型”,而是可以按任务难度和成本选择模型。企业管理员需要先打开策略,并配合用量计费和模型规则做成本控制。

来源 GitHub Changelog

【主题】Gemini Embedding 2 把文本、图像、音频、视频放进同一个检索空间

解读 Google 介绍的 Gemini Embedding 2 可把多种内容映射到同一个向量空间,用于多模态搜索、推荐和 Agent RAG。工程上它适合处理企业知识库里“文档+图片+视频+音频”混在一起的场景。落地时要重点评估向量成本、召回质量和不同媒体格式的权限边界。

来源 Google Developers Blog

【主题】Copilot Studio 计算机使用型智能体正式可用,企业 RPA 进入 Agent 化

解读 微软宣布 Copilot Studio 的 computer use agents 正式可用,智能体可以像人一样看屏幕、点击和输入。它的价值在于补齐没有 API 的旧系统自动化场景,比传统 RPA 更容易用自然语言描述任务。真正上线要看凭据托管、审计日志、人类确认点和失败恢复是否足够稳。

来源 Microsoft Community Hub

【主题】Codex Chrome 扩展让编程 Agent 能处理需要登录态的浏览器任务

解读 OpenAI 的 Codex Chrome 扩展文档说明,Codex 可以在需要用户登录态时使用 Chrome,而普通本地预览仍优先用内置浏览器。对工程师来说,这代表 Agent 从“只改代码”走向“能帮忙验证后台、CRM、内部工具”的流程。需要注意权限提示、浏览器会话归属和敏感数据最小化访问。

来源 OpenAI Developers

【主题】DeepLabCut 3.0 转向 PyTorch 后端,动物与人体姿态估计更贴近主流 CV 栈

解读 DeepLabCut 3.0 发布了主要 PyTorch 训练和推理栈,同时保留 TensorFlow 兼容路径,并加入 RTMPose、DEKR、BUCTD 等模型。对做行为分析、实验室视觉和工业姿态估计的团队,它降低了与 PyTorch、COCO 数据和现代标注工具衔接的成本。迁移时要重点比较旧模型精度、标注格式和导出部署链路。

来源 GitHub Release

【主题】NVIDIA Nemotron 3 Nano Omni 强调文档、音频和视频的长上下文多模态理解

解读 Hugging Face 上的介绍显示,Nemotron 3 Nano Omni 面向文档分析、多图推理、语音识别和长音视频理解等任务。它对工程团队的启发是,多模态模型正在从“看单张图”走向“理解长材料和混合输入”。选型时要把显存、延迟、长上下文稳定性和企业文档 OCR 质量一起测。

来源 Hugging Face Blog