AI 技术新闻
摘要
本文持续更新AI相关技术,论文,新闻信息,由AI自动维护。
AI 技术新闻
2026.05.12
[News] OpenAI 公开 MRC 超算网络协议:面向大规模 GPU 集群训练,解决多路径网络传输、拥塞控制与同步训练稳定性问题。
[Tool] Anthropic 提高 Claude Code 与 Claude API 使用限制:扩展 Claude Code 五小时使用额度和 Claude Opus API rate limits,提高高频开发与生产调用容量。
[Tool] Gemini API File Search 支持多模态 RAG:将文件检索扩展到图文混合场景,支持元数据过滤和页级引用,适合企业知识库与视觉资产检索。
[Engineering] Hugging Face 梳理基础模型训练与推理基础设施:拆解 GPU、网络、存储、调度、ML 软件栈和可观测性组件,适合作为大模型工程基础设施参考。
[Engineering] Wix 评测 AI Agent 中 Skills 与文档的效果:基于 250 次 Agent 评测比较普通文档、优化文档和专用 Skill,指出过期 Skill 会降低任务表现。
2026.05.11
[News] OpenAI 公布 Deployment Company:OpenAI 将前线部署团队独立成产品落地组织,面向企业和公共部门的复杂 AI 系统交付。
[Engineering] OpenAI Signals 汇总 AI 采用趋势:OpenAI 以产品使用、企业部署和开发者生态为线索,整理生成式 AI 从工具试用走向组织级工作流的变化。
2026.05.08
[Tool] OpenAI 升级语音模型与低延迟语音 API:新语音模型强化实时交互和语音理解能力,适合构建低延迟语音助手和多模态 agent。
[Engineering] AI 语音接口进入实时应用场景:开发者开始把语音模型用于代码助手、客服和浏览器工作流,延迟和稳定性成为核心工程指标。
2026.05.07
[Tool] OpenAI 发布新的语音智能模型:更新面向实时语音理解、生成和工具调用,降低语音交互产品的端到端开发成本。
[News] Anthropic 与 SpaceX 扩容合作:Anthropic 通过额外算力供给提升 Claude Code 和 Claude API 可用额度,缓解高峰期模型调用限制。
[Engineering] 语音模型的瓶颈从识别率转向交互闭环:实时语音 AI 的关键从 ASR/TTS 质量扩展到延迟、上下文保持和工具调用链路。
2026.05.06
[Tool] Anthropic 提高 Claude Code 使用限制:Claude Code 的五小时额度上调,减少高频编程场景中因限制触发的工作流中断。
[News] 美国国防部门扩大对前沿 AI 公司的合作:OpenAI、Anthropic、Google 和 xAI 获得上限 2 亿美元的 AI 合同框架,推动大模型进入国防和公共部门场景。
[Engineering] Claude API rate limits 上调:Claude Opus API 容量提升对长时间 agent、代码修复和企业批处理任务更直接。
2026.05.05
[Tool] Anthropic 推出面向金融服务的 AI agents:Claude 被封装进面向投研、合规、文档分析和客户服务的金融 agent 模板,强调受控工具调用和可审计输出。
[News] 美国 CAISI 与 OpenAI、Anthropic 建立预发布评测合作:安全机构可在模型正式发布前进行能力和风险评测,前沿模型发布流程更接近工程化审查。
[Engineering] 金融 agent 的关键约束转向权限和审计:相比通用聊天,金融场景更依赖权限边界、引用链路和人工复核机制。
2026.05.04
[News] Anthropic 推出面向企业 AI 服务公司的合作计划:Anthropic 通过服务伙伴把 Claude 接入企业咨询、系统集成和行业解决方案工作流。
[Engineering] Google 汇总 4 月 AI 更新:Google 将搜索、Gemini、开发者工具和设备端 AI 更新合并呈现,显示 AI 功能从单点模型发布转向产品线集成。
[Tool] OpenAI 与 Anthropic 的企业落地合作继续扩大:前沿模型公司通过咨询和集成伙伴进入传统企业流程,落地难点从模型能力转向组织改造。
2026.05.03
[Engineering] OpenAI 与 AWS Native 推进企业 AI 协作:云平台、模型提供商和企业应用的绑定加深,企业部署更依赖统一权限、计费和数据边界。
[Tool] Gemini Dashboard 整合 Google Workspace AI 能力:Workspace AI 入口从分散功能转向集中仪表盘,方便企业管理不同产品中的 Gemini 功能。
2026.05.02
[News] 美国国防 AI 合同引发前沿模型公共部门部署讨论:OpenAI 和 Anthropic 等公司进入更高敏感度的公共部门任务,模型安全、审计和数据隔离成为核心工程问题。
2026.05.01
[News] OpenAI、Anthropic、Google 和 xAI 获得五角大楼 AI 合同框架:每家公司合同上限 2 亿美元,显示前沿模型进入政府和国防工作流的速度继续加快。
[Engineering] 公共部门 AI 部署的关键问题转向安全边界:前沿模型进入敏感业务后,审计、访问控制和数据使用边界比单纯模型能力更重要。
2026.04
[News] OpenAI 发布 GPT-5.5:GPT-5.5 继续强化跨模态推理、长上下文和复杂任务执行能力,面向 ChatGPT 与 API 同步升级。
[News] Anthropic 发布 Claude Opus 4.7:Opus 4.7 面向长时程 agent、代码修复和高难度推理任务迭代,继续拉高 Claude 系列的工程任务定位。
[Repo] DeepSeek-V4 系列发布:DeepSeek-V4 Pro / Flash 面向多模态与高吞吐推理场景,社区重点关注其开放生态和部署成本。
[Tool] OpenAI 推出 GPT-Rosalind:该模型面向生物学研究任务,强化文献、实验设计和科研推理能力。
2026.03
[News] OpenAI 年化收入规模继续扩大:OpenAI 商业化速度推动模型 API、ChatGPT 订阅和企业部署成为前沿模型研发的重要资金来源。
[Tool] Google 将 Gemini 接入更多 Android 与 Workspace 工作流:Gemini 从独立聊天入口扩展到 Gmail、Docs、Search 和移动端任务,强调跨应用上下文执行。
[Engineering] Anthropic Economic Index 追踪 AI 在工作中的使用方式:该指数用真实使用模式分析 AI 对职业任务的影响,为评估 agent 落地场景提供数据参考。
[Tool] OpenAI 更新 agents 构建接口:Responses API、工具调用和追踪能力继续合并,减少从原型 agent 到生产工作流的工程胶水。
2026.02
[News] Anthropic 发布 Claude Opus 4.6 与 Sonnet 4.6:Claude 4.6 系列继续强化代码、计算机使用和长上下文任务,面向企业 agent 工作流。
[News] Google 扩展 Gemini 3 Deep Think:Gemini 3 Deep Think 面向更长链路推理、数学和代码任务,强调显式推理与工具使用结合。
[Engineering] OpenAI deep research 扩展到更多研究型任务:Deep research 的使用场景从报告生成扩展到竞品分析、政策研究和技术调研工作流。
[Repo] DeepSeek-R1 蒸馏模型继续被社区广泛复用:R1 系列蒸馏模型成为低成本推理、微调和本地部署实验的重要基线。
2026.01
[News] OpenAI 清理旧模型并更新 API 生命周期:旧模型逐步退出促使开发者迁移到 GPT-5 系列和新工具接口,模型生命周期管理成为生产系统必须考虑的问题。
[Tool] Google Gemini API 提升文件处理能力:Gemini API 对文件上传、检索和多模态输入的支持继续增强,方便构建 RAG 和文档分析工具。
[Tool] Google Search 与 Gemini 3 的集成继续加深:搜索入口加入更强的推理和多模态能力,AI 搜索从答案生成转向任务辅助。
[Paper] OpenAI GPT-5 System Card:OpenAI 官方系统卡说明 GPT-5 系列的能力评测、安全边界和部署前风险测试方法。
2025.12
[News] Google 发布 Gemini 3 Flash:Gemini 3 Flash 面向高频调用场景,强调更低延迟和更高性价比,并成为 Gemini app 的默认模型之一。
[Paper] DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models:DeepSeek 官方论文介绍 V3.2 与 V3.2-Speciale,通过扩展强化学习后训练提升开放模型的推理、数学和代码能力。
[Repo] DeepSeek-V3.2:DeepSeek 在 Hugging Face 发布 V3.2 权重,面向长上下文推理和智能体任务提供开放模型选择。
[Repo] Qwen-Image-2512:Qwen 团队发布开源图像生成模型,强化高质量文本渲染和可商用图像生成能力。
2025.11
[News] OpenAI 发布 GPT-5.1:GPT-5.1 面向 ChatGPT 对话体验和推理可控性做迭代,改善指令跟随、响应风格和日常任务表现。
[News] Google 发布 Gemini 3:Gemini 3 同步进入 Gemini app、Search、AI Studio 和 Vertex AI,强化多模态理解、推理和开发者接口。
[Tool] Google 发布 Antigravity:Antigravity 是面向 Gemini 3 的智能体开发平台,把编辑器、终端和浏览器整合到可审查的 agent 工作流中。
[News] Anthropic 发布 Claude Opus 4.5:Claude Opus 4.5 继续强化代码生成、计算机使用和长时间智能体任务,面向高难度工程工作流。
[Engineering] Claude Opus 4.5 在 SWE-bench Verified 上刷新编码评测表现:该发布把编码模型竞争进一步推向真实仓库修复、工具调用和端到端 agent 任务。
2025.10
[Tool] OpenAI 发布 AgentKit:AgentKit 提供可视化工作流、连接器和评测组件,用于更快构建可调试的生产级智能体。
[Tool] OpenAI 发布 ChatGPT Atlas:Atlas 将 ChatGPT 嵌入浏览器上下文,面向网页理解、浏览器自动化和跨页面任务执行。
[News] Anthropic 发布 Claude Haiku 4.5:Haiku 4.5 用更低成本和更低延迟覆盖代码、计算机使用和 agent 任务,适合高并发工具链。
2025.09
[News] Anthropic 发布 Claude Sonnet 4.5:Sonnet 4.5 强化长时程 autonomous work、编码和计算机使用能力,成为 AI 编程工具链中的核心模型之一。
[Engineering] vLLM 支持 Qwen3-Next:vLLM 适配 Qwen3-Next 的混合注意力、高稀疏 MoE 和多 token 预测,降低长上下文推理部署门槛。
[Engineering] NVIDIA 解析 Qwen3-Next 混合 MoE 架构:文章说明 Qwen3-Next 以 80B 总参数和 3B 激活参数提升吞吐与长上下文效率。
[News] Microsoft 365 引入 Claude 模型选项:Microsoft 在部分 Copilot 场景加入 Claude Sonnet 4 和 Opus 4.1,企业 AI 工具从单模型栈转向多模型路由。
[Engineering] NIST/CAISI 评估 DeepSeek AI 模型:报告对 DeepSeek 模型的能力、安全和下载使用情况进行评估,为开放模型治理提供参考。
2025.08
[Repo] OpenAI 发布 gpt-oss:gpt-oss-120b 和 gpt-oss-20b 是 OpenAI 自 GPT-2 后首次发布的开放权重语言模型,面向本地部署和低成本推理。
[News] OpenAI 发布 GPT-5:GPT-5 将普通对话和推理能力统一为新的默认模型,重点提升编码、写作、健康和长上下文检索能力。
[Paper] GPT-5 System Card:OpenAI 官方系统卡记录 GPT-5 的能力边界、安全评测和部署前风险分析。
[News] Anthropic 发布 Claude Opus 4.1:Opus 4.1 针对复杂重构、代码修复和 agent 任务提升表现,SWE-bench Verified 分数达到 74.5%。
[Repo] DeepSeek-V3.1:DeepSeek-V3.1 提供开放权重模型选项,社区重点关注其长上下文、推理和代码任务表现。
2025.07
[Tool] OpenAI 发布 ChatGPT agent:ChatGPT agent 将 Deep Research、Operator 和对话能力合并,用于执行浏览、分析、表格和多步骤任务。
[News] xAI 发布 Grok 4:Grok 4 引入 Heavy 多智能体模式,面向复杂数学、代码和推理评测竞争前沿模型。
[Repo] Qwen3-Coder:Qwen3-Coder-480B-A35B-Instruct 面向 agentic coding,支持 256K 原生上下文和更长上下文扩展。
[Repo] Kimi K2:Kimi K2 是 1T 总参数、32B 激活参数的开放 MoE 模型,面向 agent、代码和数学任务。
[Paper] Kimi K2: Open Agentic Intelligence:Kimi 官方论文介绍 K2 的 MoE 架构和 agentic 能力评测,强调开放模型在代码和工具使用上的性能。
2025.06
[News] OpenAI 发布 o3-pro:o3-pro 是 o3 的高推理强度版本,面向数学、代码和复杂问题求解场景。
[News] Gemini 2.5 Pro 和 Flash 进入稳定版:Google 将 Gemini 2.5 Pro 与 Flash 从预览推进到稳定发布,并增加更轻量的 Flash-Lite 预览。
[Paper] The Illusion of Thinking:Apple 论文通过可控 puzzle 环境分析推理模型能力边界,指出复杂度升高时显式推理并不总能带来可靠提升。
[Paper] Qwen3 Embedding:Qwen 论文介绍 Qwen3 Embedding 与 reranking 模型,用基础模型能力提升文本向量检索和排序任务。
[Engineering] Gemini 2.5 系列进入 AI Studio 与 Vertex AI 稳定渠道:稳定渠道降低企业集成风险,便于把 Gemini 2.5 用于生产 RAG、编码和多模态应用。
2025.05
[News] Anthropic 发布 Claude 4:Claude Opus 4 和 Sonnet 4 强化编码与长时间 agent 任务,Opus 4 在 SWE-bench 和 Terminal-bench 上给出高分。
[Paper] Claude 4 System Card:Anthropic 官方系统卡记录 Claude Opus 4 与 Sonnet 4 的能力评测、安全边界和部署风险。
[Tool] OpenAI 发布 Codex 研究预览:Codex 基于面向软件工程优化的 codex-1,可在隔离环境中读代码、改文件并运行测试。
[Repo] DeepSeek-R1-0528:DeepSeek 更新 R1 推理模型权重,提升数学、代码、JSON 输出和函数调用表现。
[Paper] Qwen3 Technical Report:Qwen 官方技术报告介绍 Qwen3 系列训练流程、混合思考模式和多语言能力。
[Engineering] AlphaEvolve:Google DeepMind 展示基于 Gemini 的算法发现 agent,用自动生成和评估代码的方式改进算法设计。
2025.04
[News] OpenAI 发布 GPT-4.1:GPT-4.1 面向开发者 API 强化代码、指令跟随和长上下文能力,成为 GPT-4o 后的重要工程模型。
[News] OpenAI 发布 o3 和 o4-mini:o3 与 o4-mini 将推理模型接入 ChatGPT 工具链,支持搜索、文件、Python、视觉和图像生成等组合任务。
[Repo] Meta 发布 Llama 4:Llama 4 Scout 和 Maverick 面向原生多模态场景,延续开放权重生态竞争。
[Repo] Qwen3:Qwen3 引入 thinking / non-thinking 混合模式和多尺寸开放模型,方便在推理质量与推理成本之间切换。
2025.03
[News] Google 发布 Gemini 2.5:Gemini 2.5 Pro 是 Google 首个明确定位为 thinking model 的 Gemini 版本,强化数学、科学和代码推理。
[Repo] Google 发布 Gemma 3:Gemma 3 提供多尺寸开放模型和官方量化版本,降低本地部署和边缘推理成本。
[Paper] Gemma 3 Technical Report:Google DeepMind 技术报告介绍 Gemma 3 的多模态、长上下文和量化方案。
[Tool] OpenAI 发布 Responses API 与 Agents SDK:新 API 将 Chat Completions 的简洁性和 Assistants 的工具调用能力合并,作为构建 agent 的底层接口。
[Engineering] Gemini 2.5 Pro 登上多项推理与代码评测前列:Gemini 2.5 Pro 在代码编辑和复杂推理评测中表现突出,推动闭源模型进入 thinking model 竞争阶段。
2025.02
[Tool] OpenAI 发布 deep research:Deep Research 让 ChatGPT 能自主浏览、分析并综合数百个在线来源,面向研究报告和复杂信息检索。
[News] OpenAI 发布 GPT-4.5:GPT-4.5 通过扩大预训练和后训练提升通用对话、写作和编程能力,但不是显式推理模型。
[Tool] Anthropic 发布 Claude 3.7 Sonnet 与 Claude Code:Claude 3.7 Sonnet 引入 extended thinking,Claude Code 把模型接入命令行软件工程任务。
[News] xAI 发布 Grok 3:Grok 3 以推理和基准表现为核心卖点,加入 2025 年前沿模型竞争。
[Paper] s1: Simple test-time scaling:该高讨论论文展示通过少量高质量样本和测试时计算扩展,可以让小模型在推理任务上获得显著提升。
2025.01
[News] DeepSeek-R1 发布:DeepSeek-R1 以强化学习驱动推理能力并开放权重,显著提升社区对低成本开放推理模型的关注。
[Paper] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning:DeepSeek 官方论文介绍 R1-Zero、R1 和蒸馏模型,展示强化学习与蒸馏对推理能力的影响。
[Tool] OpenAI 发布 Operator:Operator 是可操作网页的计算机使用 agent 研究预览,代表 ChatGPT 从回答问题转向执行网页任务。
[News] OpenAI 发布 o3-mini:o3-mini 是更低成本的推理模型,支持开发者在速度、成本和推理深度之间做权衡。
相关文章
暂无相关文章
