banner
约 3,900 字
13 分钟

AI 技术新闻

摘要

本文持续更新AI相关技术,论文,新闻信息,由AI自动维护。

AI 技术新闻

2026.05.12


2026.05.11

  • [News] OpenAI 公布 Deployment Company:OpenAI 将前线部署团队独立成产品落地组织,面向企业和公共部门的复杂 AI 系统交付。

  • [Engineering] OpenAI Signals 汇总 AI 采用趋势:OpenAI 以产品使用、企业部署和开发者生态为线索,整理生成式 AI 从工具试用走向组织级工作流的变化。


2026.05.08


2026.05.07


2026.05.06


2026.05.05


2026.05.04


2026.05.03


2026.05.02


2026.05.01


2026.04

  • [News] OpenAI 发布 GPT-5.5:GPT-5.5 继续强化跨模态推理、长上下文和复杂任务执行能力,面向 ChatGPT 与 API 同步升级。

  • [News] Anthropic 发布 Claude Opus 4.7:Opus 4.7 面向长时程 agent、代码修复和高难度推理任务迭代,继续拉高 Claude 系列的工程任务定位。

  • [Repo] DeepSeek-V4 系列发布:DeepSeek-V4 Pro / Flash 面向多模态与高吞吐推理场景,社区重点关注其开放生态和部署成本。

  • [Tool] OpenAI 推出 GPT-Rosalind:该模型面向生物学研究任务,强化文献、实验设计和科研推理能力。


2026.03


2026.02


2026.01


2025.12

  • [News] Google 发布 Gemini 3 Flash:Gemini 3 Flash 面向高频调用场景,强调更低延迟和更高性价比,并成为 Gemini app 的默认模型之一。

  • [Paper] DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models:DeepSeek 官方论文介绍 V3.2 与 V3.2-Speciale,通过扩展强化学习后训练提升开放模型的推理、数学和代码能力。

  • [Repo] DeepSeek-V3.2:DeepSeek 在 Hugging Face 发布 V3.2 权重,面向长上下文推理和智能体任务提供开放模型选择。

  • [Repo] Qwen-Image-2512:Qwen 团队发布开源图像生成模型,强化高质量文本渲染和可商用图像生成能力。


2025.11


2025.10

  • [Tool] OpenAI 发布 AgentKit:AgentKit 提供可视化工作流、连接器和评测组件,用于更快构建可调试的生产级智能体。

  • [Tool] OpenAI 发布 ChatGPT Atlas:Atlas 将 ChatGPT 嵌入浏览器上下文,面向网页理解、浏览器自动化和跨页面任务执行。

  • [News] Anthropic 发布 Claude Haiku 4.5:Haiku 4.5 用更低成本和更低延迟覆盖代码、计算机使用和 agent 任务,适合高并发工具链。


2025.09


2025.08

  • [Repo] OpenAI 发布 gpt-oss:gpt-oss-120b 和 gpt-oss-20b 是 OpenAI 自 GPT-2 后首次发布的开放权重语言模型,面向本地部署和低成本推理。

  • [News] OpenAI 发布 GPT-5:GPT-5 将普通对话和推理能力统一为新的默认模型,重点提升编码、写作、健康和长上下文检索能力。

  • [Paper] GPT-5 System Card:OpenAI 官方系统卡记录 GPT-5 的能力边界、安全评测和部署前风险分析。

  • [News] Anthropic 发布 Claude Opus 4.1:Opus 4.1 针对复杂重构、代码修复和 agent 任务提升表现,SWE-bench Verified 分数达到 74.5%。

  • [Repo] DeepSeek-V3.1:DeepSeek-V3.1 提供开放权重模型选项,社区重点关注其长上下文、推理和代码任务表现。


2025.07

  • [Tool] OpenAI 发布 ChatGPT agent:ChatGPT agent 将 Deep Research、Operator 和对话能力合并,用于执行浏览、分析、表格和多步骤任务。

  • [News] xAI 发布 Grok 4:Grok 4 引入 Heavy 多智能体模式,面向复杂数学、代码和推理评测竞争前沿模型。

  • [Repo] Qwen3-Coder:Qwen3-Coder-480B-A35B-Instruct 面向 agentic coding,支持 256K 原生上下文和更长上下文扩展。

  • [Repo] Kimi K2:Kimi K2 是 1T 总参数、32B 激活参数的开放 MoE 模型,面向 agent、代码和数学任务。

  • [Paper] Kimi K2: Open Agentic Intelligence:Kimi 官方论文介绍 K2 的 MoE 架构和 agentic 能力评测,强调开放模型在代码和工具使用上的性能。


2025.06


2025.05

  • [News] Anthropic 发布 Claude 4:Claude Opus 4 和 Sonnet 4 强化编码与长时间 agent 任务,Opus 4 在 SWE-bench 和 Terminal-bench 上给出高分。

  • [Paper] Claude 4 System Card:Anthropic 官方系统卡记录 Claude Opus 4 与 Sonnet 4 的能力评测、安全边界和部署风险。

  • [Tool] OpenAI 发布 Codex 研究预览:Codex 基于面向软件工程优化的 codex-1,可在隔离环境中读代码、改文件并运行测试。

  • [Repo] DeepSeek-R1-0528:DeepSeek 更新 R1 推理模型权重,提升数学、代码、JSON 输出和函数调用表现。

  • [Paper] Qwen3 Technical Report:Qwen 官方技术报告介绍 Qwen3 系列训练流程、混合思考模式和多语言能力。

  • [Engineering] AlphaEvolve:Google DeepMind 展示基于 Gemini 的算法发现 agent,用自动生成和评估代码的方式改进算法设计。


2025.04

  • [News] OpenAI 发布 GPT-4.1:GPT-4.1 面向开发者 API 强化代码、指令跟随和长上下文能力,成为 GPT-4o 后的重要工程模型。

  • [News] OpenAI 发布 o3 和 o4-mini:o3 与 o4-mini 将推理模型接入 ChatGPT 工具链,支持搜索、文件、Python、视觉和图像生成等组合任务。

  • [Repo] Meta 发布 Llama 4:Llama 4 Scout 和 Maverick 面向原生多模态场景,延续开放权重生态竞争。

  • [Repo] Qwen3:Qwen3 引入 thinking / non-thinking 混合模式和多尺寸开放模型,方便在推理质量与推理成本之间切换。


2025.03


2025.02

  • [Tool] OpenAI 发布 deep research:Deep Research 让 ChatGPT 能自主浏览、分析并综合数百个在线来源,面向研究报告和复杂信息检索。

  • [News] OpenAI 发布 GPT-4.5:GPT-4.5 通过扩大预训练和后训练提升通用对话、写作和编程能力,但不是显式推理模型。

  • [Tool] Anthropic 发布 Claude 3.7 Sonnet 与 Claude Code:Claude 3.7 Sonnet 引入 extended thinking,Claude Code 把模型接入命令行软件工程任务。

  • [News] xAI 发布 Grok 3:Grok 3 以推理和基准表现为核心卖点,加入 2025 年前沿模型竞争。

  • [Paper] s1: Simple test-time scaling:该高讨论论文展示通过少量高质量样本和测试时计算扩展,可以让小模型在推理任务上获得显著提升。


2025.01


END

相关文章

暂无相关文章