跳至正文
首页
资讯
测评
AI 专题
赢政指数
Lab
WDCD
专题
浏览 AI 专题,每个专题包含编辑导语和最新相关文章。
AI 评测基准对比
85 篇文章
AI 模型评测是选型决策的基石。主流基准包括 MMLU、HumanEval、Chatbot Arena(LMSYS)、SuperCLUE、OpenCompass、C-Eval 等,但多数依赖选择题或模型互评,无法检测真实执行能力和幻觉风险。
AI 代码能力评测
44 篇文章
哪个 AI 模型写代码最强?HumanEval 和 MBPP 是常用基准,但它们只测函数级补全,与真实开发场景差距大。赢政指数的代码执行维度(Execution)在隔离沙箱中运行模型生成的完整程序,验证编译通过率、运行时正确性和边界处理能力
指令遵从与守约测试
54 篇文章
AI 模型是否真的按你说的做?指令遵从(instruction compliance)是企业部署 AI 最关键的评估维度,但传统评测很少涉及。WDCD(Winzheng Dynamic Contextual Decay)是全球首个系统性测量
OpenAI 专题
312 篇文章
OpenAI 是 ChatGPT、GPT-4、DALL·E 背后的 AI 研究公司,由 Sam Altman 领导。本专题汇集 OpenAI 最新动态、产品发布、技术突破及行业影响分析。赢政指数每周追踪 GPT 全系模型在代码执行、诚信评级
Anthropic 专题
206 篇文章
Anthropic 是 Claude 系列模型的开发者,以 AI 安全为核心使命。本专题追踪 Anthropic 的模型发布、安全研究、融资动态及其在负责任 AI 开发领域的前沿探索。在赢政指数评测中,Claude 系列在 WDCD 守约测
AI 安全专题
136 篇文章
AI 安全涵盖对齐、可控性、鲁棒性和伦理治理等核心议题。本专题汇集全球 AI 安全领域的最新研究进展、政策动态、行业实践与深度分析。赢政指数的诚信评级通过 42 组诱导探针检测模型幻觉和编造引文,WDCD 测试衡量多轮对话中指令遵从的衰减—
AI 代理专题
128 篇文章
AI 代理(AI Agent)是 2025-2026 年最热门的技术趋势,从自动编程到自主决策,正在重塑软件开发和企业工作流。本专题追踪 AI Agent 技术演进、产品落地与行业应用。赢政指数的代码执行维度和 WDCD 守约测试直接衡量模
AI 伦理专题
96 篇文章
AI 伦理探讨人工智能发展中的偏见、公平性、隐私、透明度和社会影响。本专题汇集全球 AI 伦理争议、监管框架、企业实践和学术研究。赢政指数的诚信评级从可验证性角度切入 AI 伦理——模型是否编造引文、是否承认不确定性,这是 AI 可信赖的基
xAI 专题
78 篇文章
xAI 是 Elon Musk 创立的 AI 公司,开发了 Grok 系列大语言模型。本专题追踪 xAI 的技术进展、Grok 模型更新、Colossus 超级计算集群建设及其在 AI 竞赛中的战略布局。赢政指数每周评测 Grok 模型在代
生成式 AI 专题
77 篇文章
生成式 AI 涵盖文本、图像、音频、视频等内容的自动生成技术。从 GPT 到 Stable Diffusion,从 Sora 到 Suno,本专题追踪生成式 AI 的技术突破、产品创新和行业应用。赢政指数聚焦文本生成模型的质量评测,通过真实
Meta AI 专题
68 篇文章
Meta(原 Facebook)在 AI 领域的布局涵盖 Llama 开源模型、AI 助手、VR/AR 与元宇宙。本专题追踪 Meta 的 AI 战略、开源生态和产品集成。赢政指数持续评测 Llama 系列开源模型在代码执行和指令遵从维度的
谷歌 AI 专题
65 篇文章
谷歌是 AI 领域的先驱,旗下 DeepMind 和 Google Brain 推出了 Gemini、AlphaFold 等里程碑式产品。本专题追踪谷歌 AI 搜索变革、Gemini 模型迭代和 AI 基础设施布局。赢政指数每周评测 Gem
AI 监管专题
55 篇文章
AI 监管涵盖全球各国的立法、行政令和行业自律框架。从欧盟 AI Act 到中国《生成式人工智能管理办法》,本专题追踪各国政策动态和对 AI 行业的影响。赢政指数的评测数据为监管合规提供客观参考——诚信评级量化模型的幻觉风险,WDCD 评估