大模型聊到第三轮,谁还守得住底线?——赢政指数 v7 推出 DCD:测一件别人没在测的事
赢政指数 v7 推出实验性维度 DCD(动态语境衰变),首次系统性测量大模型在多轮对话中守住初始约束的能力。30 道题、三轮对话、五类场景、规则判分零 AI 介入——这是国内外公开评测体系中第一个针对"AI 在长对话中会不会忘掉自己承诺过什
赢政指数 v7 推出实验性维度 DCD(动态语境衰变),首次系统性测量大模型在多轮对话中守住初始约束的能力。30 道题、三轮对话、五类场景、规则判分零 AI 介入——这是国内外公开评测体系中第一个针对"AI 在长对话中会不会忘掉自己承诺过什
2026 年 5 月 1 日,赢政指数完成史上最大规模评测阵容更新:GPT-5.5 替代 GPT-4o、Claude Opus 4.7、DeepSeek V4、Gemini 3.1 Pro 等 7 款新旗舰同时入列,9 款旧模型正式退役。新
NVIDIA通过单一OpenAI兼容端点提供80多个AI模型的免费API访问,包括DeepSeek、Kimi、MiniMax、GLM等热门模型,开发者社区反响热烈,但免费政策的持续性和使用限制条件仍存在不确定性。
DeepSeek推出V4系列开源模型,最大参数达1.6万亿,支持100万token上下文,采用MIT许可证。模型兼容华为Ascend芯片,API定价约为国际主流模型的1/20,标志着中国在构建独立AI技术栈方面取得重大突破,并引发全球AI服
中国AI公司DeepSeek使用华为芯片发布V4模型,引发中美AI技术争端升级。支持者称赞中国技术独立,而批评者指责知识产权盗窃,美国官员发布全球间谍警报。克隆模型的具体技术细节仍不明确。
本周AI模型评测出现罕见异象:11个主流模型的编程得分集体暴涨29-47分,唯独GPT-o3长文本能力暴跌33.5分。这背后是测试标准调整还是模型真实进化?数据揭示了三个关键信号。
一道简单的时区计算题暴露AI致命弱点:11个主流模型中6个答错,包括谷歌Gemini、马斯克Grok等明星产品。最离谱的是Qwen Max把周六算成了周五,而所有模型都没意识到3月15日恰好是夏令时临界点。
一道简单的排序逻辑题让11个顶尖AI模型现出原形:DeepSeek V3和R1双双翻车,Grok更是离谱到让人怀疑它在摸鱼。8个模型答对,3个彻底答错,错误率27%暴露了当前AI的推理软肋。
一道简单的服务器内存核查题,11个主流AI模型中10个给出了敷衍答案,只有豆包Pro展现出真正的工程思维。这背后暴露的不是技术问题,而是AI模型在实际工作场景中的思维深度差异。
一道简单的数据泄露应急题,11个主流AI模型中竟有7个拿了0分。豆包、DeepSeek等国产模型全部满分,而号称最强的Claude、GPT却在关键时刻掉了链子。这背后暴露出什么问题?
过去48小时X平台AI圈最大争议:Anthropic指控DeepSeek、Moonshot AI、MiniMax等中国公司创建2.4万假账户、发起1600万次交互,对Claude模型进行系统性“蒸馏攻击”,窃取代理推理、工具使用等核心能力。
OpenAI向美国国会提交备忘录,指控中国AI公司DeepSeek通过“模型蒸馏”违规获取ChatGPT等模型输出,用于训练自家R1系列,绕过服务条款和安全限制。 OpenAI称此为“免费搭车”和知识产权盗窃,甚至上升到国家安全风险。争议
赢政指数 No.002:DeepSeek 最佳编程搭档大横评 —— Cursor vs Windsurf vs VS Code,四大维度实测报告正式发布!
赢政研究院(Winzheng Research Lab)今日发布2026年第一季度《DeepSeek最佳运行硬件排行榜》,首次将数据中心级GPU、消费级显卡、苹果笔记本与一部2018年产旧手机放在同一张考卷上进行AI推理实测。结果显示:售价
谷歌Gemini遭模型蒸馏攻击曝光后,winzheng Research Lab最新报告剖析DeepSeek事件,揭示攻击链条全貌。从API异常调用到混合训练路径,事件铁证如山。报告提出API智能风控、输出水印及模型对抗训练的纵深防御体系,
中国AI公司DeepSeek推出V2模型聊天机器人,免费开放使用,其中文能力媲美GPT-4o,在编程和数学领域表现出色。一天内X平台中文讨论超10万,转发量领跑,凭借高性价比迅速引爆中国AI圈,标志着国产大模型崛起。
GB200 NVL72作为深度学习最强硬件之一,本文分享SGLang团队在上篇博客基础上,对DeepSeek V3/R1推理性能的进一步优化,包括FP8 attention、NVFP4 MoE、大规模专家并行(EP)、预填充-解码分离等技术
中国AI企业DeepSeek发布V2模型,在多项中文基准测试中超越GPT-4o,总参数仅236B却实现高效推理。该模型开源后迅速走红,X平台用户测试分享互动超15万,引发本土AI崛起与‘弯道超车’热议。
中国AI企业DeepSeek发布V2模型,在多项中文基准测试中超越GPT-4o,总参数仅236B却高效能耗低。国内用户测试分享互动超15万,引发‘中国AI弯道超车’热议。该开源模型标志本土AI崛起,挑战西方技术霸权。
中国AI公司DeepSeek推出V2模型,在中文数学推理任务中超越GPT-4o,总参数236B却仅激活21B,高效开源架构引爆国内X平台讨论,互动超5万次,彰显中资AI追赶全球势头。