赢政天下 AI — AI 模型评测·行业资讯·深度研究

最新资讯

查看全部 →
评测 07-05 09:22
GLM-4.6 材料约束 25 分 代码执行 88.7 分 诚信探针归零
GLM-4.6 在 2026-07-05 Run#214 Smoke 快测中主榜 60.04 分,代码执行 88.70 分、材料约束 25.00 分,诚信评级 fail(探针 0.00)。该模型在 42 个金丝雀探针中全部触发,显示其将虚构
评测 07-05 06:54
豆包 Pro 与 Gemini 3.1 Pro并列88.54分:2026-07-05 Smoke快测数据简报
2026-07-05 赢政指数 Smoke 快测覆盖 11 个模型,豆包 Pro 与 Gemini 3.1 Pro 以 88.54 分并列当日首位。Smoke 为每日 10 题快测,适合观察短期信号,不等同 Full 周榜结论。
资讯 07-05 06:05 NF
Anthropic指控阿里巴巴用2.5万假账户提取Claude模型能力
Anthropic于2026年6月10日致信美国参议员,指控阿里巴巴通过近2.5万个虚假账户在4月22日至6月5日期间生成超过2880万次Claude交互,针对代理推理、软件工程等核心能力实施蒸馏攻击。相比此前三家中国实验室合计1600万次
资讯 07-05 02:16 TC
阿里内部封杀Claude Code:高风险管理引科技圈震动
据TechCrunch报道,阿里巴巴已将Anthropic旗下的AI编程工具Claude Code列为高风险软件,禁止员工使用。此举反映出中国科技巨头在数据安全和合规方面的严格管控,也凸显中美AI生态的进一步割裂。本文深度解析事件背景、行业
资讯 07-05 02:15 TC
Midjourney要求好莱坞披露AI使用细节
在一场针对三家好莱坞工作室的持续法律纠纷中,AI图像生成公司Midjourney正试图迫使这些工作室公开其自身使用人工智能的具体方式。此举旨在揭示这些工作室在指控Midjourney侵犯版权的同时,是否也在依赖AI技术进行内容创作。本文深度
资讯 07-05 00:15 TC
揭秘Mistral AI:对标OpenAI的开源新贵
Mistral AI作为2023年成立的法国AI初创公司,凭借开源模型和巨额融资迅速崛起,挑战OpenAI的霸主地位。本文深度解析其技术路线、融资历程与行业影响,探讨“让前沿AI惠及每个人”的愿景能否实现。
资讯 07-04 06:15 TC
今年你只需这一份AI术语指南
随着人工智能技术的爆发,大量新术语和俚语涌入日常交流。从基础概念如大语言模型、生成式AI,到前沿热点如智能体、对齐、检索增强生成,本文为你梳理2026年最值得关注的AI词汇。无论你是技术新手还是资深从业者,这份术语表都能帮你快速掌握关键定义
资讯 07-04 06:11 NF
Meta肯尼亚承包商伪装未成年账号测试ChatGPT等AI安全引发伦理争议
Wired曝光Meta通过肯尼亚承包商雇用数百人,伪装未成年账号向ChatGPT、Gemini发送自杀、自残、儿童剥削提示,测试安全漏洞。该操作被Meta称为负责任基准测试,但引发伦理争议与竞争指控。文章分析测试原理、实际执行效果及行业影响
资讯 07-04 04:15 TC
浏览器战局转向:Chrome和Safari的最佳替代品
浏览器战争的焦点已从搜索引擎之争转向隐私、性能和AI集成。本文盘点当前挑战Chrome和Safari地位的几款优秀替代浏览器,包括Brave、Firefox、Arc、Vivaldi等,分析其独特优势与适用场景,帮助用户根据自身需求做出更明智
资讯 07-04 03:50 X
OpenAI讨论向美国政府提供5%股权,方案仍处早期
据英国《卫报》援引金融时报报道,OpenAI 正处于早期讨论阶段,可能向美国政府提供约 5% 股权,以探索让公众分享 AI 经济收益的机制。该设想仍属概念方案,可能需要国会批准。
资讯 07-04 03:50 X
微软MAI-DxO诊断系统研究表现亮眼,但尚未临床落地
微软 MAI Diagnostic Orchestrator 在 NEJM 复杂病例研究中达到约 80% 至 85.5% 的诊断准确率,高于受限条件下医生组约 20% 的表现。但该系统仍处研究阶段,不能直接等同临床可用产品。
资讯 07-04 03:49 X
Meta筹备Meta Compute,拟出租富余AI算力
MarketWatch 报道称,Meta 正准备通过名为 Meta Compute 的云服务出租富余算力。消息传出后,CoreWeave 和 Nebius 股价下跌,市场担心大型平台从客户变成云算力竞争者。