赢政天下 AI — AI 模型评测·行业资讯·深度研究
赢政指数
完整排行榜 →
#1
Claude Opus 4.7 95.3
·
#2
Qwen3 Max 93.1
·
#3
GPT-5.5 92.5
·
#4
DeepSeek V4 Pro 92
·
#5
Claude Sonnet 4.6 91.2
·
#6
GPT-o3 89.6
·
#7
Grok 4 88
·
#8
豆包 Pro 87.6
·
#9
文心一言 4.5 77.1
·
#10
Gemini 3.1 Pro 76.3
·
#11
Gemini 2.5 Pro 76
·
&triangleup; Qwen3 Max +17.2 · ▿ GPT-5.5 -23.5
·
#1
Claude Opus 4.7 95.3
·
#2
Qwen3 Max 93.1
·
#3
GPT-5.5 92.5
·
#4
DeepSeek V4 Pro 92
·
#5
Claude Sonnet 4.6 91.2
·
#6
GPT-o3 89.6
·
#7
Grok 4 88
·
#8
豆包 Pro 87.6
·
#9
文心一言 4.5 77.1
·
#10
Gemini 3.1 Pro 76.3
·
#11
Gemini 2.5 Pro 76
·
&triangleup; Qwen3 Max +17.2 · ▿ GPT-5.5 -23.5
·
最新资讯
查看全部 →Robinhood裁员10%未提AI,CEO的坦诚为何更显珍贵?
在科技行业大规模裁员并普遍以“AI转型”为理由的浪潮中,Robinhood的CEO Vlad Tenev在宣布裁员10%的内部通知中却对AI只字未提。这种罕见的坦诚引发行业思考:当其他公司用AI粉饰裁员时,Robinhood选择了直面真实原
Plaud AI会议记录器出货超200万台,软件年收入破亿
在AI会议记录设备市场日益拥挤的背景下,Plaud凭借其软硬件一体化策略脱颖而出。该公司近日宣布,其软件业务年经常性收入(ARR)已突破1亿美元,累计出货超过200万台AI会议记录设备。本文深度解析Plaud的增长路径、市场竞争格局及未来挑
美国司法部:xAI未获许可的燃气轮机涉及国家安全
美国司法部近日表示,埃隆·马斯克旗下人工智能公司xAI在未经许可的情况下安装并运行燃气轮机,此举已引发五角大楼的关注,称其涉及国家、经济与能源安全。据悉,这些燃气轮机用于支持xAI的超级计算集群,但未获得必要环境许可。司法部认为,为保障算力
SpaceX公开上市:IPO后你需要知道的一切
TechCrunch全程追踪SpaceX从初创、挣扎到成功的历程。本次IPO专题报道包括:谁将胜出(以及谁可能失利)、IPO前的交易细节,以及S-1注册文件中隐藏的关键信息。深度解读马斯克航天帝国的资本化之路。
保险公司AI战略转向核心风险承保
保险公司AI投入正从追求效率转向创造实际商业价值。根据2026年Evident AI指数,保险公司正将AI嵌入直接影响承保纪律和资本配置的流程。Evident保险主管Christian Preece指出,多年来保险公司在AI雄心方面竞争,如
Probably获900万美元融资,打造零幻觉AI
AI初创公司Probably宣布完成900万美元融资,旨在解决大语言模型最棘手的幻觉与事实错误问题。其目标是将AI的准确率提升至与数据库、规则引擎等确定性系统相媲美的水平,从而让企业用户放心信任AI输出。本轮融资由知名风投领投,将用于技术研
SpaceX估值飙升至2.7万亿美元,超越亚马逊
自上周五股票开始交易以来,SpaceX估值飙升1万亿美元,总估值达到2.7万亿美元,超越亚马逊成为全球市值最高的私营公司。该公司凭借星链和星舰项目的商业化进展,以及投资者对太空经济前景的狂热追捧,实现了这一里程碑。然而,分析师警告其估值可能
当下我们需要什么样的家?
《连线》与《建筑文摘》全球主编联合撰文,探讨后疫情时代家居设计的核心需求。从智能科技到空间灵活性,从心理健康到环保可持续,文章指出现代住宅已不仅是居住场所,更是工作、娱乐、疗愈的综合载体。随着远程办公常态化、家庭结构变化与气候危机加剧,住宅
父亲想居家养老?AI全程守护
随着老龄化社会到来,越来越多老人希望居家安度晚年,但子女和社区护理机构面临安全监控的难题。AI监测设备正在成为解决方案——通过传感器、摄像头和算法实时分析老人行为,跌倒、异常活动等风险可被即时发现。然而,隐私与尊严的权衡、误报率、技术可靠性
微软Copilot严重漏洞:黑客可窃取用户2FA验证码
研究人员发现一个名为SearchLeak的漏洞,利用微软Copilot的搜索功能与第三方应用交互时的权限缺陷,可在用户不知情的情况下窃取双因素认证(2FA)验证码。该漏洞再次暴露了大语言模型(LLM)安全机制中的系统性失败:依赖“提示注入”
SpaceX斥资600亿美元股票收购AI新星Cursor
SpaceX近日宣布以600亿美元股票收购AI编程助手公司Cursor,交易发生在Cursor创纪录的IPO仅数日后。此举旨在重振SpaceX陷入困境的AI部门。SpaceX在IPO路演中曾向投资者表示,其在AI领域看到了26万亿美元的可寻
首位脑植入物“超级用户”诞生,韩国AI狂热背后
本期《下载》聚焦两大科技前沿:一名肌萎缩侧索硬化症(ALS)患者卡西·哈雷尔成为首位脑植入物“超级用户”,通过意念直接说话,实现沟通突破;同时,韩国举国上下掀起人工智能狂热,政府与财阀斥巨资布局,试图在全球AI竞赛中抢占一席。本文深度解析这
深度横评
查看全部 →豆包Pro Smoke评测主榜暴跌9.9分 代码执行从100腰斩至50
在赢政指数2026年6月Smoke评测中,豆包Pro主榜从82.36分跌至72.50分,下滑9.9分。代码执行从100.00分直接跌至50.00分,材料约束则从60.80分升至100.00分,单日波动引发对题目抽签与真实能力稳定性的讨论。
Claude Sonnet 4.6代码执行从100暴跌至50,主榜降6.9分
今日Smoke评测中,Claude Sonnet 4.6代码执行从100.00骤降至50.00,主榜从79.44跌至72.50;材料约束则从54.30升至100.00,工程判断升至95.90。
Claude Opus 4.7 100分称王,9模型代码执行暴跌50分
2026-06-16 Smoke评测中,Claude Opus 4.7以执行100、约束100拿下主榜100分。文心一言4.5主榜81.69分排名第二,执行66.7分。9个模型代码执行出现-50分暴跌,主榜普遍下滑,Gemini系列执行分跌
WDCD 守约排行
#1
Qwen3 Max
84.4
#2
Grok 4
82
#3
Gemini 3.1 Pro
79.7
#4
文心一言 4.5
77.3
#5
Claude Sonnet 4.6
75.8
#6
DeepSeek V4 Pro
75.8
#7
GPT-5.5
75.8
查看完整守约排行 →
Research Lab
5大模型翻译对决:第25周质量评测,passthrough 以 9 分领跑
本周共翻译 443 篇文章,覆盖 5 个AI模型。经抽样盲评,passthrough 综合得分最高(9/10)。报告详细对比各模型在准确性、流畅性、术语一致性方面的表现差异。
WDCD Run #171: Average Instruction Decay Hits -37.9% Across 11 Models, Qwen3 Max Leads Despite Steep Drop
WDCD Run #171 (2026-06-14) measured multi-turn commitment across 11 frontier models, recording an av
WDCD Run #169: Grok 4 Leads Multi-Turn Commitment Test as Average Instruction Decay Drops to 4.5%
WDCD Run #169 (2026-06-13) evaluated 11 AI models on multi-turn commitment integrity, with Grok 4 to