- 1 Claude Sonnet 4.6 83.0
- 2 豆包 Pro 81.3
- 3 Grok 4 81.0
- 4 Claude Opus 4.7 80.0
- 5 Gemini 2.5 Pro 79.0
OpenAI解决80年数学难题?这次数学家为其背书
OpenAI宣称其推理模型成功证伪了一个自1946年以来悬而未决的几何猜想。与上次闹出笑话的虚假宣称不同,这次当初揭露其错误的数学家们竟然站出来为其背书。这一突破标志着AI在数学推理领域迈出了坚实一步,也引发了关于AI能否真正理解和证明数学定理的激烈讨论。
继续阅读赢政指数看板
查看完整排行 »- 1 Claude Opus 4.7 65.0%
- 2 Claude Sonnet 4.6 62.5%
- 3 豆包 Pro 60.0%
- 4 Gemini 2.5 Pro 57.5%
- 5 Qwen3 Max 57.5%
- ↓ Qwen3 Max -10.0分
- ↓ GPT-o3 -10.8分
- ↓ GPT-5.5 -19.2分
- ↓ Gemini 3.1 Pro -8.3分
- ⚠ GPT-o3 严格题"SQL:连续登录天数"从满分
- ⚠ GPT-o3 严格题"Debug:矩阵旋转"从满分
Lab 原创
更多评测最新资讯
查看全部OpenAI解决80年数学难题?这次数学家为其背书
OpenAI宣称其推理模型成功证伪了一个自1946年以来悬而未决的几何猜想。与上次闹出笑话的虚假宣称不同,这次当初揭露其错误的数学家们竟然站出来为其背书。这一突破标志着AI在数学推理领域迈出了坚实一步,也引发了关于AI能否真正理解和证明数学定理的激烈讨论。
Anthropic每月向xAI支付12.5亿美元算力费
埃隆·马斯克旗下的xAI与Anthropic达成一项令人意外的算力销售协议,如今具体金额浮出水面:Anthropic将每月向xAI支付12.5亿美元,以获得其超级计算机集群的算力支持。这笔交易不仅缓解了Anthropic对算力的迫切需求,也标志着xAI从纯AI研究公司向算力供应商的角色转变。在AI军备竞赛白热化的当下,这样的合作与竞争交织的格局正在重塑整个行业。
马斯克xAI因数据中心发电机被诉,却再砸28亿美元采购
马斯克旗下AI公司xAI正面临法律诉讼,指控其数据中心发电机造成环境污染。然而,据SpaceX IPO文件透露,xAI计划未来三年再购买28亿美元的天然气涡轮机,以支撑其AI算力扩张。这一巨额投资引发环保争议,批评者认为此举与马斯克宣扬的可持续理念背道而驰。本文深度解析诉讼背景、xAI的能源策略及行业连锁反应。
OpenAI冲刺IPO,或于9月登陆股市
在马斯克输掉威胁OpenAI结构、领导层与财务的诉讼后仅一天,OpenAI据报已重启IPO筹备工作。这家AI巨头可能于今年9月上市,估值或超3000亿美元。此举不仅将重塑科技股版图,更标志着AI商业化进入新阶段。本文编译自TechCrunch。
赋予OpenClaw智能体物理形体
AI模型的编码能力正大幅降低机器人开发的门槛。通过将大语言模型与实体机器人结合,开发者可以用自然语言指令快速部署复杂动作。本文作者尝试为自己的OpenClaw智能体赋予物理身体,展示了AI从虚拟到现实的关键一步。这一趋势预示着机器人将不再是专业程序员的专属工具,而是进入更多应用场景。
吴恩达投资的IrisGo:悄然成为你不可或缺的桌面AI助手
由吴恩达投资支持的初创公司IrisGo,推出一款名为“Iris”的AI桌面管家。它能实时观察用户屏幕操作,通过持续学习自动完成重复性任务,如文件整理、数据录入等。联合创始人表示,这款工具旨在成为用户的“数字分身”,在隐私架构下运行,有望改变人机交互方式。
Grok 4 98.34 分登顶,Claude Opus 主榜暴跌 31.3 分
今日 Smoke 轻量评测显示,Grok 4 以 98.34 分领跑,代码执行满分 100。Claude Opus 4.7 主榜暴跌 31.3 分,执行分直接腰斩至 38.1,诚信评级从 pass 转为 warn。Qwen3 Max 紧随其后,多款模型执行能力出现明显下滑。
创业战场200申请截止倒计时:5月27日最后窗口
TechCrunch Disrupt旗下Startup Battlefield 200创业大赛申请将于5月27日关闭。参赛者将获得在TechCrunch Disrupt大会路演的机会、接触顶级投资者、争夺10万美元大奖及多项成长加速权益。主办方向全球早期创业者发出最后召集,无论指定还是自行申报,请速行动。
OpenAI加速IPO进程,或于9月上市
在马斯克败诉、其针对OpenAI结构、领导层和财务状况的诉讼威胁解除后仅一天,OpenAI据报已重启IPO准备工作。消息人士称,这家AI巨头正加速推进上市进程,最早可能于2026年9月登陆资本市场。此举标志着AI行业最大规模上市事件即将到来,OpenAI估值预计将突破千亿美元。
2026年谷歌I/O:AI智能体将彻底重塑搜索
在2026年谷歌I/O开发者大会上,公司宣布了搜索历史上最大规模的变革:全面转向智能体驱动(Agentic AI)的搜索架构。新系统不再仅返回链接,而是能够理解复杂意图、主动规划多步骤任务、调用第三方服务并生成可执行的解决方案。这一转变标志着搜索从信息检索工具进化为自主行动的虚拟助手,也引发了关于隐私、垄断和AI安全的新一轮讨论。
创业战场200强申请倒计时:5月27日截止,赢取10万美元大奖
TechCrunch年度旗舰活动Startup Battlefield 200的申请窗口将于5月27日关闭。入选项目将在TechCrunch Disrupt舞台上路演,直面顶级投资人,争夺10万美元无附加条件的奖金,并获得加速器资源及其他商业化支持。主办方呼吁创业者抓紧最后一周提交或提名。
拒绝2000万收购,NanoClaw出圈后自筹1200万种子轮
在病毒式传播后,NanoClaw(一款OpenClaw替代品)的开发商NanoCo拒绝了高达2000万美元的收购要约,转而选择独立发展,并成功完成了1200万美元的种子轮融资。创始人向TechCrunch透露,这笔资金将用于加速产品迭代和社区生态建设,保持对开源精神的承诺。