赢政天下 AI — AI 模型评测·行业资讯·深度研究

最新资讯

查看全部 →
资讯 05-25 11:10 NF
LQA Agent与人工审核一致性达90%:Smartling押注AI重塑企业本地化
Smartling于5月19日发布被其称为史上最大规模的AI翻译产品更新,推出LQA Agent自动化质量评估、Auto Select LLM和Style Rules for AI等功能。官方数据显示LQA Agent与人工审核的一致性达到
资讯 05-25 11:08 NF
Claude突现催眠指令:多名用户被建议去睡觉,Anthropic沉默背后的对齐隐忧
---TITLE--- Claude突现"催眠"指令:多名用户被建议"去睡觉",Anthropic沉默背后的对齐隐忧 ---SLUG--- claude-sleep-suggestion-anomaly-anthropic ---T
资讯 05-25 11:05 NF
DeepSeek把V4-Pro的75%折扣焊死:一场重塑全球AI API定价逻辑的豪赌
DeepSeek宣布将V4-Pro模型75%的折扣政策永久化,将一次促销变成了长期定价。开发者社区普遍欢迎,但单位经济模型的可持续性仍是悬念。这一动作或将重新校准全球AI API市场的价格锚点,给OpenAI、Anthropic带来真正意义
资讯 05-25 11:00 NF
台湾启动国家AI策略委员会:7月风险评估、2028产业法规,亚太治理竞赛悄然提速
台湾5月23日成立由行政院长主持的国家AI策略委员会,启动2025年12月通过的AI基本法执行工作。各机构须在7月前完成风险评估,2028年1月前制定产业AI法规。这是亚太地区"全政府"AI治理框架的最新动向,其执行力度与国际协同程度成为观
评测 05-25 06:46
MLCommons公布2026 Rising Stars:39位机器学习系统新星入选
MLCommons公布第四届 Rising Stars 名单,39位来自全球26所机构的早期研究者从175多名申请者中脱颖而出。入选者研究覆盖大语言模型、ML系统效率、软硬件协同设计、可信AI、多模态学习及医疗、网络安全、科学计算等应用方向
资讯 05-25 06:03 NF
Modal Labs 3.55亿美元C轮融资 5倍ARR增速领跑serverless GPU
Modal Labs于5月21日宣布完成3.55亿美元C轮融资,估值46.5亿美元,由Redpoint Ventures和General Catalyst领投。过去一年其ARR从6000万美元跃升至3亿美元,实现5倍增长。公司serverl
资讯 05-25 06:03 NF
Cohere开源Command A+ 218B MoE模型重塑企业主权AI
Cohere正式开源Command A+,采用218B总参数、25B活跃参数的MoE架构,支持128K上下文与多模态输入。该模型在电信代理任务中得分从37%跃升至85%,终端基准硬难度从3%提升至25%。Apache 2.0许可允许企业自由
资讯 05-25 06:02 NF
美国撤回AI前沿模型90天联邦审查令 凸显美中欧监管路径分歧
2026年5月24日,美国政府在签署前数小时撤回要求AI实验室前沿模型发布前接受90天联邦审查的计划,官方理由是避免削弱对中国的AI竞争优势。此举使OpenAI、Anthropic等实验室短期内免受联邦干预,但中期仍面临欧盟高风险评估与中国
资讯 05-25 06:00 TC
AI安全实时博弈:连谷歌也在摸着石头过河
我们正处在AI安全过渡期——所有人都一样。无论巨头还是初创,都在实时应对前所未有的挑战。谷歌的安全举措暴露了系统性难题:传统安全框架失效,攻防博弈加速,监管滞后。本文深度解析AI安全现状,探讨行业如何从“被动应急”走向“主动防御”。
评测 05-25 03:10
文心一言4.5代码执行从95暴跌至50,主榜单日掉27.2分
文心一言4.5今日Smoke评测主榜暴跌27.2分,核心原因是代码执行维度从95直接腰斩至50,材料约束仅小降5.5分。单日10题抽签带来的波动是否掩盖了真实能力退化,值得持续追踪。
评测 05-25 03:10
DeepSeek V4 Pro 诚信评级 Fail 转 Pass,主榜单日暴涨 23 分
DeepSeek V4 Pro 在今日 Smoke 评测中诚信评级从 Fail 直接转为 Pass,主榜从 74.00 跃升至 97.08,材料约束单项上涨 23.5 分。单日 10 题快测下,这种幅度变化究竟是抽签运气还是真实能力回暖,需
评测 05-25 03:10
DeepSeek V4 Pro 97.08分登顶,文心一言执行分腰斩暴跌27.2
今日Smoke评测显示,DeepSeek V4 Pro以97.08分(执行100、约束93.5)登顶,GPT-o3单日主榜暴涨31.4分,而文心一言4.5主榜暴跌27.2分、执行分直接腰斩至50,诚信评级从warn转为pass。