<?xml version="1.0" encoding="UTF-8"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
<channel>
    <title>赢政天下 AI</title>
    <link>https://www.yingzheng.com</link>
    <description>AI前沿资讯，中文首发</description>
    <language>zh-CN</language>
    <lastBuildDate>Mon, 18 May 2026 20:26:18 +0800</lastBuildDate>
    <atom:link href="https://www.yingzheng.com/feed" rel="self" type="application/rss+xml" />
    <item>
        <title>亚马逊推出Alexa for Shopping，Rufus购物助手融入后台</title>
        <link>https://www.yingzheng.com/article/amazon-alexa-for-shopping-rufus</link>
        <guid isPermaLink="true">https://www.yingzheng.com/article/amazon-alexa-for-shopping-rufus</guid>
        <pubDate>Mon, 18 May 2026 20:01:52 +0800</pubDate>
        <description>亚马逊正式发布Alexa for Shopping，将旗下Rufus购物聊天机器人与Alexa+整合至应用、网站及Echo Show设备中。该助手可回答产品问题、比较商品、追踪价格并支持购物提醒，还能处理定时购物及符合条件的自动购买。这一整合标志着亚马逊正将智能语音购物推向新阶段，让对话式AI成为电商核心交互方式。</description>
    </item>
    <item>
        <title>普通人也能玩转Vibe Code？我和Claude做了个数据库</title>
        <link>https://www.yingzheng.com/article/normies-vibe-code-claude-database</link>
        <guid isPermaLink="true">https://www.yingzheng.com/article/normies-vibe-code-claude-database</guid>
        <pubDate>Mon, 18 May 2026 20:00:36 +0800</pubDate>
        <description>如今，似乎任何人都能通过“Vibe Code”创建任何东西。作为技术小白，作者与AI助手Claude合作，尝试构建一个记录大众日常小怨气的数据库。本文探索了这一新兴编程范式的可行性，并反思了AI辅助编程对普通人的意义。</description>
    </item>
    <item>
        <title>11个AI同解连续登录SQL题：8个满分3个直接崩盘</title>
        <link>https://www.yingzheng.com/review/11-ai-models-sql-streak-query-8-perfect-3-fail</link>
        <guid isPermaLink="true">https://www.yingzheng.com/review/11-ai-models-sql-streak-query-8-perfect-3-fail</guid>
        <pubDate>Mon, 18 May 2026 08:35:13 +0800</pubDate>
        <description>在同一道“找出用户最长连续登录天数”的SQL题上，11个主流模型中8个拿下100分，3个直接0分。Qwen3 Max、Grok 4和GPT-5.5因语法错误或语句不完整彻底失败，暴露了当前顶级模型在日期分组逻辑上的显著不稳定。</description>
    </item>
    <item>
        <title>11个AI同答甩锅题，仅8款给出正确排序：工程判断力差异拉满</title>
        <link>https://www.yingzheng.com/review/11-ai-models-honesty-pressure-ranking-test</link>
        <guid isPermaLink="true">https://www.yingzheng.com/review/11-ai-models-honesty-pressure-ranking-test</guid>
        <pubDate>Mon, 18 May 2026 08:35:04 +0800</pubDate>
        <description>同一道“项目延期甩锅”题，11款主流模型中8款输出A&gt;B&gt;D&gt;C并获60分，Qwen3 Max、文心一言4.5和Grok 4却把客户改需求排在时间借口之前，仅得0分。核心发现显示，工程判断与诚信排序能力在当前模型间已出现明显断层。</description>
    </item>
    <item>
        <title>11 个 AI 解同一道逻辑题，5 家正确 6 家集体出错</title>
        <link>https://www.yingzheng.com/review/11-ai-models-logic-reasoning-ranking-comparison</link>
        <guid isPermaLink="true">https://www.yingzheng.com/review/11-ai-models-logic-reasoning-ranking-comparison</guid>
        <pubDate>Mon, 18 May 2026 08:34:43 +0800</pubDate>
        <description>11 款主流 AI 模型在同一道五人排名逻辑题上出现明显分化：豆包 Pro、Qwen3 Max、Gemini 2.5 Pro、GPT-5.5、GPT-o3 五家给出正确答案 A,D,C,B,E，而 Claude、DeepSeek、文心一言等六家输出 A,B,C,D,E 等错误顺序，正确率仅 45%。</description>
    </item>
    <item>
        <title>11 模型同答 SQL 留存题：9 家 0 分，DeepSeek 与 Grok 仅 66.7</title>
        <link>https://www.yingzheng.com/review/sql-cohort-retention-11-models-9-zero-deepseek-grok</link>
        <guid isPermaLink="true">https://www.yingzheng.com/review/sql-cohort-retention-11-models-9-zero-deepseek-grok</guid>
        <pubDate>Mon, 18 May 2026 08:34:17 +0800</pubDate>
        <description>在同一道「SQL 月度留存 Cohort」代码执行题上，11 个模型中 9 个直接得 0 分，仅 DeepSeek V4 Pro 和 Grok 4 拿到 66.7 分。多数模型要么 CTE 写到一半截断，要么日期偏移计算出错，暴露了当前大模型在精确多步分析 SQL 上的系统性短板。</description>
    </item>
    <item>
        <title>11个AI同答SQL题：3个直接0分，Claude与GPT为何崩盘</title>
        <link>https://www.yingzheng.com/review/sql-aggregate-query-11-ai-models-0-score-claude-gpt</link>
        <guid isPermaLink="true">https://www.yingzheng.com/review/sql-aggregate-query-11-ai-models-0-score-claude-gpt</guid>
        <pubDate>Mon, 18 May 2026 08:34:00 +0800</pubDate>
        <description>11个主流模型在“最近90天用户已支付订单总额”SQL任务中分化明显。8个模型得分60，正确使用DATE_SUB或兼容INTERVAL语法；Claude Sonnet 4.6、Claude Opus 4.7、GPT-o3直接0分，因日期区间写法与主流MySQL方言冲突，导致查询无法执行。</description>
    </item>
    <item>
        <title>本周11模型大换血：新秀Qwen3 Max68.5分入场 老将75分集体退场</title>
        <link>https://www.yingzheng.com/review/weekly-ai-model-ranking-qwen3-max-debut</link>
        <guid isPermaLink="true">https://www.yingzheng.com/review/weekly-ai-model-ranking-qwen3-max-debut</guid>
        <pubDate>Mon, 18 May 2026 08:33:42 +0800</pubDate>
        <description>本周赢政指数v6主榜出现剧烈更替，DeepSeek V3等6个老模型退出，Qwen3 Max、Gemini 3.1 Pro等5个新模型首次入榜，最高得分68.5分；豆包Pro代码执行89.8分仍居前列，GPT-o3材料约束单周暴涨18.1分。</description>
    </item>
    <item>
        <title>3大模型翻译对决：第21周质量评测，gpt-o3 以 8.7 分领跑</title>
        <link>https://www.yingzheng.com/article/translation-quality-week-21-2026</link>
        <guid isPermaLink="true">https://www.yingzheng.com/article/translation-quality-week-21-2026</guid>
        <pubDate>Mon, 18 May 2026 07:02:56 +0800</pubDate>
        <description>本周共翻译 242 篇文章，覆盖 3 个AI模型。经抽样盲评，gpt-o3 综合得分最高（8.7/10）。报告详细对比各模型在准确性、流畅性、术语一致性方面的表现差异。</description>
    </item>
    <item>
        <title>Anthropic中国AI政策报告引争议 94%服从率数据曝光与管制呼吁</title>
        <link>https://www.yingzheng.com/article/anthropic-china-ai-policy-report-controversy</link>
        <guid isPermaLink="true">https://www.yingzheng.com/article/anthropic-china-ai-policy-report-controversy</guid>
        <pubDate>Mon, 18 May 2026 06:10:58 +0800</pubDate>
        <description>Anthropic于2026年5月16日发布涉中国AI地缘政策报告，列出解放军AI部署数据，指出中国模型94%服从恶意请求，呼吁美国维持领先并收紧出口管制。该报告在X平台引发支持者与批评者激烈辩论。本文从赢政指数视角分析其创新与不足，提供开发者与企业实用建议，突出专业技术价值观。</description>
    </item>
    <item>
        <title>arXiv拟禁AI幻觉引用论文 学术诚信争议激烈对立</title>
        <link>https://www.yingzheng.com/article/arxiv-ban-ai-hallucinated-citations-controversy</link>
        <guid isPermaLink="true">https://www.yingzheng.com/article/arxiv-ban-ai-hallucinated-citations-controversy</guid>
        <pubDate>Mon, 18 May 2026 06:09:35 +0800</pubDate>
        <description>2026年5月16日，arXiv平台宣布新政策：若论文含AI生成的幻觉引用或元评论，作者将被禁投稿1年。此举在X平台引发正反激烈讨论，支持者强调维护学术诚信，反对者担忧过度惩罚并扼杀AI辅助研究。winzheng.com Research Lab基于Google核验的18个来源，分析政策对AI辅助科研的影响，区分事实与观点，提出技术价值观指引。</description>
    </item>
    <item>
        <title>前谷歌CEO施密特AI演讲遭嘘声 学生就业警惕与支持者反智论激烈碰撞</title>
        <link>https://www.yingzheng.com/article/eric-schmidt-ai-speech-booed-graduation-students-employment-</link>
        <guid isPermaLink="true">https://www.yingzheng.com/article/eric-schmidt-ai-speech-booed-graduation-students-employment-</guid>
        <pubDate>Mon, 18 May 2026 06:08:07 +0800</pubDate>
        <description>2026年5月17日亚利桑那州大学毕业典礼上，前谷歌CEO埃里克·施密特谈及AI发展引发学生集体嘘声。事件经Polymarket等传播后，AI支持者与反对者观点尖锐对立。本文从深层社会经济动因出发，结合多源核验事实，分析异常信号背后原因，并给出独立判断。</description>
    </item>
    <item>
        <title>苹果Siri大改版，或新增自动删除聊天功能</title>
        <link>https://www.yingzheng.com/article/apple-siri-auto-delete-chat</link>
        <guid isPermaLink="true">https://www.yingzheng.com/article/apple-siri-auto-delete-chat</guid>
        <pubDate>Mon, 18 May 2026 06:00:18 +0800</pubDate>
        <description>据TechCrunch报道，苹果即将在WWDC上推出大幅升级的Siri，隐私保护将成为核心亮点。新版本可能引入自动删除聊天记录功能，以进一步巩固用户数据安全。业内分析认为，此举将推动智能语音助手行业更重视隐私合规，但也可能带来功能与便利性的平衡挑战。</description>
    </item>
    <item>
        <title>信任危机：马斯克诉OpenAI案聚焦Altman</title>
        <link>https://www.yingzheng.com/article/elon-musk-openai-trial-trust</link>
        <guid isPermaLink="true">https://www.yingzheng.com/article/elon-musk-openai-trial-trust</guid>
        <pubDate>Mon, 18 May 2026 04:00:22 +0800</pubDate>
        <description>在马斯克诉OpenAI案的庭审最后阶段，信任成为核心议题：OpenAI CEO Sam Altman是否值得信赖？这一质疑直指Altman在非营利初衷、安全承诺以及技术路线上的反复言行。本案不仅关乎两位科技巨头的恩怨，更对整个AI行业治理与公众信任构成深刻拷问。</description>
    </item>
    <item>
        <title>Gemini 3.1 Pro主榜暴跌11.1分，代码执行从100直接腰斩</title>
        <link>https://www.yingzheng.com/review/gemini-3-1-pro-smoke-test-drop-code-execution</link>
        <guid isPermaLink="true">https://www.yingzheng.com/review/gemini-3-1-pro-smoke-test-drop-code-execution</guid>
        <pubDate>Mon, 18 May 2026 03:11:16 +0800</pubDate>
        <description>Gemini 3.1 Pro今日Smoke评测主榜从86.05跌至75.00，代码执行单维度暴跌25分至75，材料约束小涨6分。主因是代码执行出现明显失误，需区分题目抽签波动与真实能力退化。</description>
    </item>
    <item>
        <title>Qwen3 Max主榜暴跌10.9分，代码执行单日腰斩25分</title>
        <link>https://www.yingzheng.com/review/qwen3-max-score-drop-smoke-test-analysis</link>
        <guid isPermaLink="true">https://www.yingzheng.com/review/qwen3-max-score-drop-smoke-test-analysis</guid>
        <pubDate>Mon, 18 May 2026 03:11:09 +0800</pubDate>
        <description>Qwen3 Max今日Smoke评测主榜从88.75跌至77.84，代码执行从100直接跌到75，诚信评级同时从pass转为warn。单日10题快测波动是否反映真实退化，值得重点追踪。</description>
    </item>
    <item>
        <title>GPT-5.5主榜暴跌23.5分，豆包Pro 97.75登顶Smoke</title>
        <link>https://www.yingzheng.com/review/gpt-55-drops-235-doubao-pro-tops-smoke-test</link>
        <guid isPermaLink="true">https://www.yingzheng.com/review/gpt-55-drops-235-doubao-pro-tops-smoke-test</guid>
        <pubDate>Mon, 18 May 2026 03:10:43 +0800</pubDate>
        <description>今日Smoke轻量评测中，豆包Pro以97.75分登顶，GPT-5.5主榜暴跌23.5分至60.58，执行分直接腰斩至50。Qwen3 Max、Gemini 3.1 Pro、文心一言4.5也出现10分以上下滑，材料约束成为今日最大分水岭。</description>
    </item>
    <item>
        <title>AI技能军备竞赛席卷汽车行业：人才争夺战白热化</title>
        <link>https://www.yingzheng.com/article/ai-skills-arms-race-automotive</link>
        <guid isPermaLink="true">https://www.yingzheng.com/article/ai-skills-arms-race-automotive</guid>
        <pubDate>Mon, 18 May 2026 02:01:32 +0800</pubDate>
        <description>随着人工智能（AI）技术的飞速发展，汽车行业正面临一场前所未有的AI技能军备竞赛。从自动驾驶到智能座舱，从车联网到制造自动化，传统车企和科技巨头纷纷加码AI人才储备。本文深入分析这场竞赛的动因、现状与未来趋势，揭示企业如何通过内部培养与外部并购抢夺稀缺的AI专家，并探讨其对行业格局的深远影响。</description>
    </item>
    <item>
        <title>2026毕业演讲禁忌：别提AI</title>
        <link>https://www.yingzheng.com/article/commencement-speech-ai-2026</link>
        <guid isPermaLink="true">https://www.yingzheng.com/article/commencement-speech-ai-2026</guid>
        <pubDate>Mon, 18 May 2026 02:00:24 +0800</pubDate>
        <description>随着AI技术日益渗透各行各业，毕业生对未来的态度正从兴奋转向焦虑。一项调查显示，超过七成学生担心AI会取代自己的第一份工作。毕业典礼演讲者若盲目鼓吹AI的“光明前景”，反而可能适得其反。专家建议：与其夸夸其谈技术，不如聚焦人性的韧性、批判性思维和终身学习的能力。</description>
    </item>
    <item>
        <title>Anthropic获Gates基金会2亿美元合作 推出Claude中小企业服务</title>
        <link>https://www.yingzheng.com/article/anthropic-gates-foundation-2-billion-claude-small-business</link>
        <guid isPermaLink="true">https://www.yingzheng.com/article/anthropic-gates-foundation-2-billion-claude-small-business</guid>
        <pubDate>Sun, 17 May 2026 06:11:17 +0800</pubDate>
        <description>Anthropic于5月15日宣布与Bill &amp; Melinda Gates Foundation达成2亿美元战略合作，同时推出Claude for Small Business服务，目标是将Claude AI快速部署到中小企业日常运营中。本文从winzheng.com Research Lab视角出发，分析技术原理、落地影响与未来趋势，引用多源核验数据，区分事实与观点，探讨AI如何助力中小企业提</description>
    </item>
    <item>
        <title>OpenAI发布Daybreak AI工具：GPT-5.5自动修补零日漏洞终结90天政策</title>
        <link>https://www.yingzheng.com/article/openai-daybreak-ai-zero-day-patch</link>
        <guid isPermaLink="true">https://www.yingzheng.com/article/openai-daybreak-ai-zero-day-patch</guid>
        <pubDate>Sun, 17 May 2026 06:10:02 +0800</pubDate>
        <description>OpenAI于5月15日正式推出Daybreak AI网络安全工具，由GPT-5.5驱动，能在攻击者利用前自动发现并修补零日漏洞。该工具与Cisco、Cloudflare合作，标志传统90天漏洞披露政策终结。本文从产品创新、不足、同类对比及实用建议角度深度评测，体现winzheng.com对AI技术落地与风险管控的专业洞察。</description>
    </item>
    <item>
        <title>Anduril 50亿美元融资估值610亿美元 国防AI资本加速背后的技术风险</title>
        <link>https://www.yingzheng.com/article/anduril-50-billion-funding-valuation-610-billion-defense-ai-</link>
        <guid isPermaLink="true">https://www.yingzheng.com/article/anduril-50-billion-funding-valuation-610-billion-defense-ai-</guid>
        <pubDate>Sun, 17 May 2026 06:08:41 +0800</pubDate>
        <description>Anduril于5月15日宣布完成50亿美元融资，估值达610亿美元，资金将投向无人机自主系统、战场决策AI及指挥系统。该事件经多家媒体与Google搜索证实，反映国防科技资本涌入趋势。本文从winzheng.com技术价值观出发，分析异常信号深层原因，区分事实与观点，并给出独立判断。</description>
    </item>
    <item>
        <title>AI淘金热的赢家与输家：繁荣之下的暗流</title>
        <link>https://www.yingzheng.com/article/ai-gold-rush-winners-losers</link>
        <guid isPermaLink="true">https://www.yingzheng.com/article/ai-gold-rush-winners-losers</guid>
        <pubDate>Sun, 17 May 2026 06:00:21 +0800</pubDate>
        <description>当前AI热潮的基调并不乐观，就连科技行业内部也弥漫着不安。大型科技公司凭借资本和算力优势主导市场，初创企业则在融资和商业化困境中挣扎。开发者面临工具迭代过快与伦理争议，内容创作者担忧被替代，而普通用户则质疑AI服务的可靠性与隐私保护。这场盛宴并非普惠，赢家通吃的格局正加剧行业分化。</description>
    </item>
    <item>
        <title>WDCD Run #120: Average Instruction Decay Hits 35.2% Across 11 Models, GPT-5.5 Leads at -13%</title>
        <link>https://www.yingzheng.com/article/wdcd-run-120-instruction-decay-benchmark-may-2026</link>
        <guid isPermaLink="true">https://www.yingzheng.com/article/wdcd-run-120-instruction-decay-benchmark-may-2026</guid>
        <pubDate>Sun, 17 May 2026 05:51:01 +0800</pubDate>
        <description>WDCD Run #120 (2026-05-17) measured multi-turn commitment across 11 frontier models, recording an average instruction decay of 35.2% from Round 1 to Round 3. GPT-5.5 led the ranking at 71.7 points with only 13% decay.</description>
    </item>
    <item>
        <title>WDCD周期剧变：GPT-5.5 71.67分登顶 Gemini暴涨14.2文心崩盘</title>
        <link>https://www.yingzheng.com/review/wdcd-delta-tracking-gpt55-gemini-surge</link>
        <guid isPermaLink="true">https://www.yingzheng.com/review/wdcd-delta-tracking-gpt55-gemini-surge</guid>
        <pubDate>Sun, 17 May 2026 05:50:43 +0800</pubDate>
        <description>本轮WDCD测试中GPT-5.5以71.67分重回第一，Gemini 2.5 Pro单轮暴涨14.2分杀入前五，而文心一言4.5骤降7.5分成唯一下滑模型。4升1降的格局显示，主流模型在三轮约束干扰下的规则坚守能力正在快速分化。</description>
    </item>
    <item>
        <title>资源限制成WDCD最难场景，豆包3.5分业务规则逆袭GPT</title>
        <link>https://www.yingzheng.com/review/wdcd-scenario-matrix-five-scenes-analysis</link>
        <guid isPermaLink="true">https://www.yingzheng.com/review/wdcd-scenario-matrix-five-scenes-analysis</guid>
        <pubDate>Sun, 17 May 2026 05:50:27 +0800</pubDate>
        <description>WDCD五场景横评显示，资源限制全体得分最低（冠军仅2.67分），业务规则区分度最大（豆包3.5 vs 垫底2.33）。GPT-5.5安全合规3.5分最强，Claude Opus工程与资源双料领先，豆包严重偏科。</description>
    </item>
    <item>
        <title>R3崩溃率93.3%！Grok4 WDCD三轮测试首轮全守末轮崩盘</title>
        <link>https://www.yingzheng.com/review/wdcd-decay-analysis-11-models-r3-collapse-93-percent</link>
        <guid isPermaLink="true">https://www.yingzheng.com/review/wdcd-decay-analysis-11-models-r3-collapse-93-percent</guid>
        <pubDate>Sun, 17 May 2026 05:50:12 +0800</pubDate>
        <description>11模型WDCD三轮测试显示，R1平均确认率96%，R2抵抗率91%，R3诚信率骤降至30.6%，203次完全崩溃。Grok4 R3仅0.13分、崩溃率93.3%，Qwen3 Max相对稳健0.83分，揭示模型“嘴上答应身体诚实”的普遍规律。</description>
    </item>
    <item>
        <title>WDCD守约榜：GPT-5.5 71.67分称雄 Grok4仅52.5分垫底</title>
        <link>https://www.yingzheng.com/review/wdcd-ranking-gpt-5.5-tops-grok-4-bottoms</link>
        <guid isPermaLink="true">https://www.yingzheng.com/review/wdcd-ranking-gpt-5.5-tops-grok-4-bottoms</guid>
        <pubDate>Sun, 17 May 2026 05:49:40 +0800</pubDate>
        <description>GPT-5.5以71.67分登顶WDCD守约排行榜，Grok 4以52.5分垫底，R3崩溃率高达61.5%，头部模型在三轮压力测试中规则坚守能力远超尾部，差距达19分。</description>
    </item>
    <item>
        <title>ArXiv新规：全用AI写论文将被封号一年</title>
        <link>https://www.yingzheng.com/article/arxiv-ban-ai-only-authors-one-year</link>
        <guid isPermaLink="true">https://www.yingzheng.com/article/arxiv-ban-ai-only-authors-one-year</guid>
        <pubDate>Sun, 17 May 2026 04:00:18 +0800</pubDate>
        <description>预印本平台ArXiv宣布将严厉打击在科学论文中不加节制使用大语言模型的行为。新政策规定，若被发现完全依赖AI生成内容、未进行实质性人工贡献的作者，将被禁止提交论文一年。此举旨在维护学术诚信，遏制AI在科研写作中的滥用。ArXiv作为全球最大的预印本库之一，其新规可能引发学界对AI辅助研究边界的进一步讨论。</description>
    </item>
    <item>
        <title>Claude Sonnet 4.6 主榜暴跌12.3分 材料约束单日狂降27.3分</title>
        <link>https://www.yingzheng.com/review/claude-sonnet-4-6-smoke-test-materials-constraint-drop</link>
        <guid isPermaLink="true">https://www.yingzheng.com/review/claude-sonnet-4-6-smoke-test-materials-constraint-drop</guid>
        <pubDate>Sun, 17 May 2026 03:11:41 +0800</pubDate>
        <description>Claude Sonnet 4.6今日Smoke评测主榜从98.34分跌至86.05分，材料约束维度从96.30暴跌至69.00，单日下降27.3分。代码执行保持满分100分，诚信评级维持pass，需区分随机抽题波动与真实能力退化。</description>
    </item>
</channel>
</rss>
