大语言模型相关AI资讯

海底跳跃器与军事聊天机器人：今日科技简报

本周科技简报聚焦两大前沿：一种可反复潜入深海6000米的廉价水下跳跃器，有望大幅降低深海科考成本，但也可能加速深海采矿。同时，美军正测试基于大语言模型的战术聊天机器人，旨在提升战场决策效率，但引发伦理担忧。两项技术均展示了AI与自动化对传统

深海科学海底采矿军事AI 大语言模型

22小时前 50

海外

OpenAI发布GPT-5.5 Instant：ChatGPT新默认模型登场

OpenAI于2026年5月6日推出了GPT-5.5 Instant，作为ChatGPT的新默认模型。该模型在法律、医学、金融等敏感领域显著减少了AI幻觉现象，同时保持了前代模型的低延迟特性。这一更新旨在提升模型在专业场景下的可靠性与实用性

OpenAI GPT-5.5 聊天机器人 AI幻觉

1天前 918

海外

哈佛研究：AI急诊诊断准确率超越人类医生

哈佛大学最新研究发现，在真实急诊病例中，大型语言模型的诊断准确率高于两名人类医生。这一结果引发了对AI辅助医疗的广泛讨论，但也揭示了当前模型在临床推理和患者沟通上的短板。研究团队指出，AI应作为医生决策的补充工具，而非替代品。

AI医疗大语言模型哈佛研究急诊诊断

3天前 170

海外

基督徒专属手机网络：屏蔽色情与性别内容，LLM调试新思路

美国一家新手机网络瞄准基督徒用户，自动屏蔽色情与性别相关内容，引发言论自由争议。与此同时，大语言模型调试技术迎来突破，两者在内容过滤与模型校准上异曲同工。本文编译自MIT Technology Review，深度解析技术如何重塑信仰与AI的

基督教手机网络内容过滤大语言模型 AI调试

5天前 210

海外

初创公司新工具让LLM调试如探囊取物

旧金山初创公司Goodfire发布名为Silico的新工具，允许研究人员和工程师在训练期间深入AI模型内部，调整其参数——即决定模型行为的设置。这为模型制造商提供了前所未有的精细控制能力，改变了以往对AI技术构建方式的认知。Goodfire

大语言模型 AI可解释性机械可解释性模型调试

6天前 190

海外

OpenAI推出生物学专用大语言模型

OpenAI近日发布了一款专门针对生物学工作流程优化的大语言模型GPT-Rosalind。该模型在封闭访问模式下提供，旨在提升生物学领域的研究效率。通过对生物学数据和流程的深度学习，GPT-Rosalind可帮助科学家更高效地处理复杂的生物

OpenAI 生物学人工智能大语言模型

2026年4月17日 255

原创

Google AI搜索“空投”：一场只有信号弹没有坐标的战争，背后隐藏三大未解难题

Google最新宣布的AI搜索功能升级，更像是一次战略性的“信号空投”，而非具体的产品落地。本次公告在功能细节、技术实现和上线时间上均存在显著不确定性。这背后反映的并非技术不足，而是Google在应对竞争压力、解决AI固有技术难题（如幻觉）

Google AI搜索生成式AI 大语言模型

2026年4月12日 355

海外

我忍不住为小型开源AI模型制造商Arcee加油

Arcee是一家仅有26人的美国初创公司，却成功构建了一个高性能的大型开源大语言模型（LLM），并在OpenClaw用户中迅速流行开来。在AI领域巨头林立的当下，这家小公司以开源精神挑战行业格局，吸引了众多开发者和企业的关注。其模型不仅性能

开源AI Arcee 大语言模型初创公司

2026年4月9日 335

测评

MLCommons发布MLPerf Inference v6.0基准测试最新结果

MLCommons近日公布了行业标准MLPerf Inference v6.0基准测试套件的最新结果。此次更新包括五个数据中心测试的新增或升级，以及边缘系统的全新物体检测测试。主要亮点有基于GPT-OSS 120B的开源大语言模型基准、扩展

MLC MLPerf Inference AI基准测试大语言模型

2026年4月2日 686

海外

转向AI模型定制化：架构性必然选择

在大语言模型（LLM）早期，我们习惯于每次新模型迭代带来10倍级的推理和编码能力跃升。如今，这些飞跃已趋于平缓，仅剩增量改进。例外在于领域专用智能，这里仍保持阶跃式进步。当模型与企业数据深度融合时，将释放巨大潜力。本文探讨为何转向定制化已成

AI模型定制大语言模型领域专用AI 企业AI架构

2026年3月31日 208

海外

无法作弊的AI排行榜，竟由排名公司资助

人工智能模型层出不穷，竞争白热化，谁是真正的最强？Arena（前身为LM Arena）已成为前沿大语言模型（LLM）的公认公共排行榜，在短短七个月内从加州大学伯克利分校博士研究项目崛起，深刻影响融资、产品发布和公关周期。该榜单以‘无法作弊’

AI排行榜 Arena 大语言模型 LMSYS

2026年3月19日 617

海外

博士生变身AI裁判：Arena如何主导行业排行榜

人工智能模型层出不穷，竞争白热化，谁来评判最佳？Arena（前身为LM Arena）已成为前沿大语言模型（LLM）的公认排行榜，在短短七个月内，从加州大学伯克利分校的博士研究项目转型为初创公司，深刻影响融资、产品发布和公关周期。这群博士生如

AI排行榜 Arena 大语言模型 UC Berkeley

2026年3月18日 462

海外

谷歌巧用旧新闻+AI精准预测突发山洪

谷歌开发创新方法，利用大型语言模型（LLM）从历史新闻报道中提取定量数据，解决洪水预测的数据稀缺问题。这一技术将定性描述转化为可量化的洪水事件指标，帮助提升突发山洪预警准确性。面对气候变化加剧的极端天气，谷歌的AI方案为灾害预测开辟新路径，

谷歌 AI预测山洪预警大语言模型

2026年3月12日 425

原创

DeepSeek-V2发布：中文推理能力领跑，236B开源模型挑战全球AI格局

中国AI企业DeepSeek推出V2模型，在中文数学和代码推理上超越Claude 3.5 Sonnet，总参数236B且完全开源。X平台互动超15万，开发者测试刷屏，凸显本土AI崛起与中美科技竞赛。该模型标志着开源大模型新时代。

DeepSeek-V2 中文AI 开源模型 AI竞赛

2026年3月9日 6,313

海外

OpenAI 发布 GPT-5.4：Pro 与 Thinking 版本重磅登场

OpenAI 近日推出 GPT-5.4 模型，被誉为‘我们最强大且高效的前沿模型，专为专业工作设计’。该模型分为 Pro 和 Thinking 两个版本，前者优化专业任务效率，后者强化复杂推理能力。作为 GPT 系列最新迭代，GPT-5.4

OpenAI GPT-5.4 人工智能大语言模型

2026年3月7日 2,537

原创

DeepSeek-V2开源模型重磅发布：236B参数MoE架构媲美GPT-4o，推理成本仅1/30

中国AI团队DeepSeek推出V2开源大模型，采用236B参数MoE架构，性能直追GPT-4o，推理成本却仅为其1/30。GitHub星标迅速破万，X平台中文讨论超15万。该模型低成本高性能特性，正助力中小企业AI应用落地，推动全球开源A

DeepSeek-V2 开源MoE 低成本推理大语言模型

2026年3月3日 8,637

海外

MWC 2026：SK电信重塑核心业务全面拥抱AI

在巴塞罗那MWC 2026大会上，SK电信详细阐述了其围绕AI重建公司核心的宏伟计划。这一转型不止于引入新AI工具，而是从网络核心到客服一线全面重构内部系统。公司计划将数据中心容量扩容至吉瓦级，并升级自家大语言模型。该举措标志着电信巨头加速

SK电信 AI转型 MWC 2026 大语言模型

2026年3月3日 434

海外

Guide Labs 推出革命性可解释大语言模型 Steerling-8B

Guide Labs 近日开源一款8亿参数大语言模型Steerling-8B，该模型采用全新架构设计，使其行为高度可解释。这标志着AI领域在黑箱模型向透明化转型的关键一步。传统LLM如GPT系列虽强大，但内部决策过程难以追踪，而Steerl

大语言模型可解释AI 开源LLM Guide Labs

2026年2月24日 467

海外

AI能从训练数据生成小说近逐字复制品

最新研究揭示，大语言模型（LLMs）记忆了比预期更多的训练数据，甚至能输出小说几乎逐字复制的章节。这挑战了AI公司关于数据仅用于‘学习模式’的说辞，可能引发版权和隐私新争议。研究者通过特定提示测试了多家模型，发现它们能重现如《哈利·波特》或

大语言模型训练数据记忆版权争议 AI伦理

2026年2月24日 401

海外

谷歌DeepMind质疑：聊天机器人是否只是道德作秀？

谷歌DeepMind呼吁对大语言模型（LLM）的道德行为进行与编程或数学能力同等的严谨审查。随着LLM性能提升，人们越来越依赖它们扮演伴侣、治疗师、医疗顾问等角色。DeepMind强调，需要开发标准化基准来评估AI在道德困境中的真实表现，而

谷歌DeepMind 大语言模型 AI道德聊天机器人

2026年2月19日 497

大语言模型 相关资讯