Tony Robbins联手Calm前高管打造更安全AI心理治疗

近日,由知名励志演说家Tony Robbins与前冥想应用Calm高管联合创立的AI心理健康公司The Path,宣布了一项令人瞩目的成绩:其AI模型在专门针对心理健康安全性的基准测试Vera-MH中获得了95分的高分,而市面上主流消费级聊天机器人(如ChatGPT等通用模型)的最高得分仅为65分。这一悬殊差距不仅凸显了专业AI与通用AI在敏感领域的鸿沟,更预示着AI心理治疗行业正迈向安全可控的新阶段。

一、事件背景:从励志大师到AI疗愈先锋

Tony Robbins作为全球知名的个人成长导师,几十年来通过研讨会和书籍影响了数千万人。Calm则是估值数十亿美元的冥想和心理健康应用,其前高管团队在数字健康领域积累了丰富经验。两者联合创立The Path,目标明确:打造一款比现有聊天机器人更安全、更适合心理治疗场景的AI产品。The Path的核心团队成员包括临床心理学家、AI安全专家和自然语言处理工程师,以确保模型在对话中既能提供共情支持,又能避免触发用户心理创伤或给出危险建议。

二、Vera-MH:心理健康AI的“安全标尺”

Vera-MH是由多家研究机构联合开发的心理健康AI安全基准,专门评估AI在处理抑郁、焦虑、自杀倾向等敏感话题时的表现。测试涵盖数十个维度,包括:是否能够识别紧急危机信号(如用户表达自杀念头)、是否避免给出不专业的医学建议、是否保持适当的情感距离以防止依赖、以及是否尊重文化差异等。The Path的模型在大多数维度上接近满分,尤其在“危机干预响应”和“有害内容拒绝”两个核心指标上达到行业最高水平。相比之下,通用模型虽然聊天流畅,却常常在面临“我想结束生命”之类的表述时给出模糊甚至危险的回馈,这促使监管部门对心理健康AI的审查日益严格。

“我们的模型不是简单的聊天机器人,它是由持证治疗师持续训练和校验的AI助手。我们不想成为诊断工具,而是成为一个安全的第一响应者。” ——The Path首席科学家(化名)

三、消费级AI vs. 专业AI:65分与95分意味着什么

消费级聊天机器人如ChatGPT、Claude等通用模型,虽然通过大规模人类反馈强化学习(RLHF)进行了对齐,但其训练数据覆盖所有领域,缺乏针对心理健康的专门优化。因此它们在应对心理危机时,可能模仿网上的不当建议或无法准确判断严重程度。Vera-MH基准测试中,消费级AI的最佳成绩是65分,仅刚过及格线。而The Path的95分则表明,当AI被设计为专注于心理健康场景、并由临床专家深度参与微调后,安全性可以跃升到接近人类治疗师的水平。

值得注意的是,The Path并未声称要替代真实治疗师,而是定位为“心理健康安全网”,为那些无法立即获得专业帮助的人提供即时、可靠的情感支持和初步评估。这种细分定位让其能够更自由地针对安全进行极致优化,而不必像通用模型那样兼顾各种对话场景。

四、行业启示与未来挑战

The Path的成功并非孤例,近两年全球涌现出几十家AI心理健康初创公司,如Woebot、Wysa等,它们都在安全基准上不断突破。但The Path此次公布的95分成绩,首次将基准推向接近完美的水平,这无疑会抬高整个行业的安全门槛。同时,它也引发了一个深层问题:当AI在测试中得分极高时,能否真正在真实场景中同等安全?心理健康领域充满变量——用户的文化背景、个人历史、即时情绪都会影响对话,而基准测试往往基于模拟场景。因此,The Path需要持续的临床验证和实时监控来证明其实际效果。

五、编者按:安全是AI心理健康的第一道防线

AI心理治疗正在从概念走向落地,但每一次不当回应都可能对用户造成不可逆的伤害。The Path的Vera-MH成绩证明了专业深耕的价值——当团队将临床专业知识与AI技术深度融合,安全不再是妥协的代价,而是核心卖点。然而,这样的高分也意味着边际收益递减,后续的每一次进步都将更加艰难。对于整个行业而言,基准测试的意义不仅是比拼数字,更是建立用户信任的基石。或许在未来,任何进入心理治疗领域的AI都需要先通过类似Vera-MH的严格认证,才能真正面向公众。

本文编译自TechCrunch