多模态AI 相关AI资讯 | 赢政天下 AI

海外

DoorDash新AI聊天机器人：用文字和照片即可点餐

DoorDash推出名为Ask DoorDash的AI聊天机器人，用户无需翻阅餐厅和商店列表，只需用自己的语言描述需求或上传图片，即可快速找到并订购商品。该工具旨在简化搜索和购物车构建流程，提升用户体验。

AI聊天机器人 DoorDash 智能点餐多模态AI

2026年6月12日 200

海外

谷歌I/O前瞻：AI竞赛中如何逆袭？

谷歌即将召开年度开发者大会I/O，但在基础模型竞赛中已滑至第三位。本文将回顾谷歌AI战略的曲折历程，分析其与OpenAI、Meta的差距，并前瞻大会可能发布的新模型Gemini 2.0、多模态AI助手及硬件生态升级。

谷歌I/O AI竞赛 Gemini模型多模态AI

2026年5月19日 304

海外

编码器进化史：从简单模型到多模态AI

当人们谈论人工智能时，往往聚焦于其输出：类人文本、惊艳图像或精准推荐，却鲜少关注AI如何理解信息。这一切始于编码器——它将杂乱的真实世界数据转化为结构化语言。本文追溯编码器从简单模型到多模态AI的演变历程，揭示其在机器学习中的核心作用，并探

编码器多模态AI 人工智能深度学习

2026年4月28日 413

海外

微软推出三款新基础模型强势挑战AI对手

微软AI部门（MAI）在成立仅六个月后，重磅发布三款全新基础模型。这些模型具备语音转录文本、音频生成以及图像生成功能，标志着微软在多模态AI领域的强势进军。面对OpenAI、Google等劲敌，微软此举旨在抢占AI基础设施高地，提升其在生成

微软AI 基础模型多模态AI 语音转录

2026年4月4日 440

海外

Gemini 3.1 Flash Live首发：对话机器人难辨真伪

谷歌全新对话式音频AI Gemini 3.1 Flash Live今日上线搜索、Gemini应用及开发者工具。该模型以超低延迟实现自然语音交互，声音逼真度大幅提升，可能让用户难以分辨人与AI。继Gemini系列迭代后，此次Live版聚焦实时

谷歌Gemini AI语音交互机器人辨识多模态AI

2026年3月27日 408

海外

多模态AI革新金融：自动化复杂工作流

金融领袖正积极采用强大多模态AI框架，自动化复杂工作流。从非结构化文档提取文本一直是开发者痛点。传统OCR系统难以准确数字化复杂布局，常将多栏文件、图片和分层数据集转为乱码文本。新兴多模态AI通过整合视觉与语言模型，精准解析图像、表格和手写

多模态AI 金融自动化工作流优化 OCR技术

2026年3月25日 275

海外

Claude Code 语音模式上线，Anthropic 强势进军AI编程领域

Anthropic 近日推出 Claude Code 的语音模式功能，进一步强化其在 AI 编码领域的竞争力。这一创新允许开发者通过语音指令与 AI 协作编程，提升效率并降低门槛。语音模式支持实时对话式编码指导、代码审查和调试，标志着 AI

Anthropic Claude Code 语音模式 AI编程

2026年3月4日 588

海外

谷歌发布Gemini 3.1 Pro：复杂问题解决能力大幅提升

谷歌近日宣布推出Gemini 3.1 Pro模型，宣称其专为‘最棘手挑战’设计，在复杂问题解决方面表现出色。该模型在长上下文理解、多步推理和多模态任务上实现突破，超越前代，支持更高效的工具调用和实时决策。谷歌强调，Gemini 3.1 Pr

谷歌Gemini AI模型复杂推理多模态AI

2026年2月20日 595

海外

谷歌Gemini应用新增音乐生成功能，支持文本图像视频输入

谷歌近日为Gemini应用注入音乐生成能力，用户可通过文本描述、图像或视频作为参考，轻松创作原创音乐。这项多模态功能标志着AI从文本到多媒体生成的全面进化，将极大提升用户创意表达。结合Gemini的强大模型，该功能支持多种音乐风格生成，并可

谷歌Gemini AI音乐生成多模态AI 音乐AI

2026年2月19日 638

海外

印度AI实验室Sarvam新模型：开源AI可行性的重大押注

印度AI初创公司Sarvam推出全新模型阵容，包括30亿和105亿参数大语言模型、文本转语音模型、语音转文本模型，以及用于文档解析的视觉模型。这一发布标志着Sarvam对开源AI未来的坚定信心，在全球AI竞争中突出印度本土创新力量。这些模型

Sarvam AI 开源模型印度AI 大语言模型

2026年2月18日 895

多模态AI 相关资讯