谷歌AI新功能Gemini 1.5 Pro开放API，多项功能助力应用创新-金财在线

谷歌近日宣布了一项重大消息，他们开放了Gemini 1.5 Pro的API，这一版本在原有基础上进行了大幅度的功能扩展，现已在180多个国家提供。Gemini 1.5 Pro引入了对原生音频（语音）的理解能力，以及文件API和系统指令等新功能，使得Gemini模型能够直接处理音频输入，而无需先将音频转换为文本。这一改进为AI模型带来了全新的应用可能性，如音频和视频模态的处理。

Gemini 1.5 Pro大大扩展了输入模态的范围，现在它不仅能理解文本，还能理解音频（语音）。此外，Gemini 1.5 Pro还可以对上传到Google AI Studio中的视频进行图像(帧)和音频(语音)的同时推理，这意味着这个模型具备了理解和处理视频内容的能力，不仅限于视频的视觉部分，也包括音频部分。这一改进的应用潜力巨大，包括多模态理解、内容索引和搜索、增强的交互体验、视频内容分析以及创意内容生成等方面。

Gemini API也进行了一些重要的改进，引入了系统指令引导模型响应，现已在Google AI Studio和Gemini API中提供。开发者可以通过定义角色、格式、目标和规则来指导模型的行为，以适应特定用例。同时，新的JSON模式指示模型仅输出JSON对象，该模式支持从文本或图像中提取结构化数据。

此外，谷歌还推出了新的嵌入模型，性能得到了显著提升。从今天开始，开发者将能够通过Gemini API访问Gemini下一代文本嵌入模型。这个新模型在MTEB基准测试中取得了更强的检索性能，超过了具有可比维度的所有现有模型。谷歌Gemini 1.5 Pro的开放API，为开发者提供了更多的工具和功能，助力他们在人工智能领域进行更多创新和实践。

谷歌宣布Gemini 1.5 Pro开放API 新增多项功能

谷歌AI新功能Gemini 1.5 Pro开放API，多项功能助力应用创新

相关推荐：

最近发表

previous