Google 为Gemini 3 Flash 引入「代理视觉」功能

Agentic Vision 是 Gemini 3 Flash 的一项新能力,它把视觉推理和代码执行结合起来,能够以视觉证据为依据给出答案,表达更直观可靠。

在 Gemini 3 Flash 中,Agentic Vision 把图像理解从被动的查看变成主动的探究。

模型会生成并运行 Python 代码来主动处理或分析图像,例如裁剪、旋转、添加注释,或执行计算与统计(比如计数边界框)。并以视觉证据为依据给出结论。

Agentic Vision 现已通过 Gemini API 在 Google AI Studio 和 Vertex AI 中提供。它也开始在 Gemini 应用中逐步推出(可在模型下拉菜单中选择“Thinking”访问)。

🗒 标签: #Google #Gemini
📢 频道: @GodlyNews1
🤖 投稿: @GodlyNewsBot
Media is too big
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
 
 
Back to Top