GPT-4o 使用指南
GPT-4o 是 OpenAI 最新的旗舰多模态模型,支持文本、图像、音频输入和输出。本文详细介绍 GPT-4o 的核心能力、API 调用方法和最佳应用场景。
GPT-4o 核心特性
- 多模态输入:支持文本、图像、音频混合输入
- 速度更快:响应速度比 GPT-4 Turbo 快 2 倍
- 更低成本:价格比 GPT-4 Turbo 降低 50%
- 128K 上下文:支持约 10 万字的长文本处理
- 支持结构化输出:可以直接返回 JSON Schema 格式
基本文本对话
from openai import OpenAI
client = OpenAI(
api_key="your-api-key",
base_url="https://claude4u.com/v1"
)
response = client.chat.completions.create(
model="gpt-4o",
messages=[
{"role": "system", "content": "你是一个专业的技术顾问"},
{"role": "user", "content": "对比 React 和 Vue 的优缺点"}
],
temperature=0.7,
max_tokens=2048
)
print(response.choices[0].message.content)
图像理解
GPT-4o 可以接收图片并进行分析:
# URL 方式传图
response = client.chat.completions.create(
model="gpt-4o",
messages=[
{
"role": "user",
"content": [
{"type": "text", "text": "这张图片中有什么?"},
{
"type": "image_url",
"image_url": {
"url": "https://example.com/photo.jpg",
"detail": "high" # 高清模式,更精确
}
}
]
}
]
)
# base64 方式传图
import base64
with open("screenshot.png", "rb") as f:
b64 = base64.b64encode(f.read()).decode()
response = client.chat.completions.create(
model="gpt-4o",
messages=[
{
"role": "user",
"content": [
{"type": "text", "text": "分析这个 UI 界面的设计"},
{
"type": "image_url",
"image_url": {
"url": f"data:image/png;base64,{b64}"
}
}
]
}
]
)
结构化输出(JSON Mode)
GPT-4o 支持强制 JSON 格式输出:
response = client.chat.completions.create(
model="gpt-4o",
messages=[
{"role": "system", "content": "提取用户信息,以 JSON 格式输出"},
{"role": "user", "content": "我叫张三,今年28岁,在北京做软件工程师"}
],
response_format={"type": "json_object"}
)
import json
data = json.loads(response.choices[0].message.content)
print(data)
# {"name": "张三", "age": 28, "city": "北京", "job": "软件工程师"}
Node.js 示例
import OpenAI from 'openai';
const client = new OpenAI({
apiKey: 'your-api-key',
baseURL: 'https://claude4u.com/v1'
});
// 多模态对话
const response = await client.chat.completions.create({
model: 'gpt-4o',
messages: [
{
role: 'user',
content: [
{ type: 'text', text: '这段代码有什么问题?' },
{
type: 'image_url',
image_url: { url: 'https://example.com/code-screenshot.png' }
}
]
}
]
});
console.log(response.choices[0].message.content);
GPT-4o 最佳应用场景
- 智能客服:理解用户发送的截图、文档,提供精准解答
- 内容创作:高质量的文章、文案、代码生成
- 数据分析:分析图表截图,提取数据趋势
- 教育辅助:拍照解题、论文辅导
- 代码开发:代码生成、审查、Bug 分析
GPT-4o vs GPT-4 Turbo
- 速度:GPT-4o 快约 2 倍
- 价格:GPT-4o 便宜约 50%
- 多模态:GPT-4o 原生支持音频;GPT-4 Turbo 仅支持文本和图像
- 能力:综合能力相当,GPT-4o 在多模态任务上表现更优
提示:通过 claude4u.com 轻舟 AI 中转服务使用 GPT-4o,无需注册 OpenAI 账户,支持按量付费,同时还可以随时切换到 Claude、Gemini 等其他模型进行对比测试。
注意:GPT-4o 的图像理解虽然强大,但对于极小文字、手写体识别等场景仍有局限。建议上传清晰图片并选择
detail: "high" 模式以获得最佳效果。
轻舟 AI