如何使用 DALL·E API
本笔记本展示了如何使用 OpenAI 的 DALL·E 图像 API 端点。
有三个 API 端点:
- 生成(Generations): 根据输入标题生成图像。
- 编辑(Edits): 编辑或扩展现有图像。
- 变体(Variations): 生成输入图像的变体。
设置
- 导入所需的包
- 导入您的 OpenAI API 密钥:您可以通过在终端中运行 `
export OPENAI_API_KEY="your API key"
` 来完成此操作。 - 设置一个用于保存图像的目录。
# 导入
from openai import OpenAI # 用于进行 API 调用的 OpenAI Python 库
import requests # 用于下载图像
import os # 用于访问文件路径
from PIL import Image # 用于打印和编辑图像
# 初始化 OpenAI 客户端
client = OpenAI(api_key=os.environ.get("OPENAI_API_KEY", "<如果未设置为环境变量,则为您的 OpenAI API 密钥>"))
# 设置一个用于保存 DALL·E 图像的目录
image_dir_name = "images"
image_dir = os.path.join(os.curdir, image_dir_name)
# 如果目录不存在,则创建它
if not os.path.isdir(image_dir):
os.mkdir(image_dir)
# 打印要保存到的目录
print(f"{image_dir=}")
image_dir='./images'
生成
生成 API 端点根据文本提示创建图像。API 参考
必需的输入:
prompt
(str):所需图像的文本描述。dall-e-2 的最大长度为 1000 个字符,dall-e-3 的最大长度为 4000 个字符。
可选输入:
model
(str):用于图像生成的模型。默认为 dall-e-2。n
(int):要生成的图像数量。必须在 1 到 10 之间。默认为 1。quality
(str):将要生成的图像的质量。hd 可创建具有更精细细节和更高图像一致性的图像。此参数仅支持 dall-e-3。response_format
(str):返回生成图像的格式。必须是 "url" 或 "b64_json" 之一。默认为 "url"。size
(str):生成图像的大小。对于 dall-e-2,必须是 "256x256"、"512x512" 或 "1024x1024" 之一。对于 dall-e-3 模型,必须是 "1024x1024"、"1792x1024" 或 "1024x1792" 之一。默认为 "1024x1024"。style
(str | None):生成图像的样式。必须是 "vivid" 或 "natural" 之一。"vivid" 会使模型倾向于生成超现实和戏剧性的图像。"natural" 会使模型生成更自然、不那么超现实的图像。此参数仅支持 dall-e-3。user
(str):代表您的最终用户的唯一标识符,这将帮助 OpenAI 监控和检测滥用。了解更多。
# 创建一个图像
# 设置提示
prompt = "一只赛博朋克猴子黑客梦想着一大串香蕉,数字艺术"
# 调用 OpenAI API
generation_response = client.images.generate(
model = "dall-e-3",
prompt=prompt,
n=1,
size="1024x1024",
response_format="url",
)
# 打印响应
print(generation_response)
ImagesResponse(created=1701994117, data=[Image(b64_json=None, revised_prompt=None, url='https://oaidalleapiprodscus.blob.core.windows.net/private/org-9HXYFy8ux4r6aboFyec2OLRf/user-8OA8IvMYkfdAcUZXgzAXHS7d/img-ced13hkOk3lXkccQgW1fAQjm.png?st=2023-12-07T23%3A08%3A37Z&se=2023-12-08T01%3A08%3A37Z&sp=r&sv=2021-08-06&sr=b&rscd=inline&rsct=image/png&skoid=6aaadede-4fb3-4698-a8f6-684d7786b067&sktid=a48cca56-e6da-484e-a814-9c849652bcb3&skt=2023-12-07T16%3A41%3A48Z&ske=2023-12-08T16%3A41%3A48Z&sks=b&skv=2021-08-06&sig=tcD0iyU0ABOvWAKsY89gp5hLVIYkoSXQnrcmH%2Brkric%3D')])
# 保存图像
generated_image_name = "generated_image.png" # 任何你喜欢的名字;文件类型应为 .png
generated_image_filepath = os.path.join(image_dir, generated_image_name)
generated_image_url = generation_response.data[0].url # 从响应中提取图像 URL
generated_image = requests.get(generated_image_url).content # 下载图像
with open(generated_image_filepath, "wb") as image_file:
image_file.write(generated_image) # 将图像写入文件
# 打印图像
print(generated_image_filepath)
display(Image.open(generated_image_filepath))
变体
变体端点生成与输入图像相似的新图像(变体)。API 参考
这里我们将生成上面生成的图像的变体。
必需的输入:
image
(str):用作变体基础的图像。必须是有效的 PNG 文件,小于 4MB,并且是正方形的。
可选输入:
model
(str):用于图像变体的模型。目前仅支持 dall-e-2。n
(int):要生成的图像数量。必须在 1 到 10 之间。默认为 1。size
(str):生成图像的大小。必须是 "256x256"、"512x512" 或 "1024x1024" 之一。较小的图像速度更快。默认为 "1024x1024"。response_format
(str):返回生成图像的格式。必须是 "url" 或 "b64_json" 之一。默认为 "url"。user
(str):代表您的最终用户的唯一标识符,这将帮助 OpenAI 监控和检测滥用。了解更多。
# 创建变体
# 调用 OpenAI API,使用 `create_variation` 而不是 `create`
variation_response = client.images.create_variation(
image=generated_image, # generated_image 是上面生成的图像
n=2,
size="1024x1024",
response_format="url",
)
# 打印响应
print(variation_response)
ImagesResponse(created=1701994139, data=[Image(b64_json=None, revised_prompt=None, url='https://oaidalleapiprodscus.blob.core.windows.net/private/org-9HXYFy8ux4r6aboFyec2OLRf/user-8OA8IvMYkfdAcUZXgzAXHS7d/img-noNRGgwaaotRGIe6Y2GVeSpr.png?st=2023-12-07T23%3A08%3A59Z&se=2023-12-08T01%3A08%3A59Z&sp=r&sv=2021-08-06&sr=b&rscd=inline&rsct=image/png&skoid=6aaadede-4fb3-4698-a8f6-684d7786b067&sktid=a48cca56-e6da-484e-a814-9c849652bcb3&skt=2023-12-07T16%3A39%3A11Z&ske=2023-12-08T16%3A39%3A11Z&sks=b&skv=2021-08-06&sig=ER5RUglhtIk9LWJXw1DsolorT4bnEmFostfnUjY21ns%3D'), Image(b64_json=None, revised_prompt=None, url='https://oaidalleapiprodscus.blob.core.windows.net/private/org-9HXYFy8ux4r6aboFyec2OLRf/user-8OA8IvMYkfdAcUZXgzAXHS7d/img-oz952tL11FFhf9iXXJVIRUZX.png?st=2023-12-07T23%3A08%3A59Z&se=2023-12-08T01%3A08%3A59Z&sp=r&sv=2021-08-06&sr=b&rscd=inline&rsct=image/png&skoid=6aaadede-4fb3-4698-a8f6-684d7786b067&sktid=a48cca56-e6da-484e-a814-9c849652bcb3&skt=2023-12-07T16%3A39%3A11Z&ske=2023-12-08T16%3A39%3A11Z&sks=b&skv=2021-08-06&sig=99rJOQwDKsfIeerlMXMHholhAhrHfYaQRFJBF8FKv74%3D')])
# 保存图像
variation_urls = [datum.url for datum in variation_response.data] # 提取 URL
variation_images = [requests.get(url).content for url in variation_urls] # 下载图像
variation_image_names = [f"variation_image_{i}.png" for i in range(len(variation_images))] # 创建名称
variation_image_filepaths = [os.path.join(image_dir, name) for name in variation_image_names] # 创建文件路径
for image, filepath in zip(variation_images, variation_image_filepaths): # 遍历变体
with open(filepath, "wb") as image_file: # 打开文件
image_file.write(image) # 将图像写入文件
# 打印原始图像
print(generated_image_filepath)
display(Image.open(generated_image_filepath))
# 打印新变体
for variation_image_filepaths in variation_image_filepaths:
print(variation_image_filepaths)
display(Image.open(variation_image_filepaths))
编辑
编辑端点使用 DALL·E 来生成现有图像的指定部分。需要三个输入:要编辑的图像、指定要重新生成的部分的蒙版以及描述所需图像的提示。API 参考
必需的输入:
image
(str):要编辑的图像。必须是有效的 PNG 文件,小于 4MB,并且是正方形的。如果未提供蒙版,则图像必须具有透明度,这将用作蒙版。prompt
(str):所需图像的文本描述。最大长度为 1000 个字符。
可选输入:
mask
(file):一个附加图像,其完全透明的区域(例如,alpha 为零)指示应编辑图像的位置。必须是有效的 PNG 文件,小于 4MB,并且与图像具有相同的尺寸。model
(str):用于编辑图像的模型。目前仅支持 dall-e-2。n
(int):要生成的图像数量。必须在 1 到 10 之间。默认为 1。size
(str):生成图像的大小。必须是 "256x256"、"512x512" 或 "1024x1024" 之一。较小的图像速度更快。默认为 "1024x1024"。response_format
(str):返回生成图像的格式。必须是 "url" 或 "b64_json" 之一。默认为 "url"。user
(str):代表您的最终用户的唯一标识符,这将帮助 OpenAI 监控和检测滥用。了解更多。
设置编辑区域
编辑需要一个“蒙版”来指定要重新生成图像的哪个部分。任何 alpha 值为 0(透明)的像素都将被重新生成。下面的代码创建了一个 1024x1024 的蒙版,其中下半部分是透明的。
# 创建一个蒙版
width = 1024
height = 1024
mask = Image.new("RGBA", (width, height), (0, 0, 0, 1)) # 创建一个不透明的图像蒙版
# 将下半部分设置为透明
for x in range(width):
for y in range(height // 2, height): # 只循环蒙版的下半部分
# 将 alpha (A) 设置为零以使像素透明
alpha = 0
mask.putpixel((x, y), (0, 0, 0, alpha))
# 保存蒙版
mask_name = "bottom_half_mask.png"
mask_filepath = os.path.join(image_dir, mask_name)
mask.save(mask_filepath)
执行编辑
现在我们将我们的图像、标题和蒙版提供给 API,以获取我们图像的 5 个编辑示例。
# 编辑图像
# 调用 OpenAI API
edit_response = client.images.edit(
image=open(generated_image_filepath, "rb"), # 来自生成部分
mask=open(mask_filepath, "rb"), # 来自上面
prompt=prompt, # 来自生成部分
n=1,
size="1024x1024",
response_format="url",
)
# 打印响应
print(edit_response)
ImagesResponse(created=1701994167, data=[Image(b64_json=None, revised_prompt=None, url='https://oaidalleapiprodscus.blob.core.windows.net/private/org-9HXYFy8ux4r6aboFyec2OLRf/user-8OA8IvMYkfdAcUZXgzAXHS7d/img-9UOVGC7wB8MS2Q7Rwgj0fFBq.png?st=2023-12-07T23%3A09%3A27Z&se=2023-12-08T01%3A09%3A27Z&sp=r&sv=2021-08-06&sr=b&rscd=inline&rsct=image/png&skoid=6aaadede-4fb3-4698-a8f6-684d7786b067&sktid=a48cca56-e6da-484e-a814-9c849652bcb3&skt=2023-12-07T16%3A40%3A37Z&ske=2023-12-08T16%3A40%3A37Z&sks=b&skv=2021-08-06&sig=MsRMZ1rN434bVdWr%2B9kIoqu9CIrvZypZBfkQPTOhCl4%3D')])
# 保存图像
edited_image_name = "edited_image.png" # 任何你喜欢的名字;文件类型应为 .png
edited_image_filepath = os.path.join(image_dir, edited_image_name)
edited_image_url = edit_response.data[0].url # 提取图像 URL
edited_image = requests.get(edited_image_url).content # 下载图像
with open(edited_image_filepath, "wb") as image_file:
image_file.write(edited_image) # 将图像写入文件
# 打印原始图像
print(generated_image_filepath)
display(Image.open(generated_image_filepath))
# 打印编辑后的图像
print(edited_image_filepath)
display(Image.open(edited_image_filepath))