图像生成模型
图像生成模型能够根据文本描述生成高质量的图像,支持多种风格和尺寸的图像创作。
概述
图像生成模型的特点:
- 文本到图像生成
- 支持多种艺术风格
- 高分辨率输出
- 可控的生成参数
- 异步处理机制
基本用法
文生图
curl -X POST "https://realmrouter.cn/v3/async/text2img" \
-H "Content-Type: application/json" \
-H "Authorization: Bearer $your_api_key" \
-d '{
"request": {
"model_name": "counterfeitxl__98184.safetensors",
"prompt": "close up, masterpiece, best quality, bokeh, cute, 1girl, solo, hair clip, round eyewear, brown jacket, turtleneck sweater, upper body, looking at viewer, yellow eyes, closed mouth, leaf, white background, plant",
"negative_prompt": "embedding:negativeXL_D.safetensors, military headwear",
"width": 512,
"height": 512,
"sampler_name": "DPM++ 2S a",
"guidance_scale": 10,
"steps": 28,
"image_num": 4,
"clip_skip": 1,
"seed": 846392716733523
}
}'
curl -X GET "https://realmrouter.cn/v3/async/task-result?task_id=$task_id" \
-H "Authorization: Bearer $your_api_key"图生图
curl -X POST "https://realmrouter.cn/v3/async/img2img" \
-H "Authorization: Bearer $your_api_key" \
-H "Content-Type: application/json" \
-d '{
"request": {
"model_name": "majicmixRealistic_v6_65516.safetensors",
"image_base64": "<input image to base64>",
"prompt": "Future world, future, science fiction film, science fiction, astronauts walking in a spaceship, astronauts, close-up of upper body, open hands, equipment glowing on the wall, technologically advanced spaceships",
"negative_prompt": "glasses hat freckles mask necklace shine earrings weapon",
"width": 1024,
"height": 576,
"sampler_name": "DPM++ 2S a Karras",
"guidance_scale": 7.5,
"steps": 20,
"image_num": 4,
"clip_skip": 1,
"seed": -1,
"strength": 0.65
}
}'
curl -X GET "https://realmrouter.cn/v3/async/task-result?task_id=$task_id" \
-H "Authorization: Bearer $your_api_key"重点参数
提示词
图像生成模型基于输入的文字描述(正向提示词 prompt)来生成图像,提示词描述的越准确、完整和丰富,生成的图像就越贴近期望生成的效果。因此,在使用图像生成模型时,要特别注意提示词的设计。
一般来说,提示词可以按照以下几方面去描述:
- 主体:图像的主要对象,例如人物、植物、物品等,描述时除了主体本身,也包括特征、动作等。
- 场景:主体所处的环境,例如室内户外、季节天气或者虚构场景等,可以通过短句加形容词,结合方位和构图等描述来体现场景。
- 风格:图像的艺术风格,例如写实、抽象、卡通、水墨等,有助于模型生成具有特定艺术表现的图像。
以下是一些设计提示词的建议:
尽量详细具体:尽可能详细、具体地描述清楚想要生成的图像内容,避免使用模糊、抽象的词汇。
- 正例:一片宽阔的草坪上有着星星点点的野花,一个十岁的中国小女孩正在草坪上奔跑,她穿着黄色连衣裙,梳着双马尾,侧对着镜头。
- 反例:草坪上有一个漂亮的小女孩。
细化画面需求:除了主体、场景和风格等描述外,可以增加有关氛围、镜头、光线等描述来进一步细化您的需求。
- 氛围示例:一家三口围坐在饭桌前,欢声笑语,其乐融融。
- 镜头示例:远景镜头,海滩上两个人影背对镜头,相依而坐看落日。
- 光线示例:茂密的树林里,清晨的阳光透过叶子洒在地上,形成斑驳的光影。
分步多次输入:对于复杂场景,可以尝试分多次去生成。先通过初步的提示词生成基础图像,再逐步细化描述去调整图像细节。
尝试不同描述:不同的描述方式,相近的词汇都可能产生不同的效果。您可以尝试使用不同的描述,选择最符合您期望的。
使用反向提示词:对于不希望出现在图像中的内容或元素,可以通过反向提示词
negative_prompt来避免。
控制生成
width和height:图像的宽度和高度,用于设置图像的分辨率。较高的分辨率可以使图像清晰,细节丰富,但会减慢生成速度,并可能引入偏差。较低的分辨率会导致图像模糊,细节减少。image_num:一次生成图像的数量。steps:迭代步数,即模型在生成图像过程中进行的迭代次数。迭代步数越高,生成的图像质量越好,但同时也会减慢生成速度,增加资源消耗。guidance_scale:提示词引导系数,用于平衡提示词对生成结果的影响。较高的引导系数可以使图像更符合提示词的要求,但可能会引入不自然的细节;较低的引导系数可以使图像生成更自由,但可能不完全符合提示词的要求。seed:随机数种子,用于控制生成图像的随机性。如果希望生成的图像相对稳定,请使用固定的 seed 值。
支持的模型
Stable Diffusion 系列
- Stable Diffusion XL
- Stable Diffusion 1.5
- 各种微调版本和风格模型
专业模型
- 写实风格模型
- 动漫风格模型
- 艺术创作模型
- 商业设计模型
使用流程
- 准备提示词:详细描述想要生成的图像内容
- 选择模型:根据需求选择合适的生成模型
- 设置参数:调整分辨率、步数等生成参数
- 提交请求:发送异步生成请求
- 获取结果:通过任务ID查询生成结果
最佳实践
1. 提示词优化
- 使用具体、详细的描述
- 包含主体、场景、风格要素
- 合理使用反向提示词
- 避免矛盾或模糊的描述
2. 参数调优
- 根据需求调整分辨率
- 平衡质量和速度
- 使用固定seed确保一致性
- 适当调整引导系数
3. 批量生成
- 使用相同的seed生成系列图像
- 调整单个参数进行对比
- 建立提示词模板库
4. 质量控制
- 检查生成结果的准确性
- 筛选最佳质量的图像
- 建立质量评估标准
常见问题
Q: 如何提高生成图像的质量?
A: 增加迭代步数、使用更详细的提示词、选择合适的模型、调整引导系数。
Q: 为什么生成的图像与预期不符?
A: 检查提示词的准确性、调整反向提示词、尝试不同的模型或参数组合。
Q: 如何生成特定风格的图像?
A: 在提示词中明确指定风格,如"写实风格"、"动漫风格"、"水彩画风格"等。
Q: 生成的图像尺寸可以自定义吗?
A: 可以,但建议使用模型支持的标准尺寸以获得最佳效果。
限制和注意事项
- 内容限制:禁止生成违法违规、暴力、色情等内容
- 版权注意:生成的图像版权归属需遵循相关法律法规
- 资源消耗:高分辨率和大量生成会消耗较多计算资源
- 处理时间:复杂图像生成可能需要较长时间
- 质量差异:不同模型的生成效果可能存在差异