4-4 高级设置
在 SeaArt 中微调您的 AI 创作!掌握负面提示、VAE、采样、CFG 比例、种子等高级参数,以对你的创作达到精确控制。
Last updated
在 SeaArt 中微调您的 AI 创作!掌握负面提示、VAE、采样、CFG 比例、种子等高级参数,以对你的创作达到精确控制。
Last updated
创作过程:选择模型-输入提示词- 调整相关参数 -出图
一般来说提示词很难理解否定词,例如:没有树这类带否定的词语[no, not, except, without],因此,我们需要在负标签中加入我们不想要的效果,除了加入不想让画面中出现的元素,也可以加入例如:低质量、低细节、丑陋、畸形......这类词语,提高最后出图的质量,一般生成图片时,SeaArt都会自带负标签
(worst quality, low quality, normal quality, lowres, low details, oversaturated, undersaturated, overexposed, underexposed, grayscale, bw, bad photo, bad photography, bad art:1.4), (watermark, signature, tet font, username, error, logo, words, letters, digits, autograph, trademark, name:1.2), (blur, blurry, grainy), morbid, ugly, asymmetrical, mutated malformed, mutilated, poorly lit, bad shadow, draft, cropped, out of frame, cut off, censored, jpeg artifacts, out of focus, glitch, duplicate, (bad hands, bad anatomy, bad body, bad face, bad teeth, bad arms, bad legs, deformities:1.3)
可以将VAE看做一种”滤镜“,通过优化算法改善图像生成的质量,增强视觉效果。它也可以对图片一些形状进行微调,当您发现图片颜色有问题,可以尝试换一个VAE
常用VAE:
automatic:自动选择最适合当前任务的VAE配置。
None:不使用任何VAE。
vae-ft-mse-840000-ema-pruned:真实系色彩风格,840000表示训练迭代次数,有助于提高生成图像的质量,降低复杂性和提高效率。
vae-ft-ema-560000-ema-pruned:真实系色彩风格,训练迭代次数为560000,可以用于更加快速或更低资源消耗的图像生成。
kl-f8-anime2:针对生成二次元风格的图像进行了优化。
*一部分大模型自带VAE,所以也不需要再选择VAE
一个标准的AI绘画过程,一般来说包括前向的添加噪声以及反向的去噪、复原和生成目标,前向过程中不断向输入数据中添加噪声,而采样器则是反向中负责去噪的过程
前向过程(从右至左):在原始图像上逐步添加噪声,这个过程主要是训练过程,训练 U-Net 网络预测噪点的能力
反向过程(从左至右):通过训练好的 U-Net 网络估算的噪点逐步去噪,最终复现图像
在这两个过程中,AI相当于将一张具体的图像打乱,然后学习到其中的部分,反过来创造一张新的图像。也就是当前向过程中模型训练完成后,反向过程从一张噪点图生成一张从未见过的新图像。
在一个清晰的图片生成前,模型需要在潜空间(Latent Space)中生成一个随机的图像,噪声预测器会开始工作,从图像中减去预测的噪声,随着这个步骤的重复,最终我们会得到一个清晰的图像,整个去噪的过程我们可以称为“采样”,采样中使用的方法称为采样器或采样方法。
采样方法会决定采用什么去噪方式,不同的采样方法,出图效果不同。
*种子(seed)的数值决定了初始第一张的噪声。
老式 ODE 求解器(Old-School ODE solvers)
Euler - 欧拉采样方法,最简单的求解器。
Heun - 比欧拉法更精确但速度更慢的版本。
LMS - 线性多步法,速度与Euler相同但更精确。
收敛:随着采样步数增加,采样结果最终趋向一个固定的画面,画面逐渐稳定
祖先采样器(Ancestral samplers )(名字中带有一个a)
Euler a
DPM2 a
DPM++ 2S a
DPM++ 2S a Karras
这些采样器会在每个采样步骤中添加噪声,因此具有一定的随机性,不收敛
不收敛:画面随机,可能会增加一些细节
如果想获得稳定并且可重现的结果,应该避免使用祖先采样器
*部分采样器名字虽然没有“a”,但也是随机采样器
DDIM、PLMS(不再广泛使用)
DDIM:去噪扩散隐式造型,为扩散模型设计的第一个采样器
PLMS:伪线性多步方法,是DDIM更快速的替代品
DPM、DPM++系列
对Tag的利用率较高,采样时适当放大采样步骤以或得更好的效果,但整体速度也较慢,DPM++是DPM的改进,结果更准确,但速度也更慢
karras:用较少的采样步数产出清晰的图像,优化算法
Restart:使用较少的采样步数,生成不错的画面,时间较少
LCM:生成速度较快
*推荐使用:
Euler/Euler a:速度快、高质量,适合绝大多数场景,推荐步数为15-30步。
DPM++2M Karras:收敛、速度快、质量好(15-25)
DPM++SDE Karras:不收敛,速度慢,质量好,适合写实图像,推荐10-15步
DPM++2M SDE Karras:2M和SDE的中间算法,不收敛,速度提升一点
DPM++ 2M SDE Heun Exponential:不收敛,画面柔和、干净,细节会少一点
DPM++ 3M SDE Karras
DPM++ 3M SDE Exponential:速度和2M一样,需要更多采样步骤,当采样步骤>30,调低文本强度(CFG),效果会更好
Restart:速度非常快,只适合快速产出初稿或概念验证,使用极少步数即可达到理想效果
LCM:仅需4步即可实现“实时渲染”,虽然画质一般,适合生成灵感草图或初步概念设计
*
优先考虑模型作者推荐的算法,以保证最佳兼容性和效果。
优先使用带加号的算法,作为优化算法会比不带加号的更加稳定
当出图出现噪点问题,可以尝试换个采样器
一般来说,采样步骤越高,质量越好,但大概25个采样步骤就足以获得高质量图像,更高可能会产生不同图像,但不一定质量更好,并且,采样步骤越高,所需要的时间就越长,大多数情况下,不需要设置过多的采样步骤增加等待时间
随着采样步骤增加,“女孩”主要形态保持不变,一些小细节随着步骤增加得到改善,例如:毛发质量、颜色、背景等,因此,采样步骤应该根据自己需要调整。
与提示词的相关程度,文本强度越高,画面越接近提示词,一般设置在7-10左右,太高容易画面崩坏,如果出图不遵循提示词,可以适当增加文本强度
提示词:全长拍摄, 超级英雄姿势, 生物力学套装, 充气形状, 穿着史诗般的仿生机器人植入物, 杰作, 错综复杂, 生物朋克未来派衣柜, 非常详细, 艺术站, 概念艺术, 赛博朋克, 辛烷渲染
full lenght shot, super hero pose, biomechanical suit, inflateble shapes, wearing epic bionic cyborg implants, masterpiece, intricate, biopunk futuristic wardrobe, highly detailed, artstation, concept art, cyberpunk, octane render
Al在绘图过程中会有很强的不确定性,因为每次绘制时都会有一套随机的运算机制,而每次运算时都对应了一个固定的种子值。
而通过固定种子值可以锁定绘图结果的随机性,比如我们绘制了一张比较满意的图片时,可以将调用其种子值填写在这里,可以最大程度的保证原图的画面内容。
点击随机可以将种子重置为默认的-1。自定义可以自由填写图片种子值。
使用相同的参数、提示词和随机种子,将生成完全相同的图像,因此,我们可以利用相同的随机种子,修改部分参数,使生成的图像在拥有原有特征情况下生成新的图像
*只修改了情绪词改变面部表情,同时保留其他特征,如:头发、衣服、背景等
一层层的将提示词转化为数字,再被转换器读取,对提示词的理解一层比一层更加具体
如果提示词是:一个年轻女孩,穿着黑裙,待着黑帽,手拿魔杖,巫女,当Clip Skip为2时,AI可能会省略黑裙或者魔杖的概念,随着 Clip Skip 数值的增加,AI 将会省略更多的提示词
因此,当Clip Skip为1时,意味着从最后一层终止画面,结果将会是提示词完整描述,越早终止,从提示词中获取的描述就更少,最终结果也不会太精准,一般设置 2
Clip Skip有什么用?
Clip Skip有助于解决过拟合的情况,及时终止对提示词的读取;当画面过拟合时,可以调高Clip Skip
通过设置Clip Skip,可以调整AI生图的细节和风格,让最终成图更有灵活性和可控性,能够满足不同的生图要求
提示词:
最佳品质,杰作,插图,美丽细致的发光,纺织阴影,荒诞,高分辨率,动态照明,错综复杂的细节,美丽的眼睛,[背光],面部照明,(视角:1.3),(1个女孩,独奏:1.5),不对称刘海,黑发,(微笑),(牛仔裤和衬衫)
best quality,masterpiece,illustration,beautiful detailed glow,textile shading,absurdres,highres,dynamic lighting,intricate detailed,beautiful eyes,[backlighting],face lighting,(pov:1.3), (1 girl, solo:1.5),asymmetric bang,black hair,(smile),(jeans pants and shirts)