这两年随着AIGC的高速发展,从事AI绘画创作的小伙伴有一个感触:尽管AI技术越来越强大,但想要精准的描述一幅画面,难度却越来越大。
SD1.5的时候,需要各种复杂的prompt(提示词),甚至还要强化参数,才能勉强获得满意的效果;
SDXL的时候,AI对自然语言的理解变得强大,几乎不需要刻意输入参数,就可以画出想要的画面,但细节方面的把握,依然还有所欠缺;
Flux时代,AI几乎能够很容易的理解自然语言,却来了一个新问题:不是所有人都能非常清晰的描述出想要的画面。
哪怕看着样图,也无法把画面每个细节表述清楚。
主要特点:
- 免费和开放:它将免费发布,开放权重,没有限制,就像bigASP一样,将附带培训脚本和许多关于如何构建的有趣细节。
- 未经审查:SFW和NSFW概念的覆盖率相等。这里没有“圆柱形物体上面有白色物质出来”。
- 多样性:这里欢迎所有人。你喜欢数字艺术吗?真实感?动漫?毛茸茸的?JoyCaption适合所有人。正在努力确保广泛覆盖图像风格、内容、种族、性别、取向等。
- 最小过滤:JoyCaption在大量图像上进行训练,因此它可以理解我们世界的几乎所有方面。差不多了在JoyCaption的训练中,非法内容是绝对不能容忍的。
所谓反推,是使用大模型技术用AI识别样图,把样图的细节表达出来,ChatGPT等AI工具都有类似功能。
不过今天我推荐的是开源工具:JoyCaption Two。
这款工具的原理是使用LLM开源大模型对图片进行识别,然后描述出画面的所有细节,并提供配置选项。
比如镜头参数,比如图像风格,比如构图等等,都有开关。
举个例子,这是我上传的图片。
反推出来的提示词:
一、安装插件
使用 Comfy Manager, 节点安装搜索:JoyCaptionAlpha Two for ComfyUI
安装即可,或者使用下面手动安装方式也可以,另外注意查看下面的相关模型下载,特别是Joy-Caption-alpha-two 模型下载(必须手动下载)
依赖安装
- 把仓库下载克隆到 custom_nodes 子文件夹下。
cd custom_nodes
git clone https://github.com/EvilBT/ComfyUI_SLK_joy_caption_two.git
- 安装相关依赖:
pip install -r ComfyUI_SLK_joy_caption_two\requirements.txt
- 下载相关模型。
- 重启ComfyUI。
二、模型下载
以下的models目录是指ComfyUI根目录下的models文件夹
1. google/siglip-so400m-patch14-384:
国外:google/siglip-so400m-patch14-384
国内:hf/google/siglip-so400m-patch14-384
会自动下载,也可以手动下载整个仓库,并把siglip-so400m-patch14-384内的文件全部复制到models/clip/siglip-so400m-patch14-384
2. Llama3.1-8B-Instruct 模型下载
支持两个版本:bnb-4bit是小显存的福音,我是使用这个版本的,原版的我没有测试过,可自行测试。程序会自动下载,可自行下载。
2.1 unsloth/Meta-Llama-3.1-8B-Instruct-bnb-4bit
国外:unsloth/Meta-Llama-3.1-8B-Instruct-bnb-4bit
国内:hf/unsloth/Meta-Llama-3.1-8B-Instruct-bnb-4bit
把整个文件夹内的内容复制到 models\LLM\Meta-Llama-3.1-8B-Instruct-bnb-4bit
下
2.2 unsloth/Meta-Llama-3.1-8B-Instruct
国外:unsloth/Meta-Llama-3.1-8B-Instruct
国内:hf/unsloth/Meta-Llama-3.1-8B-Instruct
把下载后的整个文件夹的内容复制到models\LLM\Meta-Llama-3.1-8B-Instruct
下
3. Joy-Caption-alpha-two 模型下载(必须手动下载)
把 Joy-Caption-alpha-two 下的cgrkzexw-599808
文件夹的所有内容下载复制到models/Joy_caption_two
下
4.重启ComfyUI之后就可以添加使用了
请登录后查看评论内容