ControlNet 训练的数据结构十分简单,仅为一张输入图(conditioning image)、一张输出图(image)和一段标注(caption)。官方给出了非常多预训练模型,包括 1.0 版本中的 Depth、HED、OpenPose 和 1.1 中非常有创意的 Shuffle、Tile 和 Instruct Pix2Pix 等。
ControlNet 的训练对数据量和算力均有较高要求,论文中记录的训练数据量从 8 万到 300 万不等,训练时间可达 600 个 A100 GPU 小时。好在作者提供了基础的训练脚本,HuggingFace 也做了 Diffusers 实现。
引用:在此前的 JAX Sprint 中,我们有幸使用 Google TPU v4,非常快地完成了 300 万张图的训练。可惜活动结束,我们回到了实验室的 A6000 / 4090,训练了一个 10 万张图的版本,且学习率非常大,只为尽早出现“突变拟合”(Sudden Convergence)。
说人话:
炼丹很吃N卡,然后你看到的都是效果图(已抽卡)。目前没有放出练好的模型哦(未完成状态),所以你要么自己做,要么让人帮你抽卡。知道AI绘图已经到这个过程就可以。作者在对应的网站贴出了训练方法和流程。总结就是入门门槛很高。不过专研这玩意做毕设,预计比隔壁实习生强不知道多少,你说对不对🌚
https://qrbtf.com/
相关文章
关联训练模型 | 抱抱脸模型
中国风底纹模型 | 浮世绘底纹模型 |
#StableDiffusion #ControlNet #QRcode
via MJJ出征 - Telegram Channel