Anima

0
0
0
0
AnimeHand-DrawnGirl
Actualizado recientemente: Publicado por primera vez:
Anime,Hand-Drawn,Girl,Checkpoint,SDXL

Anima 是一个由 CircleStone Labs 与 Comfy Org 合作创建的、拥有 20 亿参数的文本到图像模型。它主要聚焦于动漫概念、角色与风格,但同样能够生成各种非写实(non‑photorealistic)内容。该模型旨在用于绘制插画和艺术图像,现实主义表现并不理想。

  • 训练数据:数百万张动漫图片 + 大约 80 万张非动漫艺术图片。未使用任何合成数据进行训练。
  • 动漫训练数据的知识截止日期:2025 年 9 月。

新特性:可尝试使用 Turbo LoRA 以获得更好稳定性和更快的生成速度。



版本

版本说明
Anima‑Base预训练、未经过细调的基础模型。提供最高灵活性、多样性和风格遵循度。
Anima‑Turbo敬请期待。


安装与运行

  1. 从 HuggingFace 页面获取 文本编码器VAE
  2. 模型在 ComfyUI 中原生支持。将模型文件放入模型目录对应子文件夹:
文件放置路径
anima-base-v1.0.safetensorsComfyUI/models/diffusion_models
qwen_3_06b_base.safetensorsComfyUI/models/text_encoders
qwen_image_vae.safetensorsComfyUI/models/vae (此为 Qwen‑Image VAE,若已有可直接使用)


生成设置

  • 分辨率:支持 512² ~ 1536² 像素。
  • 步数:30–50 步。
  • CFG(Classifier‑Free Guidance)值:4–6。

常用采样器(Sampler)推荐

采样器风格特点
er_sde中性风格、平面色块、锐利线条。推荐作为默认采样器。
euler_a线条更柔软、偏细。常出现 2.5D 效果。相较其他采样器,可在不损伤图像的前提下提升 CFG。
dpmpp_2m_sde_gpuer_sde 类似但更具多样性与创造性。某些提示词会导致图像过于狂放。
Beta57 调度器(ComfyUI RES4LYF 自定义节点包)若想获得更写实或绘画感的纹理,可使用该调度器,因为它更重视低噪声时间步。


Prompt(提示词) 编写指南

  • 该模型同时接受 Danbooru 风格标签自然语言描述 以及 标签+文字混合
  • 标签请使用小写且用空格分隔,不要使用下划线(除非是 score 标签)。
  • 正向前缀(推荐)masterpiece, best quality, score_7, safe,
  • 负向前缀(推荐)worst quality, low quality, score_1, score_2, score_3, artist name
若 Danbooru 与 Gelbooru 对同一概念的标签不同,优先使用 Gelbooru 版。
  • 标签权重仍然适用,但需要比 SDXL 常用的权重大。例如:(chibi:2)

标签顺序(推荐)

[quality/meta/year/safety tags] [1girl/1boy/1other 等] [character] [series] [artist] [general tags]
  • 每个大类内部的标签顺序可随意。

质量标签(Quality Tags)

  • 基于人工评分masterpiece, best quality, good quality, normal quality, low quality, worst quality
  • 基于 PonyV7 美学模型score_9, score_8, …, score_1
任意组合使用(仅人工评分、仅美学评分、两者一起或皆不使用)均可。

时间标签(Time Period Tags)

  • 具体年份year 2025, year 2024, …
  • 时期newest, recent, mid, early, old

元标签(Meta Tags)

highres, absurdres, anime screenshot, jpeg artifacts, official art 等。

安全标签(Safety Tags)

safe, sensitive, nsfw, explicit

艺术家标签(Artist Tags)

在艺术家名前加 @,例如 @big chungus。若缺少 @,效果会非常弱。

完整标签示例

year 2025, newest, normal quality, score_5, highres, safe,
1girl, oomuro sakurako, yuru yuri, @nnn yryr,
smile, brown hair, hat, solo, fur-trimmed gloves, open mouth,
long hair, gift box, fang, skirt, red gloves, blunt bangs,
gloves, one eye closed, shirt, brown eyes, santa costume,
red hat, skin fang, twitter username, white background,
holding bag, fur trim, simple background, brown skirt, bag,
gift bag, looking at viewer, santa hat, ;d, red shirt,
box, gift, fur-trimmed headwear, holding, red capelet,
holding box, capelet


Tag Dropout(标签随机失活)

模型在训练时使用了 随机标签失活,因此 不必在提示词中列出所有相关标签,只要提供关键信息即可。



数据集标签(Dataset Tags)

为提升风格与内容多样性,模型额外在两个非动漫数据集上进行了训练:

  1. LAION‑POP(尤其是 ye‑pop 版本)
  2. DeviantArt

这两个数据集均已过滤掉照片,仅保留艺术作品。由于它们的性质与动漫数据集截然不同,会在提示词最前面加入一个“数据集标签”,随后另起一行写图像的 alt‑text(ye‑pop)或作品标题(DeviantArt)。示例:

ye-pop
For Sale: Others by Arun Prem
Abstract, oil painting of three faceless, blue‑skinned figures. Left: white, draped figure; center: yellow‑shirted, dark‑haired figure; right: red‑veiled, dark‑haired figure carrying another. Bold, textured colors, minimalist style.

deviantart
Flame
Digital painting of a fiery dragon with glowing yellow eyes, black horns, and a long, sinuous tail, perched on a glowing, molten rock formation. The background is a gradient of dark purple to orange.


自然语言提示技巧(Natural Language Prompting Tips)

  • 人名、系列名遵循 英文首字母大写 规则。
  • 纯自然语言提示越详细越好,不少于两句话。过短的提示容易产生意外结果。
  • 标签与自然语言可任意混排
  • 质量标签 / 艺术家标签可放在自然语言提示的最前面。

示例

masterpiece, best quality, @big chungus. An anime girl with medium‑length blonde hair is...
  • 点名角色,再描述外观
Digital artwork of Fern from Sousou no Frieren, with long purple hair and purple eyes, wearing a black coat over a white dress with puffy sleeves...
当提示多位角色时尤为重要:仅列出名字而不描述外观会导致模型混乱。


局限性(Limitations)

  • 不擅长现实主义(模型定位即为动漫/插画/艺术风格)。
  • 若提示词过短或缺乏细节,可能产生不理想内容。请使用合适的安全标签并撰写足够详细的提示。
  • 文字渲染能力有限:单词或极短短语大体可实现,长段文字渲染效果不佳。
  • Base 版本为纯基础模型,未经过审美微调。若不添加艺术家或质量标签,默认风格会显得非常平淡、中性


微调建议(Finetuning Tips)

  1. 不要训练 LLM Adapter。在我的训练脚本 diffusion-pipe 中,可将 llm_adapter_lr=0 以完全关闭其训练;示例配置默认即如此。
  2. LLM Adapter 在文本嵌入进入扩散模型前进行处理,对生成图像影响巨大且易在微调过程中被“退化”。
  3. 使用低学习率:对 rank‑32 LoRA,推荐 2e‑5,根据需求微调上下。
  4. 由于是基础模型,无需对抗激进的审美调优或 RLHF。模型已经内置了极其丰富的视觉概念,轻微的调优即可。
  5. 文档中提供了一个 style LoRA 示例,包含数据集与配置文件(已共享)。


许可证(License)

  • 本模型采用 CircleStone Labs Non‑Commercial License。模型及其衍生作品仅限非商业用途
  • 同时,本模型是 Cosmos‑Predict2‑2B‑Text2ImageDerivative Model,因此受 NVIDIA Open Model License Agreement 对衍生模型的约束。
  • 若需商业授权,请发送邮件至 tdrussell@circlestone.ai
本模型基于 NVIDIA Cosmos 构建。

Discusión

Más popular
|
Más nuevo
Enviar
Próximamente
Descargar
(0.00KB)
Detalles
Tipo
Recuento de generación en línea
0
Descargas
0
Parámetros Recomendados
Sampler method
CFG
5
VAE
Ninguno

Galería

Más popular
|
Más nuevo