🀄 中文说明
项目概述
本仓库是 Qwen3-TTS-12Hz-1.7B-Base 的 LoRA 微调适配器,专门用于复现伊蕾娜(Elaina / イレイナ)的语音音色。
伊蕾娜是轻小说《魔女之旅》(Majo no Tabitabi / 魔女の旅々)及其衍生作品(Drama CD)中的角色,由本渡枫(Kaede Hondo)配音。
数据集
| 项目 | 内容 |
|---|---|
| 来源 | Elaina Wandering Witch Japanese Audio (drama CD) |
| 规模 | 1444 条音频 |
| 语言 | 日语(JA) |
| 预处理 | Qwen3-TTS-Tokenizer-12Hz token 化 |
| 数据集 | yeeko/Elaina_WanderingWitch_audio_JA |
模型信息
| 项目 | 内容 |
|---|---|
| 基座模型 | Qwen3-TTS-12Hz-1.7B-Base |
| 微调方法 | LoRA(低秩适配) |
| LoRA Rank | r = 16 |
| LoRA Alpha | 32 |
| 目标层 | q_proj, k_proj, v_proj, o_proj |
| 训练 Epochs | 32 |
技术路线
原始音频 (.mp3/.wav)
↓
Qwen3-TTS-Tokenizer-12Hz(编码)
↓
train_with_codes.jsonl(token 序列)
↓
Qwen3-TTS-12Hz-1.7B-Base + LoRA(r=16, alpha=32)
↓
SFT 训练(交叉熵)
↓
adapter_model.safetensors
快速使用
微调后的模型已直接学习伊蕾娜音色,直接加载模型并给出文本即可。
import torch
from qwen_tts import Qwen3TTSModel
import soundfile as sf
# 直接加载微调后的模型(无需单独加载 LoRA)
model = Qwen3TTSModel.from_pretrained(
"path/to/checkpoint-epoch-32/",
device_map="cuda:0",
dtype=torch.bfloat16,
attn_implementation="flash_attention_2",
)
# 直接生成——无需 ref_audio、无需指定语言
wavs, sr = model.generate(
text="生成的目标日语文本",
)
sf.write("output.wav", wavs[0], sr)
可用 Checkpoint
| Checkpoint | 状态 | 备注 |
|---|---|---|
| checkpoint-epoch-2 | ✅ | |
| checkpoint-epoch-4 | ✅ | |
| checkpoint-epoch-8 | ✅ | |
| checkpoint-epoch-16 | ✅ | |
| checkpoint-epoch-32 | ✅ | 当前版本 |
| checkpoint-latest | ✅ | 最新 |
🇯🇵 日本語の説明
プロジェクト概要
このリポジトリは Qwen3-TTS-12Hz-1.7B-Base のLoRAファインチューニング済みアダプタで、イレイナ(Elaina / イレイナ)のキャラクターヴォイスを再現するために調整されています。
イレイナはライト小説『魔女の旅々』(Majo no Tabitabi)及其派生作品(ドラマCD)の主角で、本渡楓(Kaede Hondo)が声優を担当しています。
データセット
| 項目 | 内容 |
|---|---|
| 来源 | Elaina Wandering Witch Japanese Audio (ドラマCD) |
| 規模 | 1444件のオーディオ |
| 言語 | 日本語(JA) |
| 前処理 | Qwen3-TTS-Tokenizer-12Hzでトークン化 |
| データセット | yeeko/Elaina_WanderingWitch_audio_JA |
モデル情報
| 項目 | 内容 |
|---|---|
| ベースモデル | Qwen3-TTS-12Hz-1.7B-Base |
| ファインチューニング方法 | LoRA(低ランク適応) |
| LoRA Rank | r = 16 |
| LoRA Alpha | 32 |
| 対象層 | q_proj, k_proj, v_proj, o_proj |
| 訓練Epoch数 | 32 |
技術パイプライン
生オーディオ (.mp3/.wav)
↓
Qwen3-TTS-Tokenizer-12Hz(エンコード)
↓
train_with_codes.jsonl(トークン系列)
↓
Qwen3-TTS-12Hz-1.7B-Base + LoRA(r=16, alpha=32)
↓
SFT訓練(交差エントロピー)
↓
adapter_model.safetensors
クイックスタート
ファインチューニング済みモデルは伊蕾娜の音色を既に学習しているため、参照音频は不要です。
import torch
from qwen_tts import Qwen3TTSModel
import soundfile as sf
model = Qwen3TTSModel.from_pretrained(
"path/to/checkpoint-epoch-32/",
device_map="cuda:0",
dtype=torch.bfloat16,
attn_implementation="flash_attention_2",
)
# 直接生成——ref_audio不要、language也不要
wavs, sr = model.generate(
text="生成したい日本語テキスト",
)
sf.write("output.wav", wavs[0], sr)
🇬🇧 English
Project Overview
This repository contains a LoRA fine-tuned adapter for Qwen3-TTS-12Hz-1.7B-Base, specialized on the voice of Elaina (イレイナ) from the anime/light novel series Wandering Witch: The Journey of Elaina (Majo no Tabitabi / 魔女の旅々), voiced by Kaede Hondo (本渡楓).
Dataset
| Item | Content |
|---|---|
| Source | Elaina Wandering Witch Japanese Audio (Drama CD) |
| Size | 1444 audio clips |
| Language | Japanese (JA) |
| Preprocessing | Tokenized via Qwen3-TTS-Tokenizer-12Hz |
| Dataset | yeeko/Elaina_WanderingWitch_audio_JA |
Model Details
| Item | Content |
|---|---|
| Base Model | Qwen3-TTS-12Hz-1.7B-Base |
| Fine-tune Method | LoRA (Low-Rank Adaptation) |
| LoRA Rank | r = 16 |
| LoRA Alpha | 32 |
| Target Modules | q_proj, k_proj, v_proj, o_proj |
| Training Epochs | 32 |
Technical Pipeline
Raw Audio (.mp3/.wav)
↓
Qwen3-TTS-Tokenizer-12Hz (encode)
↓
train_with_codes.jsonl (token sequences)
↓
Qwen3-TTS-12Hz-1.7B-Base + LoRA (r=16, alpha=32)
↓
SFT Training (cross-entropy)
↓
adapter_model.safetensors
Quick Start
The fine-tuned model has already learned Elaina's voice — just load the model and give text.
import torch
from qwen_tts import Qwen3TTSModel
import soundfile as sf
model = Qwen3TTSModel.from_pretrained(
"path/to/checkpoint-epoch-32/",
device_map="cuda:0",
dtype=torch.bfloat16,
attn_implementation="flash_attention_2",
)
# Generate directly — no ref_audio, no language needed
wavs, sr = model.generate(
text="Target Japanese text to generate",
)
sf.write("output.wav", wavs[0], sr)
Available Checkpoints
| Checkpoint | Status | Notes |
|---|---|---|
| checkpoint-epoch-2 | ✅ | |
| checkpoint-epoch-4 | ✅ | |
| checkpoint-epoch-8 | ✅ | |
| checkpoint-epoch-16 | ✅ | |
| checkpoint-epoch-32 | ✅ | This version |
| checkpoint-latest | ✅ | Latest |
Fine-tuned with ❤️ using Qwen3-TTS + LoRA
- Downloads last month
- 35