🀄 中文说明

项目概述

本仓库是 Qwen3-TTS-12Hz-1.7B-Base 的 LoRA 微调适配器,专门用于复现伊蕾娜(Elaina / イレイナ)的语音音色。

伊蕾娜是轻小说《魔女之旅》(Majo no Tabitabi / 魔女の旅々)及其衍生作品(Drama CD)中的角色,由本渡枫(Kaede Hondo)配音。

数据集

项目 内容
来源 Elaina Wandering Witch Japanese Audio (drama CD)
规模 1444 条音频
语言 日语(JA)
预处理 Qwen3-TTS-Tokenizer-12Hz token 化
数据集 yeeko/Elaina_WanderingWitch_audio_JA

模型信息

项目 内容
基座模型 Qwen3-TTS-12Hz-1.7B-Base
微调方法 LoRA(低秩适配)
LoRA Rank r = 16
LoRA Alpha 32
目标层 q_proj, k_proj, v_proj, o_proj
训练 Epochs 32

技术路线

原始音频 (.mp3/.wav)
    ↓
Qwen3-TTS-Tokenizer-12Hz(编码)
    ↓
train_with_codes.jsonl(token 序列)
    ↓
Qwen3-TTS-12Hz-1.7B-Base + LoRA(r=16, alpha=32)
    ↓
SFT 训练(交叉熵)
    ↓
adapter_model.safetensors

快速使用

微调后的模型已直接学习伊蕾娜音色,直接加载模型并给出文本即可。

import torch
from qwen_tts import Qwen3TTSModel
import soundfile as sf

# 直接加载微调后的模型(无需单独加载 LoRA)
model = Qwen3TTSModel.from_pretrained(
    "path/to/checkpoint-epoch-32/",
    device_map="cuda:0",
    dtype=torch.bfloat16,
    attn_implementation="flash_attention_2",
)

# 直接生成——无需 ref_audio、无需指定语言
wavs, sr = model.generate(
    text="生成的目标日语文本",
)

sf.write("output.wav", wavs[0], sr)

可用 Checkpoint

Checkpoint 状态 备注
checkpoint-epoch-2
checkpoint-epoch-4
checkpoint-epoch-8
checkpoint-epoch-16
checkpoint-epoch-32 当前版本
checkpoint-latest 最新

🇯🇵 日本語の説明

プロジェクト概要

このリポジトリは Qwen3-TTS-12Hz-1.7B-Base のLoRAファインチューニング済みアダプタで、イレイナ(Elaina / イレイナ)のキャラクターヴォイスを再現するために調整されています。

イレイナはライト小説『魔女の旅々』(Majo no Tabitabi)及其派生作品(ドラマCD)の主角で、本渡楓(Kaede Hondo)が声優を担当しています。

データセット

項目 内容
来源 Elaina Wandering Witch Japanese Audio (ドラマCD)
規模 1444件のオーディオ
言語 日本語(JA)
前処理 Qwen3-TTS-Tokenizer-12Hzでトークン化
データセット yeeko/Elaina_WanderingWitch_audio_JA

モデル情報

項目 内容
ベースモデル Qwen3-TTS-12Hz-1.7B-Base
ファインチューニング方法 LoRA(低ランク適応)
LoRA Rank r = 16
LoRA Alpha 32
対象層 q_proj, k_proj, v_proj, o_proj
訓練Epoch数 32

技術パイプライン

生オーディオ (.mp3/.wav)
    ↓
Qwen3-TTS-Tokenizer-12Hz(エンコード)
    ↓
train_with_codes.jsonl(トークン系列)
    ↓
Qwen3-TTS-12Hz-1.7B-Base + LoRA(r=16, alpha=32)
    ↓
SFT訓練(交差エントロピー)
    ↓
adapter_model.safetensors

クイックスタート

ファインチューニング済みモデルは伊蕾娜の音色を既に学習しているため、参照音频は不要です。

import torch
from qwen_tts import Qwen3TTSModel
import soundfile as sf

model = Qwen3TTSModel.from_pretrained(
    "path/to/checkpoint-epoch-32/",
    device_map="cuda:0",
    dtype=torch.bfloat16,
    attn_implementation="flash_attention_2",
)

# 直接生成——ref_audio不要、language也不要
wavs, sr = model.generate(
    text="生成したい日本語テキスト",
)

sf.write("output.wav", wavs[0], sr)

🇬🇧 English

Project Overview

This repository contains a LoRA fine-tuned adapter for Qwen3-TTS-12Hz-1.7B-Base, specialized on the voice of Elaina (イレイナ) from the anime/light novel series Wandering Witch: The Journey of Elaina (Majo no Tabitabi / 魔女の旅々), voiced by Kaede Hondo (本渡楓).

Dataset

Item Content
Source Elaina Wandering Witch Japanese Audio (Drama CD)
Size 1444 audio clips
Language Japanese (JA)
Preprocessing Tokenized via Qwen3-TTS-Tokenizer-12Hz
Dataset yeeko/Elaina_WanderingWitch_audio_JA

Model Details

Item Content
Base Model Qwen3-TTS-12Hz-1.7B-Base
Fine-tune Method LoRA (Low-Rank Adaptation)
LoRA Rank r = 16
LoRA Alpha 32
Target Modules q_proj, k_proj, v_proj, o_proj
Training Epochs 32

Technical Pipeline

Raw Audio (.mp3/.wav)
    ↓
Qwen3-TTS-Tokenizer-12Hz (encode)
    ↓
train_with_codes.jsonl (token sequences)
    ↓
Qwen3-TTS-12Hz-1.7B-Base + LoRA (r=16, alpha=32)
    ↓
SFT Training (cross-entropy)
    ↓
adapter_model.safetensors

Quick Start

The fine-tuned model has already learned Elaina's voice — just load the model and give text.

import torch
from qwen_tts import Qwen3TTSModel
import soundfile as sf

model = Qwen3TTSModel.from_pretrained(
    "path/to/checkpoint-epoch-32/",
    device_map="cuda:0",
    dtype=torch.bfloat16,
    attn_implementation="flash_attention_2",
)

# Generate directly — no ref_audio, no language needed
wavs, sr = model.generate(
    text="Target Japanese text to generate",
)

sf.write("output.wav", wavs[0], sr)

Available Checkpoints

Checkpoint Status Notes
checkpoint-epoch-2
checkpoint-epoch-4
checkpoint-epoch-8
checkpoint-epoch-16
checkpoint-epoch-32 This version
checkpoint-latest Latest

Fine-tuned with ❤️ using Qwen3-TTS + LoRA

Downloads last month
35
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support