🀄 中文说明

项目概述

本仓库是 Qwen3-TTS-12Hz-1.7B-Base 的 LoRA 微调适配器，专门用于复现伊蕾娜（Elaina / イレイナ）的语音音色。

伊蕾娜是轻小说《魔女之旅》（Majo no Tabitabi / 魔女の旅々）及其衍生作品（Drama CD）中的角色，由本渡枫（Kaede Hondo）配音。

数据集

项目	内容
来源	Elaina Wandering Witch Japanese Audio (drama CD)
规模	1444 条音频
语言	日语（JA）
预处理	Qwen3-TTS-Tokenizer-12Hz token 化
数据集	yeeko/Elaina_WanderingWitch_audio_JA

模型信息

项目	内容
基座模型	Qwen3-TTS-12Hz-1.7B-Base
微调方法	LoRA（低秩适配）
LoRA Rank	r = 16
LoRA Alpha	32
目标层	q_proj, k_proj, v_proj, o_proj
训练 Epochs	32

技术路线

原始音频 (.mp3/.wav)
    ↓
Qwen3-TTS-Tokenizer-12Hz（编码）
    ↓
train_with_codes.jsonl（token 序列）
    ↓
Qwen3-TTS-12Hz-1.7B-Base + LoRA（r=16, alpha=32）
    ↓
SFT 训练（交叉熵）
    ↓
adapter_model.safetensors

快速使用

微调后的模型已直接学习伊蕾娜音色，直接加载模型并给出文本即可。

import torch
from qwen_tts import Qwen3TTSModel
import soundfile as sf

# 直接加载微调后的模型（无需单独加载 LoRA）
model = Qwen3TTSModel.from_pretrained(
    "path/to/checkpoint-epoch-32/",
    device_map="cuda:0",
    dtype=torch.bfloat16,
    attn_implementation="flash_attention_2",
)

# 直接生成——无需 ref_audio、无需指定语言
wavs, sr = model.generate(
    text="生成的目标日语文本",
)

sf.write("output.wav", wavs[0], sr)

可用 Checkpoint

Checkpoint	状态	备注
checkpoint-epoch-2	✅
checkpoint-epoch-4	✅
checkpoint-epoch-8	✅
checkpoint-epoch-16	✅
checkpoint-epoch-32	✅	当前版本
checkpoint-latest	✅	最新

🇯🇵 日本語の説明

プロジェクト概要

このリポジトリは Qwen3-TTS-12Hz-1.7B-Base のLoRAファインチューニング済みアダプタで、イレイナ（Elaina / イレイナ）のキャラクターヴォイスを再現するために調整されています。

イレイナはライト小説『魔女の旅々』（Majo no Tabitabi）及其派生作品（ドラマCD）の主角で、本渡楓（Kaede Hondo）が声優を担当しています。

データセット

項目	内容
来源	Elaina Wandering Witch Japanese Audio (ドラマCD)
規模	1444件のオーディオ
言語	日本語（JA）
前処理	Qwen3-TTS-Tokenizer-12Hzでトークン化
データセット	yeeko/Elaina_WanderingWitch_audio_JA

モデル情報

項目	内容
ベースモデル	Qwen3-TTS-12Hz-1.7B-Base
ファインチューニング方法	LoRA（低ランク適応）
LoRA Rank	r = 16
LoRA Alpha	32
対象層	q_proj, k_proj, v_proj, o_proj
訓練Epoch数	32

技術パイプライン

生オーディオ (.mp3/.wav)
    ↓
Qwen3-TTS-Tokenizer-12Hz（エンコード）
    ↓
train_with_codes.jsonl（トークン系列）
    ↓
Qwen3-TTS-12Hz-1.7B-Base + LoRA（r=16, alpha=32）
    ↓
SFT訓練（交差エントロピー）
    ↓
adapter_model.safetensors

クイックスタート

ファインチューニング済みモデルは伊蕾娜の音色を既に学習しているため、参照音频は不要です。

import torch
from qwen_tts import Qwen3TTSModel
import soundfile as sf

model = Qwen3TTSModel.from_pretrained(
    "path/to/checkpoint-epoch-32/",
    device_map="cuda:0",
    dtype=torch.bfloat16,
    attn_implementation="flash_attention_2",
)

# 直接生成——ref_audio不要、language也不要
wavs, sr = model.generate(
    text="生成したい日本語テキスト",
)

sf.write("output.wav", wavs[0], sr)

🇬🇧 English

Project Overview

This repository contains a LoRA fine-tuned adapter for Qwen3-TTS-12Hz-1.7B-Base, specialized on the voice of Elaina (イレイナ) from the anime/light novel series Wandering Witch: The Journey of Elaina (Majo no Tabitabi / 魔女の旅々), voiced by Kaede Hondo (本渡楓).

Dataset

Item	Content
Source	Elaina Wandering Witch Japanese Audio (Drama CD)
Size	1444 audio clips
Language	Japanese (JA)
Preprocessing	Tokenized via Qwen3-TTS-Tokenizer-12Hz
Dataset	yeeko/Elaina_WanderingWitch_audio_JA

Model Details

Item	Content
Base Model	Qwen3-TTS-12Hz-1.7B-Base
Fine-tune Method	LoRA (Low-Rank Adaptation)
LoRA Rank	r = 16
LoRA Alpha	32
Target Modules	q_proj, k_proj, v_proj, o_proj
Training Epochs	32

Technical Pipeline

Raw Audio (.mp3/.wav)
    ↓
Qwen3-TTS-Tokenizer-12Hz (encode)
    ↓
train_with_codes.jsonl (token sequences)
    ↓
Qwen3-TTS-12Hz-1.7B-Base + LoRA (r=16, alpha=32)
    ↓
SFT Training (cross-entropy)
    ↓
adapter_model.safetensors

Quick Start

The fine-tuned model has already learned Elaina's voice — just load the model and give text.

import torch
from qwen_tts import Qwen3TTSModel
import soundfile as sf

model = Qwen3TTSModel.from_pretrained(
    "path/to/checkpoint-epoch-32/",
    device_map="cuda:0",
    dtype=torch.bfloat16,
    attn_implementation="flash_attention_2",
)

# Generate directly — no ref_audio, no language needed
wavs, sr = model.generate(
    text="Target Japanese text to generate",
)

sf.write("output.wav", wavs[0], sr)

Available Checkpoints

Checkpoint	Status	Notes
checkpoint-epoch-2	✅
checkpoint-epoch-4	✅
checkpoint-epoch-8	✅
checkpoint-epoch-16	✅
checkpoint-epoch-32	✅	This version
checkpoint-latest	✅	Latest

Fine-tuned with ❤️ using Qwen3-TTS + LoRA

Downloads last month: 35

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support