formosan-f5-tts

Paused

App Files Files Community

txya900619 commited on Aug 19

Commit

31852bc

1 Parent(s): 5e38562

feat: change layout for ithuan demo page

Browse files

Files changed (3) hide show

DEMO.md +3 -13
app.py +140 -110
configs/models.yaml +0 -4

DEMO.md CHANGED Viewed

@@ -2,16 +2,6 @@
 ILRDF Formosan Text-To-Speech System
-## 研發團隊
-- [李鴻欣 Hung-Shin Lee](mailto:[email protected])
-- [陳力瑋 Li-Wei Chen](mailto:[email protected])
-- [意傳科技](https://ithuan.tw/)
-- [原住民族語言研究發展基金會](https://www.ilrdf.org.tw/)
-## 特別致謝
-- [聯和科創](https://www.104.com.tw/company/1a2x6bmu75)
-- [Pipalofasaran to Sowal no Pangcah/'Amis 台灣阿美族語言永續發展學會](https://www.facebook.com/groups/ypspt/about)
-- [台灣太魯閣族語言發展學會](https://qkktt.com/)
-- [台灣原住民族賽德克族語言文化學會](https://www.facebook.com/3S3TBL/)
-- 族語老師們

 ILRDF Formosan Text-To-Speech System
+\
+本系統為初步開發成果的試用版本，仍處於**測試階段**。**合成結果可能在發音、語調或流暢度存在不盡理想之處，甚至可能出現錯誤**。
+我們誠摯邀請您試用本系統，並請務必謹慎**檢視合成結果**，切勿直接作為正式或關鍵資訊使用，感謝您的理解與支持。

app.py CHANGED Viewed

@@ -194,94 +194,107 @@ demo = gr.Blocks(
             "sans-serif",
         )
     ),
 )
 with demo:
     with open("DEMO.md") as tong:
         gr.Markdown(tong.read())
-    with gr.Row():
-        with gr.Column():
-            model_drop_down = gr.Dropdown(
-                models_config.keys(),
-                value=DEFAULT_MODEL_ID,
-                label="模型",
-            )
-            language = gr.Dropdown(
-                choices=g2p_object.keys(),
-                label="語言",
-                value="阿美_秀姑巒",
-            )
-            ref_audio_input = gr.Audio(
-                type="filepath",
-                waveform_options=gr.WaveformOptions(
-                    sample_rate=24000,
-                ),
-                label="Reference Audio",
-            )
-            ref_text_input = gr.Textbox(
-                value="",
-                label="Reference Text",
-            )
-            gen_text_input = gr.Textbox(
-                label="Text to Generate",
-                value="",
-            )
-            generate_btn = gr.Button("Synthesize", variant="primary")
-            with gr.Accordion("Advanced Settings", open=False):
-                remove_silence = gr.Checkbox(
-                    label="Remove Silences",
-                    info="The model tends to produce silences, especially on longer audio. We can manually remove silences if needed. Note that this is an experimental feature and may produce strange results. This will also increase generation time.",
-                    value=False,
                 )
-                speed_slider = gr.Slider(
-                    label="Speed",
-                    minimum=0.3,
-                    maximum=2.0,
-                    value=1.0,
-                    step=0.1,
-                    info="語速（越小越慢）",
                 )
-                nfe_slider = gr.Slider(
-                    label="NFE Steps",
-                    minimum=4,
-                    maximum=64,
-                    value=32,
-                    step=2,
-                    info="Set the number of denoising steps.",
                 )
-                cross_fade_duration_slider = gr.Slider(
-                    label="Cross-Fade Duration (s)",
-                    minimum=0.0,
-                    maximum=1.0,
-                    value=0.15,
-                    step=0.01,
-                    info="Set the duration of the cross-fade between audio clips.",
                 )
-        with gr.Column():
-            audio_output = gr.Audio(label="Synthesized Audio")
-            spectrogram_output = gr.Image(label="Spectrogram")
     @gpu_decorator
-    def basic_tts(
-        model_drop_down: str,
         language: str,
-        ref_audio_input: str,
-        ref_text_input: str,
         gen_text_input: str,
-        remove_silence: bool,
-        cross_fade_duration_slider: float,
-        nfe_slider: int,
-        speed_slider: float,
     ):
-        ref_text_input = ref_text_input.strip()
-        if len(ref_text_input) == 0:
-            raise gr.Error("請勿輸入空字串。")
         gen_text_input = gen_text_input.strip()
         if len(gen_text_input) == 0:
@@ -301,53 +314,70 @@ with demo:
             ref_audio_input,
             ref_text_input,
             gen_text_input,
-            models_config[model_drop_down],
-            remove_silence,
-            cross_fade_duration=cross_fade_duration_slider,
-            nfe_step=nfe_slider,
-            speed=speed_slider,
         )
-        return audio_out, spectrogram_path
-    generate_btn.click(
-        basic_tts,
         inputs=[
-            model_drop_down,
-            language,
-            ref_audio_input,
-            ref_text_input,
-            gen_text_input,
-            remove_silence,
-            cross_fade_duration_slider,
-            nfe_slider,
-            speed_slider,
         ],
-        outputs=[audio_output, spectrogram_output],
     )
-    def get_examples_by_language(language):
-        if language not in examples_config:
-            return []
-        return [
-            [refs_config[ex["ref"]]["wav"], refs_config[ex["ref"]]["text"], ex["text"]]
-            for ex in examples_config[language]
-        ]
-    examples = gr.Examples(
-        get_examples_by_language(language.value),
-        label="範例",
-        inputs=[
             ref_audio_input,
             ref_text_input,
             gen_text_input,
-        ],
-    )
-    language.change(
-        lambda language: gr.Dataset(samples=get_examples_by_language(language)),
-        language,
-        examples.dataset,
     )
 demo.launch()

             "sans-serif",
         )
     ),
+    js="""
+    function addButtonsEvent() {
+        const buttons = document.querySelectorAll("#head-html-block button");
+        buttons.forEach(button => {
+            button.addEventListener("click", () => {
+                navigator.clipboard.writeText(button.innerText);
+            });
+        });
+    }
+    """,
 )
 with demo:
     with open("DEMO.md") as tong:
         gr.Markdown(tong.read())
+    gr.HTML(
+        "特殊符號請複製使用：<button>é</button> <button>ṟ</button> <button>ɨ</button> <button>ʉ</button>",
+        padding=False,
+        elem_id="head-html-block",
+    )
+    with gr.Tab("預設語者"):
+        with gr.Row():
+            with gr.Column():
+                default_speaker_language = gr.Dropdown(
+                    choices=g2p_object.keys(),
+                    label="選擇語言",
+                    value="阿美_秀姑巒",
+                )
+                def get_refs_by_language(language: str):
+                    return [r for r in refs_config.keys() if r.startswith(language)]
+                default_speaker_refs = gr.Dropdown(
+                    choices=get_refs_by_language(default_speaker_language.value),
+                    label="選擇配音員",
+                    value=get_refs_by_language(default_speaker_language.value)[0],
+                )
+                default_speaker_gen_text_input = gr.Textbox(
+                    label="輸入文字（上限 300 字元）",
+                    value="",
+                )
+                default_speaker_generate_btn = gr.Button("開始合成", variant="primary")
+            with gr.Column():
+                default_speaker_audio_output = gr.Audio(label="合成結果")
+    with gr.Tab("自定義語者"):
+        with gr.Row():
+            with gr.Column():
+                custom_speaker_language = gr.Dropdown(
+                    choices=g2p_object.keys(),
+                    label="選擇語言",
+                    value="阿美_秀姑巒",
                 )
+                custom_speaker_ref_text_input = gr.Textbox(
+                    value=refs_config.get(f"{custom_speaker_language.value}_1", {}).get(
+                        "text", ""
+                    ),
+                    label="錄製下方句子或上傳與句子相符的音檔",
                 )
+                custom_speaker_audio_input = gr.Audio(
+                    type="filepath",
+                    waveform_options=gr.WaveformOptions(
+                        sample_rate=24000,
+                    ),
+                    label="錄製或上傳",
                 )
+                custom_speaker_gen_text_input = gr.Textbox(
+                    label="輸入合���文字（上限 300 字元）",
+                    value="",
                 )
+                custom_speaker_generate_btn = gr.Button("開始合成", variant="primary")
+            with gr.Column():
+                custom_speaker_audio_output = gr.Audio(label="合成結果")
+    default_speaker_language.change(
+        lambda lang: gr.Dropdown(
+            choices=get_refs_by_language(lang),
+            value=get_refs_by_language(lang)[0],
+        ),
+        inputs=[default_speaker_language],
+        outputs=[default_speaker_refs],
+    )
     @gpu_decorator
+    def default_speaker_tts(
         language: str,
+        ref: str,
         gen_text_input: str,
     ):
+        ref_text_input = refs_config[ref]["text"]
+        ref_audio_input = refs_config[ref]["wav"]
         gen_text_input = gen_text_input.strip()
         if len(gen_text_input) == 0:
             ref_audio_input,
             ref_text_input,
             gen_text_input,
+            models_config[DEFAULT_MODEL_ID],
         )
+        return audio_out
+    default_speaker_generate_btn.click(
+        default_speaker_tts,
         inputs=[
+            default_speaker_language,
+            default_speaker_refs,
+            default_speaker_gen_text_input,
         ],
+        outputs=[default_speaker_audio_output],
     )
+    custom_speaker_language.change(
+        lambda lang: gr.Textbox(
+            value=refs_config.get(f"{lang}_1", {}).get("text", ""),
+        ),
+        inputs=[custom_speaker_language],
+        outputs=[custom_speaker_ref_text_input],
+    )
+    @gpu_decorator
+    def custom_speaker_tts(
+        language: str,
+        ref_text_input: str,
+        ref_audio_input: str,
+        gen_text_input: str,
+    ):
+        ref_text_input = ref_text_input.strip()
+        if len(ref_text_input) == 0:
+            raise gr.Error("請勿輸入空字串。")
+        gen_text_input = gen_text_input.strip()
+        if len(gen_text_input) == 0:
+            raise gr.Error("請勿輸入空字串。")
+        ignore_punctuation = False
+        ipa_with_ng = False
+        ref_text_input = text_to_ipa(
+            ref_text_input, language, ignore_punctuation, ipa_with_ng
+        )
+        gen_text_input = text_to_ipa(
+            gen_text_input, language, ignore_punctuation, ipa_with_ng
+        )
+        audio_out, spectrogram_path = infer(
             ref_audio_input,
             ref_text_input,
             gen_text_input,
+            models_config[DEFAULT_MODEL_ID],
+        )
+        return audio_out
+    custom_speaker_generate_btn.click(
+        custom_speaker_tts,
+        inputs=[
+            custom_speaker_language,
+            custom_speaker_ref_text_input,
+            custom_speaker_audio_input,
+            custom_speaker_gen_text_input,
+        ],
+        outputs=[custom_speaker_audio_output],
     )
 demo.launch()

configs/models.yaml CHANGED Viewed

@@ -1,5 +1 @@
 all-formosan-v2-step-843031: ${load_f5tts:hf://ithuan/f5-tts-formosan-all-finetune-v2/model_843031.safetensors,hf://ithuan/f5-tts-formosan-all-finetune-v2/vocab.txt,false,false}
-all-formosan-step-1081600: ${load_f5tts:hf://ithuan/f5-tts-formosan-all-finetune/model_1081600.safetensors,hf://ithuan/f5-tts-formosan-all-finetune/vocab.txt,false,false}
-all-formosan-step-811200: ${load_f5tts:hf://ithuan/f5-tts-formosan-all-finetune/model_811200.safetensors,hf://ithuan/f5-tts-formosan-all-finetune/vocab.txt,false,false}
-all-formosan-step-432640: ${load_f5tts:hf://ithuan/f5-tts-formosan-all-finetune/model_432640.safetensors,hf://ithuan/f5-tts-formosan-all-finetune/vocab.txt,false,false}
-all-with-trv-step-254016: ${load_f5tts:hf://united-link/f5-tts-ami-finetune-with-ithuan-trv/model_254016.safetensors,hf://united-link/f5-tts-ami-finetune-with-ithuan-trv/vocab.txt,true,true}


1	all-formosan-v2-step-843031: ${load_f5tts:hf://ithuan/f5-tts-formosan-all-finetune-v2/model_843031.safetensors,hf://ithuan/f5-tts-formosan-all-finetune-v2/vocab.txt,false,false}