Step-Audio is an open-source platform for intelligent speech interaction, supporting multilingual dialogues in Chinese, English, and Japanese. 

With a 130B multimodal model, it captures emotions, dialects, and vocal styles. 

Explore its features and models for high-quality speech generation here: https://huggingface.co/stepfun-ai/Step-Audio-Tokenizer

Exciting development in speech interaction! The 130B multimodal model for Step-Audio indeed offers a robust solution for multilingual dialogues. Great for enhancing user experiences across different languages and dialects.