首页
登录
今天和大家一起玩玩CosyVoice风格指令
操作
  • 举报
  • 只看楼主
  • 发送站内消息给他
2024-08-18 17:22
楼主胶东海盾:大家好啊,我是胶东海盾,今天给大家简单说说CosyVoice的instruct指令,在说之前,我必须先承认,我也是个初学者,我知道的这些都是我看的CosyVoice文档,对不对,大家凑合着看吧。
首先,大家在使用自然语音控制的时候,要选择运行-CosyVoice-300M-Instruct.bat这个文件,因为instruct就是指令的意思,当然,也可以翻译为指导,运行之后,过一会儿就打开了一个网页,界面和运行300m的那个是一样的,这个界面怎么操作,曹总和windows同学都讲过,我就不讲了,直接切入今天的主题。
当打开这个页面之后,在输入合成的文字这个文本框里写好你要合成的内容,tab后面的那些预训练音色列表,还有新增音色列表里的东西都不用选,因为你选了,instruct指令就不起作用了,因为软件会优先调用你训练的音色,当然,文本表情除外,好了,我假设你没选任何音色,这样就可以通过指令调用CosyVoice的内置音色了。
写好要合成的音频文字之后,在下面几个单选按钮中选择自然语音控制,按空格选中,因为只有这个单选按钮选中了,风格指令还有文本指令以及多语种才起作用,否则不行,找到输入instruct的编辑框,我们就在这里写指令,下面我把我所知道的全部列在这里,大家使用的时候要把整句英文复制进去,他的这些风格指令都是一句一句的句子,写好之后,要点生成音频按钮,因为指令推理不支持流式音频,好,大家请看:
第一组,说话者音色控制:
Theo 'Crimson', is a fiery, passionate rebel leader. Fights with fervor for justice, but struggles with impulsiveness
(翻译:西奥(Theo)‘绯红’,是一位火热、充满激情的反叛领袖。他为正义而战,斗志高昂,但容易冲动。)
Kai 'Torrent', is a cool-headed, tactical water mage who plans his moves carefully. A soothing presence with hidden depths
(翻译:凯(Kai)‘激流’,是一位冷静、讲究策略的水法师,仔细规划每一步行动。他是一个具有安抚作用的存在,内心深藏深度。)
Zara 'Wildfire', is an impulsive, fearless firebrand who loves a challenge. Her bravery inspires others, though she often acts recklessly
(翻译:扎拉(Wildfire)‘狂野之火’,是一个冲动而无畏的煽动者,她热爱挑战。她的勇敢鼓舞了他人,尽管她的行为常常是鲁莽的。)
Selene 'Moonshade', is a mysterious, elegant dancer with a connection to the night. Her movements are both mesmerizing and deadly
(翻译:赛琳娜(Selene)‘月影’,是一位神秘、优雅的舞者,与夜晚有着特殊的联系。她的舞姿既令人着迷又致命。)
Priya, the humanitarian doctor, heals wounds of the world with her boundless empathy and skill
(翻译:普莉娅(Priya),这位人道主义医生,用她无尽的同情心和高超的医术治愈着世界的创伤。)
Ivan, the old sea captain, navigates life's storms with timeless wisdom and a heart of gold
(翻译:伊凡(Ivan),这位老船长,用永恒的智慧和一颗善良的心驾驭人生的风暴。)
第二组,风格控制:
A female speaker with normal pitch and normal speaking rate
这是一位音调和欲速正常的女性演讲者。
A female speaker with high pitch, normal speaking rate, and happy emotion
这是一位高音,语速正常,情绪愉悦的女性演讲者。
A male speaker with low pitch, fast speaking rate, and angry emotion
这是一位音调低,语速快,情绪愤怒的男性演讲者。
A female speaker with normal pitch, slow speaking rate, and sad emotion
这是一位音调正常,语速缓慢,情绪悲伤的女性演讲者。
A male speaker with low pitch, slow speaking rate, and fearful emotion
这是一位音调低,语速慢,情绪恐惧的男性演讲者。
A male speaker with low pitch, slow speaking rate, and sad emotion
这是一位音调低,语速慢,情绪悲伤的男性演讲者。
A female speaker with angry emotion
这是一位情绪激动的女性演讲者。
以上的这些,大家只要把那些英文句子复制进instruct编辑框就可以了。
第三组,细腻控制
所谓细腻控制就是在要合成的文本里加入一些语义标签,起到控制语气的作用,比如,在某句话后面加上笑声,或者哪几个字笑着说出来,还有,在某句话后面加上呼吸音,在一句话中,哪几个字要重读等等,这些都可以通过在要合成语音的文本中加入一些标签实现。
加语义标签的方法有两种,一种是把标签放在左右方括号里,表示在当前位置加某个语气,第二种是用小于号和大于号,把标签括起来,就像写html那样,一个开标签,一个关标签,把要改变语气的短语放在两个标签之间。
下面我说一下细腻控制标签都有哪些,顺便给大家举几个例子说明一下这些标签的用法。
laughter
这是加笑声的标签,举个例子:
第一种:
*laughter*有时候,最简单的事情*laughter*能让我们笑得最开心,就像是无意中听到的一个傻笑话*laughter*。
在这句话中,当遇到*laughter*这个标签就有笑声。
第二种:
我问胶东海盾是哪个学校毕业的,他竟然告诉我说他是<laughter>家里蹲大学毕业的</laughter>。
在这句话中的laughter就是用小于号和大于号组成的开关标签控制的,就像html语言那样,一个开标签,一个关标签,这句话中的家里蹲大学毕业的,就是在两个标签之间,这就表示家里蹲大学毕业的是笑着说出来的。
strong
这个标签的用途是把某几个字重读,也就是强调,看一个例子:
你要<strong>好好复习</strong>才能考一个好成绩。
这个标签只有一种写法,就是html写法,其中,好好复习是在两个标签之间,合成之后,好好复习就会被强调。
breath
这个标签的用途是加呼吸,继续看例子:
好好的东西被你弄坏了,*breath*哎,你让我说你点什么好呢!
这句话中,breath写在方括号里,这个标记就这一种写法,就是在当前位置插入一个呼吸声,在这句话中的哎前面加了一个呼吸。
关于语气,还可以加入一些语气词,比如,啊,呵呵,嘿嘿,等等,如果想发出连续的笑声,就多打几个哈字,比如,哈哈哈哈哈哈哈哈。
以上就是我会用的一些标签,还有几个东西,比如情感控制什么的,等我研究明白了在给大家说。
最后补充一点要注意的问题。
第一,用这些功能,必须运行带有instruct的bat文件。
第二,当打开页面之后,一定要选择自然语音控制这个单选按钮,如果选择了预训练音色,只支持中文,连英语都不能正常朗读。
第三,如果使用instruct指令,新增音色列表里必须选择无,instruct指令对新增音色不起作用,如果你用的是新增音色,也就是在新增音色列表里选了某个新增音色,只能用我前面说过的细腻控制标记,也就是在要合成的文本里加的那些语气控制标记。
第四,如果你选择了自然语音控制单选按钮就是为了用语气控制标记,哪怕不用instruct指令,也必须在instruct指令的编辑框里打一个空格,因为当你选择了自然语音控制的时候,instruct编辑框里必须有东西,哪怕是一个空格也行,否则你点了生成音频也不能合成。
第五,当你在输入要合成的文本编辑框里输入文字的时候,想换行,按回车键是不行的,必须使用强制换行快捷键,也就是shift加回车键。
好了,洋洋洒洒的写了这么多,不知道我说明白了没有,水平有限,我也在不断的学习,发这篇帖子的目的就是为了和大家一起玩。
胶东海盾
等级玄铁
积分65
发表2
回复1
0
回复列表
暂无回复
上一页
下一页
前往
页
播放视频
播放音频
选择支付方式
填写收货地址
发送站内消息
回复
修改回复
举报
移动
全局置顶
购买钻石
联系我们
全国服务电话:4000660101
北京市朝阳区管庄杨闸京通辅路南8号院中传北广D区2楼D201
微信扫一扫关注保益悦听微信公众号,享有更多服务
备案信息京ICP备14019265号-6