楼主管理员永恒的海:我和大家一样,期待有一款好听悦耳的离线语音库。开开心心的调用读屏不好吗?愿望很美好,现实很骨感。昨天和专业语音库厂商的负责人进行了一番攀谈,,结果并不乐观。随着人工智能普及,AI主播的推广,凡是做语音库的厂家,都开始转入了在线语音合成,有情感,有思想,尽量模拟真人。国内顶尖的语音合成公司,包括科大讯飞,思必驰,甚至后起之秀火山,都开始专注于打造属于自己的在线语音合成系统。按合成字数付费,成为了未来的发展趋势。离线语音,已经逐步被边缘化,主要原因是,这些厂商的离线语音库没有更多的使用场景,除了读屏公司以外,就是一些单片机芯片的需求,然而,这部分需求占比很小,研发离线语音合成技术,所投入的资金与市场销售不成正比。对于,只需要简单语音合成的硬件设备,例如电梯,用语音库调用,还不如直接通过录音调用更划算。
在线语音和离线语音最大差别在于,在线语音合成速度慢,语速慢,返回结果慢,大家都知道微软小小好听,可我们一旦给它加速到非常快的语速,声音也变质了,且,在线语音的响应速度,是无法达到盲人用户操作手机或电脑的速度需求。说白了,只有盲人群体,才有对离线语音库快速朗读的需求,盲人群体对于厂家来说,又是小众群体,人家不可能为了咱们,专门研发一套好听、悦耳的离线语音,这基本上是不可能实现的。那么,问题就来了,我们对离线语音库质量的高标准需求,与厂商的理念产生了严重冲突,换言之,即使拿着钞票,也找不到真正能让大家满意的离线语音库。去年,保益公司打算另辟蹊径,与思必驰进行了接触,他们对离线语音库的报价是五十万人民币,这还是友情报价,站在公益角度然而,我们对比后,离线语音库的质量一般般,根本无法达到我们的听觉标准。对于当前的离线语音,我们也反复跟讯飞公司沟通,他们的答复是:目前的离线语音库就是这样的声音质量,他们也没有更好的解决方案,除非换成在线语音合成,何况,他们的主页,已经不再离线语音库上发力了,基本转向了在线语音合成技术,不客气的说,我认为,国内的在线语音合成,比微软的在线合成,还是有一定差距的。那,我们换成在线语音合成是否可以呢,答案是可以,只要能忍受比较慢的速度,另外还要承担高额的合成费用,微软的在线合成技术,是差不多20美金上下,给五十万字的合成,我们简单算一笔账,20美金,折合人民币130元,能合成五十万字,我们一年听的语音库合成字数何止是五十万字,起码在五百万字以上,那问题就来了,一年的语音库开销就在一千块人民币左右,换成我,也无法接受,所以这就充分说明了,有时候,现实情况,并不能以我们的意志而转移,盲人只是小众群体,社会企业不可能为了我们而改变什么。包括讯飞公司,也不会因为这一个小众群体,对离线语音库,做更多的优化。所以,我们只能主动去适应现状,或许听着听着就习惯了。大家的吐槽我也看到了,说实话,我们能优化的质量很有限,声音小,可以想办法处理下,但,对于音质的好与坏,我们无能为力,科大给什么就只能是什么。