红外同声传译系统的性能指标和设备要求-红外同声传译系统指标
刚拿过一只耳聋发型的链锯,那动静比蚊子还大,坐在旁边听不到一句,我差点当作它没电了。小时候听坏了耳朵,目前才懂那种痛,这要是让外国游客听到,可能比听个新闻还难受。结局呢,目前算法把这句话转成“咔嚓咔嚓”,不少老外直接当作真听到了牙响。
那会儿那台机器刚起步时,语音识别特别笨,别看能把声音转成文字,但要是遇到背景噪音大要么口音重的地方,就转不出来,那简直就是个哑巴。 目前这玩意儿早就不是那会儿那样了。它不光能听懂,还能把声音“翻译”成文字,就连能把听不见的也找出来。
比如有个游客说了一句中文,机器转成了英文,要是背景里有小孩哭闹要么施工声,它就能把那个声音单独拎出来,配上字幕,告诉你这小孩在说啥,哪怕他说得有点含糊。
这是早期那种系统做不到的。目前的系统,比如我们用的那款,不管讲话人是男是女,有没有口音,声带盖没盖,只要是在这个房间里说的,它都能抓得住。它不是靠人猜,是靠算法把声音里的特征挑出来。有个数据挺有意思,它能把背景噪音分离出来的准率能达到百分之八十以上,这意味着它能把闲聊声、空调声、车流声这些干扰给过滤掉,只留给人听的。 还有啊,这事儿那会儿挺让人头疼的,就是那个“讲话气”。有的游客讲话带口音,有的讲话语速快,有的讲话声音小,这那会儿都让系统瞎猜,结局有时候就错。目前算法能搞明白,哪怕一个讲话人只是在跟旁边的人小声议论,系统也能捕捉到那个特定的频率,跟其他人的声音区分开。有个案例特别典型:之前有个会议,外国参会者用英语交流,但现场有好多嘈杂声,翻译结局时常乱成一团,内容都抓不住。
后来换了系统,用了实时语音识别技术,翻译结局贼清楚,连那些背景里的嘈杂声讲话都录下来了,撇脱他们核对。
这就像是给会议装了一个超级保镖,不管外面多吵,咱只管看地图上的名字。 自然,这系统也不是神,它也有脾气。
有时候它会把两个声音混在一起,比如两个人离得忒近,声音忒近,它分不清哪一个是哪位,这时候就得靠人工去点一下。
还有个数据说明,它在处理复杂环境下的识别率大约在百分之七十五到八十之间,遇到极端环境可能就会掉点,但总体来说还是能用的。它的优势是速度快,能一次性翻译好几个段落,就像个翻译机一样,不用像那会儿那样每句都等。 不过话说回来,这机器也不是万能的,它毕竟不是人。
有时候它还是会犯迷糊,比如不知道啥时候该停,要么对某些特定词汇的发音有点误解。
比如它可能当作“那个”是指前面刚提到的人,而不是指前面的那个物体。
这时候就需求人工去纠正。并且,它对环境的要求也蛮高的,温度忒高、忒冷,要么湿度忒大,它可能就得关机,要么识别率会大打折扣。
那会儿有些系统就出于这个缘由时常坏,目前改进得挺好的,稳定性提升了不少,大局部时候能连续工作好几个小时。 总的来说,目前的同声传译系统已经大大改善了那会儿听不出来的状况,特别是在处理噪音和口音方面,进步明显。它不再是那种只能听个大约的机器,而是能转文字、能区分声音、能辅助辨别的工具。别看还有大量细节需求打磨,比如对某些方言的识别还不够完美,但它已经充足让绝大多数人用上了,大大提升了沟通效率,也让非母语人士能更撇脱地交流。
声明:演示网站所有内容,若无特殊说明或标注,均来源于网络转载,仅供学习交流使用,禁止商用。若本站侵犯了你的权益,可联系本站删除。
