吴浩笑着摇了摇头道:“不,它还只是一个未完成品,这上面还有很多问题需要我们解决的。
比如刚才对话中,它对于模糊性语境的理解处理就比较困难。”
“模糊性语境?”
邹小东愣了一下,很快明白过来道:“这个好像咱们真人理解起来都比较困难,更何况机器程序了呢。
老大,我有些不太理解。语音识别和语音对话这方面目前大部分科技公司都在做,而且成果也不错。
这些语音软件对于我们正常说话的识别程度也很高,基本上能达到百分之九十九以上。
但是这些软件的反应速度远没有我们这套技术的识别速度快,理解能力也没有它强,联想处理能力也比不上。
另外,在语音对话方面,你是怎么做到的,让机器的语言能这么接近真人声音。
要知道人类的听觉还是很灵敏,是人还是机器程序声音还是很快能够区分出来的。”
吴浩听到邹小东的一大堆问题,冲他反问道:“你觉得真人声音和AI语音最大的区别是什么?”
邹小东想了一下,然后答道:“少了平仄顿挫?”
吴浩摇了摇头道:“这不是最关键的,事实上目前市面上的一些语音软件已经能够进行简单的平仄顿挫感了。”
“那是……”
吴浩看着邹小东那百思不得其解的样子,笑着说道:“感情,目前市面上所有的语音程序软件都少了感情。”
“感情,这开什么玩笑,程序怎么可能有感情,这是人才有的啊。”邹小东摇头无法理解道。
吴浩笑了笑,然后控制电脑在大屏幕上显示出结构示意图道:“与其说是感情,不如说是语言温度。
我们在说话的时候,对方能够清楚的感知到我们说话时候的情绪变化,这是感情,这也是语言温度。
而语言程序呢,则是按照固定的定式来进行反应。所以它无法理解每句话的温度,自然在生成语音方面也就没有温度了。
我们要做的是在语音识别定式过程中,加入对于语言词汇环境的理解,并从不同的音调中分析出话语的温度以及说话人的情绪变化。”
“我还是不能理解,人在说话时候所表现出来的情绪千变万化,程序如何能够捕捉出来。要知道有时候语言和语气上的轻微变化,就能表现出截然不同的两种意思和两种情绪,机器如何分辨。”邹小东说出自己的疑问道。
吴浩笑着边演示屏幕中的内容,边冲着他回道:“这就运用到AI技术了,每个人的语言语调不同,情绪表达方面也是千变万化。如果按照传统方式,我们需要对于这些千变万化的语言语调语境进行抓取收集分析,从而进行定义。如果是这样的话,那工作量可就太大了。
所以AI技术的学习进化能力就让我找到了思路,我们可以通过抓取互联网上那爱心海量的语音信息来训练出一套基本的AI语音程序。
当然,这只是基本程序样本,我们需要根据使用者的习惯进行相应的调整适应。让程序来学习适应使用者,使用者使用的时间越长,AI识别程序的识别理解程度也就越准确。”
说到这,吴浩笑道:“这其实和我们真人在现实社会中相处的过程很像,两个陌生人认识相处后,双方都在逐渐摸清适应对方。
时间越久,双方间也就越熟悉。甚至一方一个简单的词,手势或者眼神,另一方都能准确的接收理解,这就是所谓的默契。
而我们要做的则就是培养程序和人的默契,但使用者是很难改变的,只能潜移默化的影响。所以我们得从程序软件开始,让它来适应使用者,并在潜移默化下改变使用者。
只有这样,人机交互才会更加默契。
这也是之前我在与10对话的时候,它无法理解我的模糊性语境的原因。它没有适应我的说话习惯,所以没有理解我所讲的那几句模糊性话语内容是什么意思。
像什么,几个,多少,那么,哪里,随意,这些不确定性的模糊性词语,程序很难理解处理。而这就需要我们给这些词语进行基本的定义,这种定义并不能死板僵硬,还得接合使用者的语境进行相应的修改变化。”
说完这些,吴浩看着邹小东正色道:“也只有程序理解了我们真人话中的情绪温度后,程序才能模拟出类似于真人说话的语音。”
“不管怎么说,这都是在AI语音技术领域一项重大的突破。我想这项技术一经发布,肯定会震撼全世界的,它可是代表这智能语音时代的真正到来。
说实话,我都有些迫不及待的。”邹小东舔了下有些干涩的嘴唇兴奋道。
吴浩摆了摆手道:“没有你说的那么夸张,但在技术上面的确是一项重大突破。”
“老大,这项技术你是打算直接面向大众消费市场,还是与企业用户进行合作,售卖技术