您当前的位置:主页 > 新闻资讯 > 行业新闻 >

粤语与讯飞、百度基本持平;

发布时间:2018-09-13 03:56 点击次数:

  语音合成又称文语转换技术(简称TTS),能将任意文字转化为清晰自然、富有表现力的语音朗读出来,相当于给机器装上了人工嘴巴。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术,是信息处理领域的一项前沿技术,受到了国内外各大科技公司的争相研究,被广泛应用在智能客服、新闻播报、语音导航等众多场景之中。

  23种音色:支持离/在线种音色;合成效果处于业内领先水平

  个性化合成:使用少量数据(10min)即可生成该说话人的合成音色;业内领先水平

  情感迁移:可实现说话人风格迁移;业内首创技术,领先行业水平

  搜狗的语音合成支持多种音色选择,通过少量数据即可生成说话者自己的合成音色,还可实现说话人风格的迁移。如使用王小川14分钟语音训练数据加上庞麦郎版《我的滑板鞋》,即可合成王小川音色演唱的《我的滑板鞋》。

  2016年5月,“搜狗明医”垂直搜索上线,聚合权威的知识、医疗、学术网站,旨在把权威、真实有效的医疗信息提供给用户。

  搜狗明医提供包括维基百科、知乎社区、学术期刊、丁香园等网站的权威内容,以及正规大型医院、疾控中心、世卫组织及科研机构的专业内容,并与国外知名搜索公司合作提供国际前沿的英文学术论文。

  搜狗明医智能自诊分诊功能,首创引入了基于人工智能技术的智能诊断助手,模拟医生与病人对话的模式与用户进行病情沟通,实现更自然、智能的交互形式。

  现场技术体验包括了语音纠错、绕口令等AI互动游戏。绕口令游戏可以让用户亲身感受搜狗语音转文字功能的准确性和趣味性。

  搜狗语音识别是基于Deep Neural Transducer Model的深度学习端到端语音识别技术,语音识别准确率超98%,目前搜狗手机输入法日均语音输入调用次数超过3亿次,是中国最大的语音识别引擎。

  语种与方言:支持英日韩等多语种识别,提供粤语等方言识别;准确率均在90%以上,其中英日韩识别能力领先讯飞、百度等竞品,低于谷歌,粤语与讯飞、百度基本持平;

  语音增强:借助搜狗自有麦克风阵列技术与基于深度学习的降噪能力,具备完整的远场/强噪声场景下的语音识别解决方案;支持实时语音听写和离线;人性化交互:业界首创语音修改能力;具备领先业界的智能断句、标点预测、识别结果顺滑等能力。其中,因为当前人工智能技术仍无法让语音识别达到100%的准确率,对此搜狗业内首创语音修改功能,通过自然语言交互的形式修改所输入的文字,比‘将弓长张改为立早章’等,不仅解决了语音识别准确率最后2%的差距,同时解放了用户双手,提高了用户输入效率。

  搜狗AI人脸迁移技术结合了人脸识别、三维人脸拟合、表情控制等多项前沿技术,只需单张人物图像,就能瞬间完成换脸体验,可实现面部实时动态变化效果。

  该项技术可以运用在直播、视频互动、影视制作以及教育等丰富场景中,搜狗正在不断探索这些AI新技术的应用场景,建立其与未来智能生活的连接点。

  唇语识别技术是一项集机器视觉与自然语言处理于一体的世界前沿技术,能直接从有人讲话的视频中识别出讲话内容。首创复杂端到端深度神经网络技术,通过面部识别、唇形特征提取并输入到模型中识别出对应的发音,输出结果。经过数千小时的真实唇语数据训练,搜狗“唇语识别”系统在非特定人开放口语测试集上,该系统达到 60%以上的准确率,在垂直场景命令集如车载、智能家居等场景下甚至已经达到 90%的准确率。

  2017年第四届乌镇世界互联网大会,搜狗中文唇语识别技术进行公开演示,这也是全球第一个非特定人群的公开演示。

  该技术应用潜力巨大,实现复杂场景下因视觉混合输入,保证交互稳定;在残障教育、身份识别、公共安全等场景中将大有作为。

  搜狗虚拟主播背后的技术结合了人脸识别、人脸建模、语音合成以及深度学习等多项前沿技。

 


点击关闭
  • 客服1