实时语音识别(Real-time ASR),将连续的音频流实时转换成文本,语音识别更快。可应用于直播实时字幕、会议实时记录、即时文本生成等场景。功能特性文本时间戳为音频转换结果生成特定的时间戳,从而通过搜索文本即可快速找到对应的原始音频片段智能断句通过提取上下文相关语义特征,并结合语音特征,智能划分断句及添加标点符号,提升输出文本的可阅读性中英文混合识别支持在中文句子识别中可夹带英文字母、数字等,从而实现中、英文以及数字的混合识别语言支持支持中文普通话,含带方言口音的普通话、方言(四川话、上海话、粤语)识别即时输出识别结果连续识别语音流内容,即时输出结果,并可根据上下文语言模型自动校正自动静音检测对输入语音流进行静音检测,识别效率和准确率更高应用场景直播实时字幕将视频直播或现场直播中的音频实时转为字幕,为观众提供更高效的观会体验,方便对内容进行管控优势速度快实时识别直播语音内容识别准确语音识别准确率高会议实时记录将视频或电话会议中的音频实时转为文字,可实时校核、修改及检索转写会议内容,提高会议效率优势高效便捷=快速进行会议记录识别准确语音识别准确率高即时文本录入手机APP上实时录音并即时提供转写的文本,例如语音输入法等,方便后期文字处理和内容存档,省去记录的人力和时间成本,大幅提升了转换效率优势高效便捷快速记录音频内容不间断识别可对大于60秒的长语音数据流不间断识别
实时语音识别(Real-time ASR),将连续的音频流实时转换成文本,语音识别更快。可应用于直播实时字幕、会议实时记录、即时文本生成等场景。
文本时间戳
为音频转换结果生成特定的时间戳,从而通过搜索文本即可快速找到对应的原始音频片段
智能断句
通过提取上下文相关语义特征,并结合语音特征,智能划分断句及添加标点符号,提升输出文本的可阅读性
中英文混合识别
支持在中文句子识别中可夹带英文字母、数字等,从而实现中、英文以及数字的混合识别
语言支持
支持中文普通话,含带方言口音的普通话、方言(四川话、上海话、粤语)识别
即时输出识别结果
连续识别语音流内容,即时输出结果,并可根据上下文语言模型自动校正
自动静音检测
对输入语音流进行静音检测,识别效率和准确率更高
应用场景
直播实时字幕
将视频直播或现场直播中的音频实时转为字幕,为观众提供更高效的观会体验,方便对内容进行管控
优势
速度快
实时识别直播语音内容
识别准确
语音识别准确率高
会议实时记录
将视频或电话会议中的音频实时转为文字,可实时校核、修改及检索转写会议内容,提高会议效率
高效便捷
=快速进行会议记录
即时文本录入
手机APP上实时录音并即时提供转写的文本,例如语音输入法等,方便后期文字处理和内容存档,省去记录的人力和时间成本,大幅提升了转换效率
快速记录音频内容
不间断识别
可对大于60秒的长语音数据流不间断识别