随着科技的不断发展,人工智能产业正在加速壮大,成为全球范围内备受瞩目的新兴产业。据2023年10月20日的国务院新闻办公室统计,我国的人工智能核心产业规模不断增长,企业数量超过4400家。
数据标注是人工智能和机器学习领域中不可或缺的一环,它通过对原始数据进行分类、标记或注释,为机器学习算法提供了训练数据,使得算法能够更好地理解和处理数据,从而为解决实际问题提供更准确、更高效的解决方案。
一、什么是数据标注?
数据标注即通过分类、画框、标注、注释等,对图片、语 音、文本、视频等数据进行处理,标记对象的特征,以作为机器学习基础 素材的过程。机器学习需要反复学习以训练模型和提高精度,同时自动驾驶、语言大模型、AI医疗、等各大应用场景都需要标注数据。
二、数据标注的分类
对于数据标注,按照不同的分类标准,可以有不同划分。以标注对象作为分类基础,可将数据标注划分为图像标注、语音标注、文本标注以及视频标注。
1.图像标注
图像标注是一个将标签添加到图像上的过程。图像标注类型包括拉框、语义分割、实例分割、 目标检测、图像分类、关键点、线段标注、文字识别转写、点云标注、属性判断等。
图像标注在人工智能与各行各业应用相结合的研究过程中扮演着重要的角色:
(1)视觉搜索引擎,在传统搜索引擎中,用户需要输入关键字来搜索相关的内容,但在视觉搜索引擎中,用户输入的是图像,系统会返回与该图像相关的信息。在这个过程中,图像标注可以帮助视觉搜索引擎更好地理解和解释图像。
(2)电商行业,在电商行业中,一些时尚电商可以根据消费者上传的衣物照片,识别图片中的款式、颜色、面料等属性,来推荐更适合用户的购物选项。
2.语音标注
语音标注是把语音中包含的文字信息、各种声音“提取”出来,再进行转写或者合成,从而用作人工智能机器学习数据。语音标注类型包括 ASR 语音转写、语音切割、语音清洗、情绪判定、声纹识别、音素标注、韵律标注、发音校对等。
语音标注的应用场景:
(1)语音输入
语音识别常见的应用是语音输入,可以识别出我们说话的内容,将语音转换为文字录入,这大大提高了效率。语音输入可摆脱生僻字和拼音障碍,使用语音即时输入。略带口音的普通话、粤语四川话方言、英文、法语,均可有效识别,比如现在搜索引擎支持语音输入,还有很多APP也开始支持语音输入,不需要打字也可以完成搜索、社交。
(2)声纹识别
声纹识别是生物识别技术的一种,也称为说话人识别,包括说话人辨认和说话人确认。声纹识别就是把声信号转换成电信号,再用计算机进行识别。例如利用声纹密码进行身份认证,登陆,授权,打卡、公安身份特征存储、语音唤醒等。
3.文本标注
文本标注是对文本进行特征标记,为其打上具体的语义、构成、语境、目的、情感等原数据标签,主要用于自然语言处理。自然语言处理是人工智能的分支学科,在满足自然语言处理不同层次需要的过程中,对文本数据进行标注处理是关键环节。通过语句分词标注、语义判定标注、文本翻译标注、情感色彩标注、拼音标注、多音字标注、数字符号标注等,可获得高准确率的文本语料。
文本标注的应用场景非常多:比如常见的机器人客服、翻译,信息自动化采集和生成等等。
4.视频标注
视频标注以图片帧为单位,对视频素材中的目标对象进行跟踪,对包括道路、车辆、行人等在内的目标物的特征信息、结构信息、语义信息等进行标记,从而形成训练数据集。与图像标注相比,视频标注不只限于一张图片,而是对某段时间内连续的一系列图像数据进行标记和汇总,生成的内容丰富而直观。按照具体应用类型,视频标注可进一步划分为视频追踪、标签分类、视频打点以及视频信息提取。
视频标注目前可应用于:互联网娱乐、智能家居、智能医疗、新零售、安防、自动驾驶等领域。
三、数据标注流程概述
数据标注的质量直接关系到模型训练的优劣程度,因此数据标注需要 建立一套既定的数据标注流程,对图像、语音、文本、视频等进行有序而 有效的标注。