在ChatGPT掀起人工智能热潮的当下,数据标注作为支持机器学习和人工智能发展的关键环节之一也成为了热门话题。
一方面,人工智能的兴起带来模型训练所用结构化数据的巨大需求,数据标注的重要性逐渐突显。另一方面,人工智能在数据标注领域所取得的突破性进展,也推动数据标注行业从劳动密集型向技术驱动转型,AI辅助标注、自动标注备受关注。
传统的数据标注主要依靠标注员手动标注,输出的数据结构和信息量简单,无法处理高维数据,效率低周期长,标注成本也高。而以ChatGPT为代表的预训练大模型不仅可以对数据进行自动化标注,节省时间和人力成本。同时利用先进算法技术支撑,还能尽可能地保证标注的准确率,特别是对于复杂和大规模的数据集。
标贝科技基于大模型能力的AI自动标注
面向大模型发展的时代趋势,长期致力于为企业提供高质量AI数据服务的标贝科技审时度势,提前瞄定大模型作为新的技术底座赋能,不断对自研的AI数据标注平台进行迭代升级,搭载AI模型的自动化标注能力,更高效地处理高复杂度的数据标注任务,实现规模化数据生产。
标贝科技AI自动标注基于大模型完善的知识储备以及强大的泛化能力,能够实现对于音频、文本、图像和点云等多种数据内容的理解和分析,根据需要对通用场景和定制化场景数据格式化处理和输出,在保证高效处理的前提下,又能够确保标注结果的高准确率。
同时,标贝科技基于大模型的底座,针对特定场景,进行模型的快速调优,实现3D点云、2D图像等场景下,目标检测、目标追踪、车道线识别、可行驶区域识别、图像分割、点云分割等多个方向的自动化标注,极大的提升标注效率和质量,降低人工成本。
●3D点云追踪标注场景
在实际项目中,经常出现不同帧采集的数据截断、遮挡角度变化,或者标注员主观偏差,导致标注效率降低,使得整个标注周期成倍增加等问题。
就此问题,标贝科技基于AI自动标注能力对点云连续帧数据进行预处理,通过滤波、降采样、重采样等操作优化点云文件。然后使用预处理模型进行特征提取,将相同物体进行目标关联匹配,设定同一trackID,以达到对同一物体进行追踪标记。保持数据标注的一致性,减少主观偏差,缩短工期。
●视频车牌追踪场景
标贝科技AI自动标注模型可以支持上百种物体识别,采用多目标追踪算法对每个目标进行唯一标识,并通过目标的特征信息来实现目标连续追踪。将同一物体识别后,再把标注结果赋予同一追踪对象。
例如,在视频追踪对齐车辆并标记出车辆车牌项目中,由于每段视频较长,需要标注的帧数达到几千帧,特别是视频里远处的车辆无法很好的提取特征,使得标注难度大幅提升。
针对以上难点,标贝科技将此项目进行步骤拆解:
(1)模型识别:通过目标检测模型对所需标注车辆进行预识别;
(2)模型追踪:通过特征匹配深度学习追踪等算法,对同一物体在上千帧的数据中标记出同一track;
(3)车牌OCR:找到最清晰的一帧并进行OCR车牌识别,并将这个车牌赋予相同track属性。
●OCR小票识别场景
在对大量不同类型的购物小票的内容进行定位和分类时,由于小票上含有各种干扰字体给标注识别带来一定难度。
标贝科技利用AI模型自动对小票整体进行识别,去除小票上的干扰信息。然后OCR模型算法对小票上的信息进行定位和识别,将识别出的文字内容通过大模型数据理解,分类出文字的商品、价格、编号等属性类别。
●2D图像与视频交互分割场景
平均1.5分钟一段的4K视频,每秒30帧,抽帧后每份作业2000帧+,大量重复类似的分割工作就需要大量的人工成本。这时就需要利用模型能力快速完成标注。
基于深度学习的分割方法,标贝科技通过图片像素分割模型对首帧进行智能分割,然后再将首帧分割结果,通过追踪模型自动向后续目标帧进行追踪对齐。整体过程中,标贝科技利用多目标追踪技术,在场景中对多个物体进行智能追踪,将大量重复性的工作交由模型自动完成。
●ASR长语音标注场景
当语音数据的音频质量较低,又有大量的要划段及转录的内容,在同音字和多音字干扰下,通过输入法打字,速度慢效率低。
标贝科技AI自动标注模型使用VAD能力自动切分,检测语音信号中的有效语音部分,然后基于自动语音识别技术,将语音信号转换为对应文本。
目前,标贝科技已经对数据平台系统做了全面升级,在全栈数据标注场景式中使用AI自动标注的能力,并得到显著成效。相较于过去的纯人工标注,获取同等数量的数据样本,AI自动标注的周期至少可以提效70%以上,大幅降低数据生产成本。
面对未来AI产业的规模化商业落地趋势,数据标注需求急剧上升,同时数据标注场景逐渐向个性化、复杂化的垂类进化。
标贝科技AI自动标注技术依托先进的机器学习算法,能够快速处理大规模、多类型的数据,准确识别数据中的目标,进行高精度的标注。同时在标注过程中,不断根据标注结果与实际结果的差异进行自我修正,调整模型参数,提高标注准确率,为各种垂直场景提供实时、准确的数据支持。
此外,标贝科技还将进一步优化平台工具链,通过算法自动标注+人工校对,做到人机全链路高效结合,实现数据生产闭环流程,全方位提升数据生产及管理流程的效率。