Download as docx, pdf, or txt
Download as docx, pdf, or txt
You are on page 1of 4

数据标注规范

1. 有效性判断
对于整段合格的语音需按句截取进行标注,出现以下情况的判定为单句不合格不需要

进行截取:

1) 一句话中两个人说话重叠且声音大小接近,重叠部分较多,则标注为无效语音;

若重叠部分较少(仅一两个字),并且能听清主说话人的内容的正常转写;

2) 一句话有听不清楚的部分,不能判断内容的情况下,则该句无效;

3) 一句话有很强的噪音(环境噪音,设备噪音)导致听不清主说话人内容,则该句

判定为无效;

4) 一句话中存在丢帧的情况,则该句判定为无效;

5) 一句话如果不是正常人声(机器客服、合成声、电视广播声),则该句判定为无

效;

6) 一句话中若包含非本语言部分,则该句判定为无效;

7) 一句话中若涉及到敏感信息的(政治敏感、宗教敏感、色情暴力)的情况,则该

句判定为无效

2. 有效语音截取
1) 标注人员需要考虑语意连贯,以句为单位进行截取,太长的句子可以截取成分句,

每句最长不要超过 8 秒,但也不要太短。根据标注经验,每个自然语言段平均在

5-6 秒即可;

2) 每个时间边界的最佳位置在波形的最低点;

3) 不同说话人的语音不能截取在同一句中;

4) 截取时做标注的语音段周围尽量留 0.2~0.3 秒静音段,如本身没有这么长静音段

的情况不强求。尽可能截取没有突发噪音的语音段,可以为了避开突发噪音,而

缩短语音前后的预留时间,但不能出现切音的情况;

5) 只有一个词表示应答的,也需要截取,能相邻句子合并的尽量合并。

6) 若一句话因说话人停顿导致静音段在 2s 以上的,需截取成两个分句,不用考虑句

意;若停顿时间在两秒以下且单句时长不超过 8s 的截成一句。

7) 一个人说话中间停顿不超过两秒,中间停顿有噪音,截取后语句不连贯,语义不

完整可以不拆分

3. 说话人标识
同一段中不同说话人应用不同身份 id 标明,并标记说话人性别

4. 内容转写
标注人员需根据听到的音频进行内容转写,要求转写内容必须和听到的语音完全一致,

不能多字、少字、错字。一般准则如下:

1) 大小写:如果这个单词通常首字母大写的话,就按正常书写习惯去转写例如:

China,Microsoft

2) 数字:文本中出现数字,不能直接转写阿拉伯数字,要转写成该语种的文字写法。

原文 转写

我今年 15 岁了 我今年十五岁了

我的手机尾号是 6543 我的手机尾号是六五三四

I’m 15 years old I’m fifteen years old

3) 拼读类单词:

字母大写以空格隔开。比如

原文 转写

five thirty pm five thirty P M

FBI F B I

NFC N F C

4) 缩写

转写时不能使用单词的缩写,一定要用发音的单词的全词。例如:

原文 转写

This is Dr. Smith this is doctor Smith

5) 标点符号

根据语法规则来使用标点符号。

说话人说出来的标点需要转写出来,如:“ @”转写为“at”, ”.com”写

成”dot com”

转写过程中只允许出现逗号(,)、连字符(-)只能出现在单词中间、句号

(.)、感叹号(!)、单引号(’)、问号(?),不可添加这几个以外的标点,添

加的符号需要符合语法规则。所有符号需要在正常的英文输入状态下

6) 语气词

语气词要根据发音、语义准确转写。
7) 其他

 脏话内容正常转写,切忌用字母代替

 网络热词、常见互联网词按照常见用法转写

 语音中有重复的字词,要全部转写出来

 发现听的比较清楚,语义不确定但是发音可以确定,比如普通人名等,可以

选择同音词代替,但需要保证文本与发音正确。在有明确上下文句意的情况

下,选择符合发音以及句意的词进行标注。

 单词没有说完的,后面加-,且要和后面单词之间有一个空格,例如:I want

to go to s- school.注意,句尾必须是完整的单词,如果没说完的单词在句

尾,直接舍弃不截取。

5. 特殊符号
标注过程中若出现以下情况,需添加对应的特殊标签,标签必须合法:避免出现成对

标签缺失,大小写不一致,括号不成对等情况。

更新: [OVERLAP/][/OVERLAP] 标签正常标签,其余标签只选择对应属性,不在文

本转写中添加,后续技术批处理。

数 据 是 噪音 特殊标签 解释 角色 文本标注
否有效 标注
无噪音 无 根据听到的内容按规范 O1 今天我去吃饭了。
进行转写 or
O2…
[N]  一句话中包含噪音需要 O1 今天我去吃饭了[N]
在句尾标注[N],但不用 or
区分噪音类型。 O2…
[HM] 说话人说唱内容需要在 O1 一人我饮酒醉[HM]

效 句尾标记[HM] or
数 O2…

[OVERLAP/] 语音重叠, 并且其中 O1 今天我去[OVERLAP/]
[/OVERLAP] 一方特别清晰,只转写 or 吃饭了[/OVERLAP]
说话清晰的人的语音。 O2…
角色标注该说话人,被
影响文字用 标签标
注。

无 效 数 录音人人 [IVS] 大于 0.5 秒的噪音段落 N [IVS]


据 声无效语
才会标注。比如语音重
音段
叠,且声音音量大小差
不多;
语音丢帧;
语音截幅;
语音有回声;
不是正常说话语气:比
如唱歌、捏着嗓子说话
等;
非目标语言;
语音段中有个别单词听
不清或者因为噪音影响
无法转写。
非录音人 [OIVS] 大于 0.5 秒的噪音段落 N [OIVS]
人声无效
才会标注。例如:
语音段
电视人声;
节目播音腔旁白解说广
告;
带有人声的音乐;等
敏感信息 [PIL] 语音中含有录音人隐私 N [PIL]
信息。
详细住址、手机号、身
份证号、银行卡号、社
保号、护照号、等

6. 质量要求
标注的句准确率应该在 97%及以上(符号格式问题要求 100%)

如果语句的一部分出现了以下标注错误:错误标注,有效错误等,则认定这句话为错

误标注语句。

标注准确率=1-(错误的标注语句数/全部标注语句数)

特殊标签准确率 = 错误标注数(错标、多标、漏标) / 标注标签数 不低于 90%

You might also like