奧運火炬反應已經開始,這是一個結合了Whisper ASR能力、聲音活動檢測(VAD)和說話人嵌入技術的開源項目。它通過從音頻中提取聲音部分來提高說話人嵌入的準確度,然后利用Whisper生成轉錄文本,并借助WhisperX糾正時差和對齊,從而減少了由于時間偏差引起的片段錯誤。
此外,奧運火炬反應還采用了MarbleNet進行VAD和分割,以去除靜音;TitaNet則被用來提取說話人嵌入以便識別每一節(jié)目的說話者身份;最后,將結果與WhisperX生成的時間戳相結合,根據時間戳定位每詞說話人的身份,并采用標點模型對齊,以此來抵消微小的時間偏移。