fix: speechbrain

yutakobayashidev · Oct 8, 2023 · 9f253d5 · 9f253d5 · vercel · Oct 8, 2023
1 parent 13b1434
commit 9f253d5
Showing 1 changed file with 2 additions and 2 deletions.
diff --git a/backend/README.md b/backend/README.md
@@ -18,11 +18,11 @@
 
 3. 話者の識別
 
-上記で取得した参考音声と文字起こしの各セグメント (CSV 内の start と end の範囲)を embedding（ベクトル表現に変換）し、それぞれのベクトル間のコサイン距離を計算します。この距離が一定のしきい値以下の場合、話者が一致するとみなされます。この方法により、具体的な話者を特定することができます。
+上記で取得した参考音声と文字起こしの各セグメント (CSV 内の start と end の範囲)を [speechbrain/spkrec-ecapa-voxceleb](https://huggingface.co/speechbrain/spkrec-ecapa-voxceleb)で embedding（ベクトル表現に変換）し、それぞれのベクトル間のコサイン距離を計算します。この距離が一定のしきい値以下の場合、話者が一致するとみなされます。この方法により、具体的な話者を特定することができます。
 
 4. 不明な話者のクラスタリング
 
-「不明な話者」である各セグメントの音声を [speechbrain/spkrec-ecapa-voxceleb](https://huggingface.co/speechbrain/spkrec-ecapa-voxceleb)で embedding し、これらを高次元空間上のポイントとして DBSCAN クラスタリングを実施します。これにより、話者が異なるものの、音声特性が似ているセグメントを同一クラスタとしてグループ化します。
+「不明な話者」である各セグメントのベクトルを高次元空間上のポイントとして DBSCAN クラスタリングを実施します。これにより、話者が異なるものの、音声特性が似ているセグメントを同一クラスタとしてグループ化します。
 
 DBSCAN は密度ベースのクラスタリング手法で、半径 ε 以内にある近傍ポイント数がある値(MinPts)を超えていれば、そのポイントをコアポイントと見なし、同じクラスタに属させます。この手法により、不明な話者の中でも音声特性に基づき複数のクラスタ（話者）に分けることが可能となり、一度不明とされたセグメントも有効に利用することができます。これによって、ある程度手動でアサインすることもしやすくなります。