diff --git a/backend/README.md b/backend/README.md index b0b31c3..6b30ae0 100644 --- a/backend/README.md +++ b/backend/README.md @@ -18,11 +18,11 @@ 3. 話者の識別 -上記で取得した参考音声と文字起こしの各セグメント (CSV 内の start と end の範囲)を embedding(ベクトル表現に変換)し、それぞれのベクトル間のコサイン距離を計算します。この距離が一定のしきい値以下の場合、話者が一致するとみなされます。この方法により、具体的な話者を特定することができます。 +上記で取得した参考音声と文字起こしの各セグメント (CSV 内の start と end の範囲)を [speechbrain/spkrec-ecapa-voxceleb](https://huggingface.co/speechbrain/spkrec-ecapa-voxceleb)で embedding(ベクトル表現に変換)し、それぞれのベクトル間のコサイン距離を計算します。この距離が一定のしきい値以下の場合、話者が一致するとみなされます。この方法により、具体的な話者を特定することができます。 4. 不明な話者のクラスタリング -「不明な話者」である各セグメントの音声を [speechbrain/spkrec-ecapa-voxceleb](https://huggingface.co/speechbrain/spkrec-ecapa-voxceleb)で embedding し、これらを高次元空間上のポイントとして DBSCAN クラスタリングを実施します。これにより、話者が異なるものの、音声特性が似ているセグメントを同一クラスタとしてグループ化します。 +「不明な話者」である各セグメントのベクトルを高次元空間上のポイントとして DBSCAN クラスタリングを実施します。これにより、話者が異なるものの、音声特性が似ているセグメントを同一クラスタとしてグループ化します。 DBSCAN は密度ベースのクラスタリング手法で、半径 ε 以内にある近傍ポイント数がある値(MinPts)を超えていれば、そのポイントをコアポイントと見なし、同じクラスタに属させます。この手法により、不明な話者の中でも音声特性に基づき複数のクラスタ(話者)に分けることが可能となり、一度不明とされたセグメントも有効に利用することができます。これによって、ある程度手動でアサインすることもしやすくなります。