Skip to content

Commit

Permalink
fix: speechbrain
Browse files Browse the repository at this point in the history
  • Loading branch information
yutakobayashidev committed Oct 8, 2023
1 parent 13b1434 commit 9f253d5
Showing 1 changed file with 2 additions and 2 deletions.
4 changes: 2 additions & 2 deletions backend/README.md
Original file line number Diff line number Diff line change
Expand Up @@ -18,11 +18,11 @@

3. 話者の識別

上記で取得した参考音声と文字起こしの各セグメント (CSV 内の start と end の範囲)を embedding(ベクトル表現に変換)し、それぞれのベクトル間のコサイン距離を計算します。この距離が一定のしきい値以下の場合、話者が一致するとみなされます。この方法により、具体的な話者を特定することができます。
上記で取得した参考音声と文字起こしの各セグメント (CSV 内の start と end の範囲)を [speechbrain/spkrec-ecapa-voxceleb](https://huggingface.co/speechbrain/spkrec-ecapa-voxceleb)embedding(ベクトル表現に変換)し、それぞれのベクトル間のコサイン距離を計算します。この距離が一定のしきい値以下の場合、話者が一致するとみなされます。この方法により、具体的な話者を特定することができます。

4. 不明な話者のクラスタリング

「不明な話者」である各セグメントの音声を [speechbrain/spkrec-ecapa-voxceleb](https://huggingface.co/speechbrain/spkrec-ecapa-voxceleb)で embedding し、これらを高次元空間上のポイントとして DBSCAN クラスタリングを実施します。これにより、話者が異なるものの、音声特性が似ているセグメントを同一クラスタとしてグループ化します。
「不明な話者」である各セグメントのベクトルを高次元空間上のポイントとして DBSCAN クラスタリングを実施します。これにより、話者が異なるものの、音声特性が似ているセグメントを同一クラスタとしてグループ化します。

DBSCAN は密度ベースのクラスタリング手法で、半径 ε 以内にある近傍ポイント数がある値(MinPts)を超えていれば、そのポイントをコアポイントと見なし、同じクラスタに属させます。この手法により、不明な話者の中でも音声特性に基づき複数のクラスタ(話者)に分けることが可能となり、一度不明とされたセグメントも有効に利用することができます。これによって、ある程度手動でアサインすることもしやすくなります。

Expand Down

1 comment on commit 9f253d5

@vercel
Copy link

@vercel vercel bot commented on 9f253d5 Oct 8, 2023

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Please sign in to comment.