kotoba-tech
/

kotoba-whisper-v2.2

@@ -61,7 +61,7 @@ model_id = "kotoba-tech/kotoba-whisper-v2.2"
 torch_dtype = torch.float16 if torch.cuda.is_available() else torch.float32
 device = "cuda:0" if torch.cuda.is_available() else "cpu"
 model_kwargs = {"attn_implementation": "sdpa"} if torch.cuda.is_available() else {}
-generate_kwargs = {"language": "ja", "task": "transcribe"}
 # load model
 pipe = pipeline(
@@ -70,93 +70,58 @@ pipe = pipeline(
     device=device,
     model_kwargs=model_kwargs,
     chunk_length_s=15,
-    batch_size=16,
     trust_remote_code=True,
 )
 # run inference
-result = pipe(
-     "sample_diarization_japanese.mp3",
-     add_punctuation=False,
-     return_unique_speaker=True,
-     generate_kwargs=generate_kwargs
-)
 print(result)
->>>
-{'chunks': [{'speaker': ['SPEAKER_02'],
-             'text': 'そうですねこれも先ほどがずっと言っている自分の感覚的には大丈夫ですけれども',
-             'timestamp': (0.0, 5.0)},
-            {'speaker': ['SPEAKER_02'],
-             'text': '今は屋外の気温',
-             'timestamp': (5.0, 7.6)},
-            {'speaker': ['SPEAKER_02'],
-             'text': '昼も夜も上がってますので空気の入れ替えだけでは',
-             'timestamp': (7.6, 11.72)},
-            {'speaker': ['SPEAKER_02'],
-             'text': 'かえって人が上がってきます',
-             'timestamp': (11.72, 13.54)},
-            {'speaker': ['SPEAKER_02'],
-             'text': 'やっぱり愚直にやっぱりその街の良さをアピールしていくっていう',
-             'timestamp': (13.54, 17.24)},
-            {'speaker': ['SPEAKER_00'],
-             'text': 'そういう姿勢が基本にあった上だのこういうPR作戦だと思うんです',
-             'timestamp': (17.24, 23.84)}],
- 'chunks/SPEAKER_00': [{'speaker': ['SPEAKER_00'],
-                        'text': 'そういう姿勢が基本にあった上だのこういうPR作戦だと思うんです',
-                        'timestamp': (17.24, 23.84)}],
- 'chunks/SPEAKER_02': [{'speaker': ['SPEAKER_02'],
-                        'text': 'そうですねこれも先ほどがずっと言っている自分の感覚的には大丈夫ですけれども',
-                        'timestamp': (0.0, 5.0)},
-                       {'speaker': ['SPEAKER_02'],
-                        'text': '今は屋外の気温',
-                        'timestamp': (5.0, 7.6)},
-                       {'speaker': ['SPEAKER_02'],
-                        'text': '昼も夜も上がってますので空気の入れ替えだけでは',
-                        'timestamp': (7.6, 11.72)},
-                       {'speaker': ['SPEAKER_02'],
-                        'text': 'かえって人が上がってきます',
-                        'timestamp': (11.72, 13.54)},
-                       {'speaker': ['SPEAKER_02'],
-                        'text': 'やっぱり愚直にやっぱりその街の良さをアピールしていくっていう',
-                        'timestamp': (13.54, 17.24)}],
- 'speakers': ['SPEAKER_00', 'SPEAKER_02'],
- 'text': 'そうですねこれも先ほどがずっと言っている自分の感覚的には大丈夫ですけれども今は屋外の気温昼も夜も上がってますので空気の入れ替えだけではかえって人が上がってきますやっぱり愚直にやっぱりその街の良さをアピールしていくっていうそういう姿勢が基本にあった上だのこういうPR作戦だと思うんです',
- 'text/SPEAKER_00': 'そういう姿勢が基本にあった上だのこういうPR作戦だと思うんです',
- 'text/SPEAKER_02': 'そうですねこれも先ほどがずっと言っている自分の感覚的には大丈夫ですけれども今は屋外の気温昼も夜も上がってますので空気の入れ替えだけではかえって人が上がってきますやっぱり愚直にやっぱりその街の良さをアピールしていくっていう'}
 ```
 - To activate punctuator:
 ```diff
--     add_punctuation=True,
-+     add_punctuation=False,
 ```
-- To include more than a single speaker:
-```diff
--     return_unique_speaker=True
-+     return_unique_speaker=False
 ```
 - To contorol the number of speakers (see [here](https://huggingface.co/pyannote/speaker-diarization-3.1#controlling-the-number-of-speakers)):
 ```diff
-result = pipe(
-     "sample_diarization_japanese.mp3",
-+    num_speakers=2,
-     add_punctuation=False,
-     return_unique_speaker=True,
-     generate_kwargs=generate_kwargs
-)
 ```
 or
 ```diff
-result = pipe(
-     "sample_diarization_japanese.mp3",
-+    min_speakers=2,
-+    max_speakers=5,
-     add_punctuation=False,
-     return_unique_speaker=True,
-     generate_kwargs=generate_kwargs
-)
 ```
 ### Flash Attention 2

 torch_dtype = torch.float16 if torch.cuda.is_available() else torch.float32
 device = "cuda:0" if torch.cuda.is_available() else "cpu"
 model_kwargs = {"attn_implementation": "sdpa"} if torch.cuda.is_available() else {}
 # load model
 pipe = pipeline(
     device=device,
     model_kwargs=model_kwargs,
     chunk_length_s=15,
+    batch_size=8,
     trust_remote_code=True,
 )
 # run inference
+result = pipe("sample_diarization_japanese.mp3")
 print(result)
+>>> {
+ 'chunk/SPEAKER_00': [{'speaker_id': 'SPEAKER_00', 'text': '水をマレーシアから買わなくてはならないのです', 'timestamp': [22.1, 24.97]}],
+ 'chunk/SPEAKER_01': [{'speaker_id': 'SPEAKER_01', 'text': 'これも先ほどがずっと言っている自分の感覚的には大丈夫ですけれども', 'timestamp': [0.03, 13.85]},
+                      {'speaker_id': 'SPEAKER_01', 'text': '今は屋外の気温', 'timestamp': [5.03, 18.85]},
+                      {'speaker_id': 'SPEAKER_01', 'text': '昼も夜も上がってますので', 'timestamp': [7.63, 21.45]},
+                      {'speaker_id': 'SPEAKER_01', 'text': '空気の入れ替えだけではかえって人が上がってきます', 'timestamp': [9.91, 23.73]}],
+ 'chunk/SPEAKER_02': [{'speaker_id': 'SPEAKER_02', 'text': '愚直にやっぱりその街の良さをアピールしていくという', 'timestamp': [13.48, 22.1]},
+                      {'speaker_id': 'SPEAKER_02', 'text': 'そういう姿勢が基本にあった上での', 'timestamp': [17.26, 25.88]},
+                      {'speaker_id': 'SPEAKER_02', 'text': 'こういうPR作戦だと思うんですよね', 'timestamp': [19.86, 28.48]}],
+ 'chunks': [{'speaker_id': 'SPEAKER_00', 'text': '水をマレーシアから買わなくてはならないのです', 'timestamp': [22.1, 24.97]},
+            {'speaker_id': 'SPEAKER_01', 'text': 'これも先ほどがずっと言っている自分の感覚的には大丈夫ですけれども', 'timestamp': [0.03, 13.85]},
+            {'speaker_id': 'SPEAKER_01', 'text': '今は屋外の気温', 'timestamp': [5.03, 18.85]},
+            {'speaker_id': 'SPEAKER_01', 'text': '昼も夜も上がってますので', 'timestamp': [7.63, 21.45]},
+            {'speaker_id': 'SPEAKER_01', 'text': '空気の入れ替えだけではかえって人が上がってきます', 'timestamp': [9.91, 23.73]},
+            {'speaker_id': 'SPEAKER_02', 'text': '愚直にやっぱりその街の良さをアピールしていくという', 'timestamp': [13.48, 22.1]},
+            {'speaker_id': 'SPEAKER_02', 'text': 'そういう姿勢が基本にあった上での', 'timestamp': [17.26, 25.88]},
+            {'speaker_id': 'SPEAKER_02', 'text': 'こういうPR作戦だと思うんですよね', 'timestamp': [19.86, 28.48]}],
+ 'speaker_ids': ['SPEAKER_00', 'SPEAKER_01', 'SPEAKER_02'],
+ 'text/SPEAKER_00': '水をマレーシアから買わなくてはならないのです',
+ 'text/SPEAKER_01': 'これも先ほどがずっと言っている自分の感覚的には大丈夫ですけれども今は屋外の気温昼も夜も上がってますので空気の入れ替えだけではかえって人が上がってきます',
+ 'text/SPEAKER_02': '愚直にやっぱりその街の良さをアピールしていくというそういう姿勢が基本にあった上でのこういうPR作戦だと思うんですよね'
+}
 ```
 - To activate punctuator:
 ```diff
+-     result = pipe("sample_diarization_japanese.mp3")
++     result = pipe("sample_diarization_japanese.mp3", add_punctuation=True)
 ```
+The punctuator will be applied to `text/*` feature. Eg.)
+```
+ 'text/SPEAKER_00': '水をマレーシアから買わなくてはならないのです。',
+ 'text/SPEAKER_01': 'これも先ほどがずっと言っている。自分の感覚的には大丈夫ですけれども、今は屋外の気温。昼も夜も上がってますので。空気の入れ替えだけではかえって人が上がってきます。',
+ 'text/SPEAKER_02': '愚直にやっぱりその街の良さをアピールしていくというそういう姿勢が基本にあった上でのこういうPR作戦だと思うんですよね'
 ```
 - To contorol the number of speakers (see [here](https://huggingface.co/pyannote/speaker-diarization-3.1#controlling-the-number-of-speakers)):
 ```diff
+-     result = pipe("sample_diarization_japanese.mp3")
++     result = pipe("sample_diarization_japanese.mp3", num_speakers=3)
 ```
 or
 ```diff
+-     result = pipe("sample_diarization_japanese.mp3")
++     result = pipe("sample_diarization_japanese.mp3", min_speakers=2, max_speakers=5)
 ```
 ### Flash Attention 2