cumulo-autumn · Tps-F · Feb 17, 2024 · Feb 17, 2024 · Feb 17, 2024 · Feb 17, 2024
diff --git a/examples/benchmark/multi.py b/examples/benchmark/multi.py
@@ -127,15 +127,16 @@ def run(
 
     results = []
 
-    start = torch.cuda.Event(enable_timing=True)
-    end = torch.cuda.Event(enable_timing=True)
+    timer_event = getattr(torch, "cuda" if torch.cuda.is_available() else "mps" if torch.backends.mps.is_available() else "cpu")
+    start = timer_event.Event(enable_timing=True)
+    end = timer_event.Event(enable_timing=True)
     for _ in tqdm(range(iterations)):
         start.record()
         out_tensor = stream.stream(image_tensor).cpu()
         queue.put(out_tensor)
         end.record()
 
-        torch.cuda.synchronize()
+        timer_event.synchronize()
         results.append(start.elapsed_time(end))
 
     print(f"Average time: {sum(results) / len(results)}ms")

diff --git a/examples/benchmark/single.py b/examples/benchmark/single.py
@@ -112,16 +112,17 @@ def run(
 
     results = []
 
-    start = torch.cuda.Event(enable_timing=True)
-    end = torch.cuda.Event(enable_timing=True)
+    timer_event = getattr(torch, "cuda" if torch.cuda.is_available() else "mps" if torch.backends.mps.is_available() else "cpu")
+    start = timer_event.Event(enable_timing=True)
+    end = timer_event.Event(enable_timing=True)
 
     for _ in tqdm(range(iterations)):
         start.record()
         image_tensor = stream.preprocess_image(downloaded_image)
         stream(image=image_tensor)
         end.record()
 
-        torch.cuda.synchronize()
+        timer_event.synchronize()
         results.append(start.elapsed_time(end))
 
     print(f"Average time: {sum(results) / len(results)}ms")

diff --git a/src/streamdiffusion/pipeline.py b/src/streamdiffusion/pipeline.py
@@ -1,4 +1,5 @@
 import time
+
 from typing import List, Optional, Union, Any, Dict, Tuple, Literal
 
 import numpy as np
@@ -30,6 +31,8 @@ def __init__(
         self.dtype = torch_dtype
         self.generator = None
 
+        self.timer_event = getattr(torch, str(self.device).split(':', 1)[0])
+
         self.height = height
         self.width = width
 
@@ -440,8 +443,8 @@ def predict_x0_batch(self, x_t_latent: torch.Tensor) -> torch.Tensor:
     def __call__(
         self, x: Union[torch.Tensor, PIL.Image.Image, np.ndarray] = None
     ) -> torch.Tensor:
-        start = torch.cuda.Event(enable_timing=True)
-        end = torch.cuda.Event(enable_timing=True)
+        start = self.timer_event.Event(enable_timing=True)
+        end = self.timer_event.Event(enable_timing=True)
         start.record()
         if x is not None:
             x = self.image_processor.preprocess(x, self.height, self.width).to(
@@ -463,7 +466,7 @@ def __call__(
 
         self.prev_image_result = x_output
         end.record()
-        torch.cuda.synchronize()
+        self.timer_event.synchronize()
         inference_time = start.elapsed_time(end) / 1000
         self.inference_time_ema = 0.9 * self.inference_time_ema + 0.1 * inference_time
         return x_output