NVIDIA · reasonsolo · Aug 18, 2025 · Aug 19, 2025 · coderabbitai · Aug 19, 2025
@@ -157,7 +157,6 @@ endif
     		$(GPU_OPTS) \
     		--volume $(SOURCE_DIR):$(CODE_DIR) \
     		$(EXTRA_VOLUMES) \
-    		$(if $(and $(filter 1,$(LOCAL_USER)),$(shell [ -w "$(USER_CACHE_DIR)" ] && echo 1)),--volume $(USER_CACHE_DIR):/home/$(USER_NAME)/.cache:rw) \
     		--env "CCACHE_DIR=$(CCACHE_DIR)" \
     		--env "CCACHE_BASEDIR=$(CODE_DIR)" \
     		--env "CONAN_HOME=$(CONAN_DIR)" \

@@ -40,6 +40,13 @@
 from .sampler import Sampler, SampleState, SampleStateTensors
 from .scheduler import RequestScheduler, ScheduledRequests
 
+torch._C._activate_gpu_trace()
+torch.cuda._gpu_trace.register_callback_for_event_synchronization(lambda event: logger.info(f"TorchEvent {event} synchronized"))
+torch.cuda._gpu_trace.register_callback_for_event_creation(lambda event: logger.info(f"TorchEvent {event} created"))
+torch.cuda._gpu_trace.register_callback_for_event_record(lambda event, t: logger.info(f"TorchEvent {event} recorded at {t}"))
+torch.cuda._gpu_trace.register_callback_for_event_wait(lambda event, t: logger.info(f"TorchEvent {event} waited at {t}"))
+torch.cuda._gpu_trace.register_callback_for_event_deletion(lambda event: logger.info(f"TorchEvent {event} destroyed"))
+
-torch._C._activate_gpu_trace()
-torch.cuda._gpu_trace.register_callback_for_event_synchronization(lambda event: logger.info(f"TorchEvent {event} synchronized"))
-torch.cuda._gpu_trace.register_callback_for_event_creation(lambda event: logger.info(f"TorchEvent {event} created"))
-torch.cuda._gpu_trace.register_callback_for_event_record(lambda event, t: logger.info(f"TorchEvent {event} recorded at {t}"))
-torch.cuda._gpu_trace.register_callback_for_event_wait(lambda event, t: logger.info(f"TorchEvent {event} waited at {t}"))
-torch.cuda._gpu_trace.register_callback_for_event_deletion(lambda event: logger.info(f"TorchEvent {event} destroyed"))
+if os.environ.get("TLLM_TORCH_GPU_TRACE") == "1":
+    try:
+        torch._C._activate_gpu_trace()
+        torch.cuda._gpu_trace.register_callback_for_event_synchronization(
+            lambda event: logger.info(f"TorchEvent {event} synchronized"))
+        torch.cuda._gpu_trace.register_callback_for_event_creation(
+            lambda event: logger.info(f"TorchEvent {event} created"))
+        torch.cuda._gpu_trace.register_callback_for_event_record(
+            lambda event, t: logger.info(f"TorchEvent {event} recorded at {t}"))
+        torch.cuda._gpu_trace.register_callback_for_event_wait(
+            lambda event, t: logger.info(f"TorchEvent {event} waited at {t}"))
+        torch.cuda._gpu_trace.register_callback_for_event_deletion(
+            lambda event: logger.info(f"TorchEvent {event} destroyed"))
+    except Exception as e:
+        logger.warning("Failed to activate Torch GPU tracing: %s", e)
-torch._C._activate_gpu_trace()
-torch.cuda._gpu_trace.register_callback_for_event_synchronization(lambda event: logger.info(f"TorchEvent {event} synchronized"))
-torch.cuda._gpu_trace.register_callback_for_event_creation(lambda event: logger.info(f"TorchEvent {event} created"))
-torch.cuda._gpu_trace.register_callback_for_event_record(lambda event, t: logger.info(f"TorchEvent {event} recorded at {t}"))
-torch.cuda._gpu_trace.register_callback_for_event_wait(lambda event, t: logger.info(f"TorchEvent {event} waited at {t}"))
-torch.cuda._gpu_trace.register_callback_for_event_deletion(lambda event: logger.info(f"TorchEvent {event} destroyed"))
+if os.environ.get("TLLM_TORCH_GPU_TRACE") == "1":
+    try:
+        torch._C._activate_gpu_trace()
+        torch.cuda._gpu_trace.register_callback_for_event_synchronization(
+            lambda event: logger.info(f"TorchEvent {event} synchronized"))
+        torch.cuda._gpu_trace.register_callback_for_event_creation(
+            lambda event: logger.info(f"TorchEvent {event} created"))
+        torch.cuda._gpu_trace.register_callback_for_event_record(
+            lambda event, t: logger.info(f"TorchEvent {event} recorded at {t}"))
+        torch.cuda._gpu_trace.register_callback_for_event_wait(
+            lambda event, t: logger.info(f"TorchEvent {event} waited at {t}"))
+        torch.cuda._gpu_trace.register_callback_for_event_deletion(
+            lambda event: logger.info(f"TorchEvent {event} destroyed"))
+    except Exception as e:
+        logger.warning("Failed to activate Torch GPU tracing: %s", e)
 # Environment variable to specify iteration ranges for profiling start/stop.
 # Format: "start1-stop1,start2-stop2,..." or single iterations "iter1,iter2,..."
 PROFILE_START_STOP_ENV_VAR_NAME = "TLLM_PROFILE_START_STOP"
@@ -242,8 +249,14 @@ def __init__(self,
 
         self.kv_cache_transceiver = kv_cache_transceiver
         if self.dist.pp_size > 1:
+            logger.info(
+                f"rank {self.dist.pp_rank} _executor_loop_pp: {self.dist.pp_size}"
+            )
             self.event_loop = self._executor_loop_pp
         else:
+            logger.info(
+                f"rank {self.dist.pp_rank} _executor_loop: {disable_overlap_scheduler}"
+            )
             self.event_loop = self._executor_loop if disable_overlap_scheduler else self._executor_loop_overlap
         if is_trace_enabled("TLLM_TRACE_EXECUTOR_LOOP"):
             self.event_loop = trace_func(self.event_loop)
@@ -396,6 +409,9 @@ def set_gather_responses(self, gather_all_responses):
 
     @property
     def should_stop_processing(self):
+        logger.info(
+            f"rank {self.dist.pp_rank} should_stop_processing: {self.is_shutdown} {len(self.active_requests)} {self.executor_request_queue.get_waiting_queue_size()} handle {len([h for h in self.send_handles if h is not None])}"
+        )
         return self.is_shutdown and len(self.active_requests) == 0 and \
             self.executor_request_queue.get_waiting_queue_size() == 0
 
@@ -627,6 +643,11 @@ def _process_iter_stats(self, finished_requests: list[LlmRequest],
                 batch_state.sample_state.scheduled_requests), req_stats)
 
     def _executor_loop_cleanup(self):
+        # Unblock receiving processes. When second-last rank quits before last rank,
+        # last rank will never return from recv_object.
+        for req in self.send_handles:
+            if req is not None:
+                req.wait()
         with self.response_cv:
             self.is_shutdown = True
             self.response_cv.notify_all()
@@ -750,6 +771,7 @@ def _executor_loop_pp(self):
 
                             sample_state = self._sample_async(
                                 scheduled_batch, batch_outputs)
+                            assert sample_state is not None, "Sampling failed"
                             sample_state.host.logits = logits_host
                             self._update_request_states(scheduled_batch)
 
@@ -775,47 +797,49 @@ def _executor_loop_pp(self):
                                       offset) % self.num_micro_batches
                 previous_batch = self.micro_batches[prev_microbatch_id]
                 if previous_batch is not None:
-                    sample_state = previous_batch.sample_state
                     if not self.dist.is_last_pp_rank:
-                        torch.cuda.nvtx.range_push(
-                            "_handle_new_tokens_inter_pp")
+                        with torch.cuda.nvtx.range(
+                            f"_handle_new_tokens_inter_pp{self.dist.pp_rank}_pr{self.dist.prev_pp_rank}_mb{prev_microbatch_id}"):
                         # Receive tokens from previous pp rank (w.r.t model forward direction)
-                        (
-                            logits,
-                            sample_state.host,
-                        ) = self.dist.recv_object(
-                            src=self.dist.prev_pp_rank,
-                            tag=prev_microbatch_id,
-                        )
-                        if logits is not None:
-                            logits_host = torch.from_numpy(logits)
-                            sample_state.host.logits = logits_host
-                            sample_state.device.logits = logits_host.to(
-                                self.device_id)
+                            (
+                                logits,
+                                previous_batch.sample_state.host,
+                            ) = self.dist.recv_object(
+                                src=self.dist.prev_pp_rank,
+                                tag=prev_microbatch_id,
+                            )
+                            if logits is not None:
+                                logits_host = torch.from_numpy(logits)
+                                previous_batch.sample_state.host.logits = logits_host
+                                previous_batch.sample_state.device.logits = logits_host.to(
+                                    self.device_id)
                     else:
-                        torch.cuda.nvtx.range_push("_handle_new_tokens_last_pp")
-                        sample_state.sampler_event.synchronize()
+                        with torch.cuda.nvtx.range(
+                            f"_sync_new_tokens_last_pp_{previous_batch.sample_state.sampler_event.counter}"):
+                            previous_batch.sample_state.sampler_event.synchronize()
 
                     # Send tokens to next pp rank (w.r.t model forward direction)
                     # Second last rank does not need to since last rank has original decoded tokens
                     if not self.dist.is_second_last_pp_rank:
-                        if self.send_handles[prev_microbatch_id] is not None:
-                            self.send_handles[prev_microbatch_id].wait()
-                        needs_logits = (
-                            self._need_return_logits(scheduled_batch)
-                            or (self._need_return_log_probs(scheduled_batch)
-                                and sample_state.host.log_probs is not None))
-                        serialized_logits = sample_state.host.logits.numpy(
-                        ) if needs_logits else None
-                        self.send_handles[
-                            prev_microbatch_id] = self.dist.isend_object(
-                                (
-                                    serialized_logits,
-                                    sample_state.host,
-                                ),
-                                dest=self.dist.next_pp_rank,
-                                tag=prev_microbatch_id)
-                    torch.cuda.nvtx.range_pop()
+                        with torch.cuda.nvtx.range(
+                            f"_send_new_tokens_{self.dist.pp_rank}_pr{self.dist.next_pp_rank}_mb{prev_microbatch_id}"):
+                            if self.send_handles[prev_microbatch_id] is not None:
+                                self.send_handles[prev_microbatch_id].wait()
+                                self.send_handles[prev_microbatch_id] = None
+                            needs_logits = (
+                                self._need_return_logits(scheduled_batch)
+                                or (self._need_return_log_probs(scheduled_batch)
+                                    and sample_state.host.log_probs is not None))
+                            serialized_logits = sample_state.host.logits.numpy(
+                            ) if needs_logits else None
+                            self.send_handles[
+                                prev_microbatch_id] = self.dist.isend_object(
+                                    (
+                                        serialized_logits,
+                                        sample_state.host,
+                                    ),
+                                    dest=self.dist.next_pp_rank,
+                                    tag=prev_microbatch_id)
 
-                        with torch.cuda.nvtx.range(
-                            f"_handle_new_tokens_inter_pp{self.dist.pp_rank}_pr{self.dist.prev_pp_rank}_mb{prev_microbatch_id}"):
-                        # Receive tokens from previous pp rank (w.r.t model forward direction)
-                        (
-                            logits,
-                            sample_state.host,
-                        ) = self.dist.recv_object(
-                            src=self.dist.prev_pp_rank,
-                            tag=prev_microbatch_id,
-                        )
-                        if logits is not None:
-                            logits_host = torch.from_numpy(logits)
-                            sample_state.host.logits = logits_host
-                            sample_state.device.logits = logits_host.to(
-                                self.device_id)
-                            (
-                                logits,
-                                previous_batch.sample_state.host,
-                            ) = self.dist.recv_object(
-                                src=self.dist.prev_pp_rank,
-                                tag=prev_microbatch_id,
-                            )
-                            if logits is not None:
-                                logits_host = torch.from_numpy(logits)
-                                previous_batch.sample_state.host.logits = logits_host
-                                previous_batch.sample_state.device.logits = logits_host.to(
-                                    self.device_id)
-                    else:
-                        torch.cuda.nvtx.range_push("_handle_new_tokens_last_pp")
-                        sample_state.sampler_event.synchronize()
-                        with torch.cuda.nvtx.range(
-                            f"_sync_new_tokens_last_pp_{previous_batch.sample_state.sampler_event.counter}"):
-                            previous_batch.sample_state.sampler_event.synchronize()
-
-                    # Send tokens to next pp rank (w.r.t model forward direction)
-                    # Second last rank does not need to since last rank has original decoded tokens
-                    if not self.dist.is_second_last_pp_rank:
-                        if self.send_handles[prev_microbatch_id] is not None:
-                            self.send_handles[prev_microbatch_id].wait()
-                        needs_logits = (
-                            self._need_return_logits(scheduled_batch)
-                            or (self._need_return_log_probs(scheduled_batch)
-                                and sample_state.host.log_probs is not None))
-                        serialized_logits = sample_state.host.logits.numpy(
-                        ) if needs_logits else None
-                        self.send_handles[
-                            prev_microbatch_id] = self.dist.isend_object(
-                                (
-                                    serialized_logits,
-                                    sample_state.host,
-                                ),
-                                dest=self.dist.next_pp_rank,
-                                tag=prev_microbatch_id)
-                    torch.cuda.nvtx.range_pop()
-                        with torch.cuda.nvtx.range(
-                            f"_send_new_tokens_{self.dist.pp_rank}_pr{self.dist.next_pp_rank}_mb{prev_microbatch_id}"):
-                            if self.send_handles[prev_microbatch_id] is not None:
-                                self.send_handles[prev_microbatch_id].wait()
-                                self.send_handles[prev_microbatch_id] = None
-                            needs_logits = (
-                                self._need_return_logits(scheduled_batch)
-                                or (self._need_return_log_probs(scheduled_batch)
-                                    and sample_state.host.log_probs is not None))
-                            serialized_logits = sample_state.host.logits.numpy(
-                            ) if needs_logits else None
-                            self.send_handles[
-                                prev_microbatch_id] = self.dist.isend_object(
-                                    (
-                                        serialized_logits,
-                                        sample_state.host,
-                                    ),
-                                    dest=self.dist.next_pp_rank,
-                                    tag=prev_microbatch_id)
+                        with torch.cuda.nvtx.range(
+                            f"_handle_new_tokens_inter_pp{self.dist.pp_rank}_pr{self.dist.prev_pp_rank}_mb{prev_microbatch_id}"):
+                        # Receive tokens from previous pp rank (w.r.t model forward direction)
+                            (
+                                logits,
+                                previous_batch.sample_state.host,
+                            ) = self.dist.recv_object(
+                                src=self.dist.prev_pp_rank,
+                                tag=prev_microbatch_id,
+                            )
+                            if logits is not None:
+                                logits_host = torch.from_numpy(logits)
+                                previous_batch.sample_state.host.logits = logits_host
+                                previous_batch.sample_state.device.logits = logits_host.to(
+                                    self.device_id)
+                    else:
+                        _ev = previous_batch.sample_state.sampler_event
+                        _ctr = getattr(_ev, "counter", -1)
+                        with torch.cuda.nvtx.range(
+                            f"_sync_new_tokens_last_pp_{_ctr}"):
+                            _ev.synchronize()
+
+                    # Send tokens to next pp rank (w.r.t model forward direction)
+                    # Second last rank does not need to since last rank has original decoded tokens
+                    if not self.dist.is_second_last_pp_rank:
+                        with torch.cuda.nvtx.range(
+                            f"_send_new_tokens_{self.dist.pp_rank}_pr{self.dist.next_pp_rank}_mb{prev_microbatch_id}"):
+                            if self.send_handles[prev_microbatch_id] is not None:
+                                self.send_handles[prev_microbatch_id].wait()
+                                self.send_handles[prev_microbatch_id] = None
+                            prev_host = previous_batch.sample_state.host
+                            needs_logits = (
+                                (getattr(prev_host, "logits", None) is not None)
+                                or (getattr(prev_host, "log_probs", None) is not None)
+                            )
+                            serialized_logits = (
+                                prev_host.logits.numpy() if needs_logits else None
+                            )
+                            self.send_handles[
+                                prev_microbatch_id] = self.dist.isend_object(
+                                    (
+                                        serialized_logits,
+                                        prev_host,
+                                    ),
+                                    dest=self.dist.next_pp_rank,
+                                    tag=prev_microbatch_id)
-                        with torch.cuda.nvtx.range(
-                            f"_handle_new_tokens_inter_pp{self.dist.pp_rank}_pr{self.dist.prev_pp_rank}_mb{prev_microbatch_id}"):
-                        # Receive tokens from previous pp rank (w.r.t model forward direction)
-                        (
-                            logits,
-                            sample_state.host,
-                        ) = self.dist.recv_object(
-                            src=self.dist.prev_pp_rank,
-                            tag=prev_microbatch_id,
-                        )
-                        if logits is not None:
-                            logits_host = torch.from_numpy(logits)
-                            sample_state.host.logits = logits_host
-                            sample_state.device.logits = logits_host.to(
-                                self.device_id)
-                            (
-                                logits,
-                                previous_batch.sample_state.host,
-                            ) = self.dist.recv_object(
-                                src=self.dist.prev_pp_rank,
-                                tag=prev_microbatch_id,
-                            )
-                            if logits is not None:
-                                logits_host = torch.from_numpy(logits)
-                                previous_batch.sample_state.host.logits = logits_host
-                                previous_batch.sample_state.device.logits = logits_host.to(
-                                    self.device_id)
-                    else:
-                        torch.cuda.nvtx.range_push("_handle_new_tokens_last_pp")
-                        sample_state.sampler_event.synchronize()
-                        with torch.cuda.nvtx.range(
-                            f"_sync_new_tokens_last_pp_{previous_batch.sample_state.sampler_event.counter}"):
-                            previous_batch.sample_state.sampler_event.synchronize()
-
-                    # Send tokens to next pp rank (w.r.t model forward direction)
-                    # Second last rank does not need to since last rank has original decoded tokens
-                    if not self.dist.is_second_last_pp_rank:
-                        if self.send_handles[prev_microbatch_id] is not None:
-                            self.send_handles[prev_microbatch_id].wait()
-                        needs_logits = (
-                            self._need_return_logits(scheduled_batch)
-                            or (self._need_return_log_probs(scheduled_batch)
-                                and sample_state.host.log_probs is not None))
-                        serialized_logits = sample_state.host.logits.numpy(
-                        ) if needs_logits else None
-                        self.send_handles[
-                            prev_microbatch_id] = self.dist.isend_object(
-                                (
-                                    serialized_logits,
-                                    sample_state.host,
-                                ),
-                                dest=self.dist.next_pp_rank,
-                                tag=prev_microbatch_id)
-                    torch.cuda.nvtx.range_pop()
-                        with torch.cuda.nvtx.range(
-                            f"_send_new_tokens_{self.dist.pp_rank}_pr{self.dist.next_pp_rank}_mb{prev_microbatch_id}"):
-                            if self.send_handles[prev_microbatch_id] is not None:
-                                self.send_handles[prev_microbatch_id].wait()
-                                self.send_handles[prev_microbatch_id] = None
-                            needs_logits = (
-                                self._need_return_logits(scheduled_batch)
-                                or (self._need_return_log_probs(scheduled_batch)
-                                    and sample_state.host.log_probs is not None))
-                            serialized_logits = sample_state.host.logits.numpy(
-                            ) if needs_logits else None
-                            self.send_handles[
-                                prev_microbatch_id] = self.dist.isend_object(
-                                    (
-                                        serialized_logits,
-                                        sample_state.host,
-                                    ),
-                                    dest=self.dist.next_pp_rank,
-                                    tag=prev_microbatch_id)
+                        with torch.cuda.nvtx.range(
+                            f"_handle_new_tokens_inter_pp{self.dist.pp_rank}_pr{self.dist.prev_pp_rank}_mb{prev_microbatch_id}"):
+                        # Receive tokens from previous pp rank (w.r.t model forward direction)
+                            (
+                                logits,
+                                previous_batch.sample_state.host,
+                            ) = self.dist.recv_object(
+                                src=self.dist.prev_pp_rank,
+                                tag=prev_microbatch_id,
+                            )
+                            if logits is not None:
+                                logits_host = torch.from_numpy(logits)
+                                previous_batch.sample_state.host.logits = logits_host
+                                previous_batch.sample_state.device.logits = logits_host.to(
+                                    self.device_id)
+                    else:
+                        _ev = previous_batch.sample_state.sampler_event
+                        _ctr = getattr(_ev, "counter", -1)
+                        with torch.cuda.nvtx.range(
+                            f"_sync_new_tokens_last_pp_{_ctr}"):
+                            _ev.synchronize()
+
+                    # Send tokens to next pp rank (w.r.t model forward direction)
+                    # Second last rank does not need to since last rank has original decoded tokens
+                    if not self.dist.is_second_last_pp_rank:
+                        with torch.cuda.nvtx.range(
+                            f"_send_new_tokens_{self.dist.pp_rank}_pr{self.dist.next_pp_rank}_mb{prev_microbatch_id}"):
+                            if self.send_handles[prev_microbatch_id] is not None:
+                                self.send_handles[prev_microbatch_id].wait()
+                                self.send_handles[prev_microbatch_id] = None
+                            prev_host = previous_batch.sample_state.host
+                            needs_logits = (
+                                (getattr(prev_host, "logits", None) is not None)
+                                or (getattr(prev_host, "log_probs", None) is not None)
+                            )
+                            serialized_logits = (
+                                prev_host.logits.numpy() if needs_logits else None
+                            )
+                            self.send_handles[
+                                prev_microbatch_id] = self.dist.isend_object(
+                                    (
+                                        serialized_logits,
+                                        prev_host,
+                                    ),
+                                    dest=self.dist.next_pp_rank,
+                                    tag=prev_microbatch_id)
                 # Stage 3: Finalize previous batch that finished tokens communication
                 # In last pp rank, stage 2 and 3 process different previous batches
@@ -1620,6 +1644,9 @@ def _handle_responses(self):
             else:
                 new_active_requests.append(request)
         self.active_requests.clear()
+        logger.info(
+            f"rank {self.dist.pp_rank} _handle_responses: {len(self.active_requests)} {len(new_active_requests)} {len(requests_to_terminate)}"
+        )
         self.active_requests.extend(new_active_requests)
         self._enqueue_responses(new_responses)
         for request in requests_to_terminate:

@@ -2,6 +2,8 @@
 from collections.abc import Iterable
 from dataclasses import dataclass
 from typing import Literal
+import traceback
+from tensorrt_llm.logger import logger
 
 import torch
 
@@ -36,6 +38,21 @@ class SampleStateTensors:
     def values(self):
         return vars(self).values()
 
+class DebugEvent(torch.cuda.Event):
+    counter = 0
+
+    def __init__(self):
+        super().__init__()
+        self.counter = DebugEvent.counter
+        DebugEvent.counter += 1
+
+    def __del__(self):
+        logger.info(f"DebugEvent {self.counter} destroyed")
+
+    def synchronize(self):
+        logger.info(f"DebugEvent {self.counter} synchronized")
+        super().synchronize()
+
-class DebugEvent(torch.cuda.Event):
-    counter = 0
-
-    def __init__(self):
-        super().__init__()
-        self.counter = DebugEvent.counter
-        DebugEvent.counter += 1
-
-    def __del__(self):
-        logger.info(f"DebugEvent {self.counter} destroyed")
-
-    def synchronize(self):
-        logger.info(f"DebugEvent {self.counter} synchronized")
-        super().synchronize()
+class DebugEvent(torch.cuda.Event):
+    counter = 0
+
+    def __init__(self):
+        super().__init__()
+        self.counter = DebugEvent.counter
+        DebugEvent.counter += 1
+
+    def __del__(self):
+        try:
+            logger.debug(f"DebugEvent {self.counter} destroyed")
+        except Exception:
+            # Best-effort logging; ignore errors during interpreter shutdown.
+            pass
+
+    def synchronize(self):
+        logger.debug(f"DebugEvent {self.counter} synchronized")
+        super().synchronize()
-class DebugEvent(torch.cuda.Event):
-    counter = 0
-
-    def __init__(self):
-        super().__init__()
-        self.counter = DebugEvent.counter
-        DebugEvent.counter += 1
-
-    def __del__(self):
-        logger.info(f"DebugEvent {self.counter} destroyed")
-
-    def synchronize(self):
-        logger.info(f"DebugEvent {self.counter} synchronized")
-        super().synchronize()
+class DebugEvent(torch.cuda.Event):
+    counter = 0
+
+    def __init__(self):
+        super().__init__()
+        self.counter = DebugEvent.counter
+        DebugEvent.counter += 1
+
+    def __del__(self):
+        try:
+            logger.debug(f"DebugEvent {self.counter} destroyed")
+        except Exception:
+            # Best-effort logging; ignore errors during interpreter shutdown.
+            pass
+
+    def synchronize(self):
+        logger.debug(f"DebugEvent {self.counter} synchronized")
+        super().synchronize()
 
 @dataclass(kw_only=True)
 class SampleState:
@@ -44,7 +61,7 @@ class SampleState:
     device: SampleStateTensors = None
     host: SampleStateTensors = None
 
-    sampler_event: torch.cuda.Event = None
+    sampler_event: DebugEvent = None
-    sampler_event: DebugEvent = None
+        sampler_event = DebugEvent()
+        sampler_event.record()
-    sampler_event: DebugEvent = None
+        sampler_event = DebugEvent()
+        sampler_event.record()
 
 
 class Sampler(ABC):
@@ -376,7 +393,7 @@ def sample_async(self, scheduled_requests: ScheduledRequests,
                                gen_logits_host=gen_logits_host,
                                log_probs_host=log_probs_host)
         new_tokens_host = new_tokens.to(device="cpu", non_blocking=True)
-        sampler_event = torch.cuda.Event()
+        sampler_event = DebugEvent()
         sampler_event.record()
         return SampleState(scheduled_requests=scheduled_requests,
                            device=SampleStateTensors(new_tokens=new_tokens),

@@ -156,10 +156,22 @@ def run_disaggregated_test(example_dir,
     run_env = env.copy()
     run_env["UCX_TLS"] = "^ib"
 
+    nsys_path = os.getenv("NSYS_PATH", "nsys")
+    nsys_file = os.getenv("NSYS_FILE", f"/tmp/disagg_test_{test_desc}")
+    nsys_cmd = [
+        "nsys",
+        "profile",
+        "--trace",
+        "cuda,cublas,nvtx",
+        "--output=" + nsys_file,
+        "--force-overwrite=true",
+        "--duration=120",
+    ] if nsys_path and nsys_file else []
+
-    nsys_path = os.getenv("NSYS_PATH", "nsys")
-    nsys_file = os.getenv("NSYS_FILE", f"/tmp/disagg_test_{test_desc}")
-    nsys_cmd = [
-        "nsys",
-        "profile",
-        "--trace",
-        "cuda,cublas,nvtx",
-        "--output=" + nsys_file,
-        "--force-overwrite=true",
-        "--duration=120",
-    ] if nsys_path and nsys_file else []
+    nsys_path = os.getenv("NSYS_PATH")
+    nsys_file = os.getenv("NSYS_FILE")
+    nsys_duration = os.getenv("NSYS_DURATION", "120")
+    nsys_cmd = []
+    if nsys_path and nsys_file:
+        nsys_cmd = [
+            nsys_path,
+            "profile",
+            "--trace",
+            "cuda,cublas,nvtx",
+            f"--output={nsys_file}",
+            "--force-overwrite=true",
+            f"--duration={nsys_duration}",
+        ]
-    nsys_path = os.getenv("NSYS_PATH", "nsys")
-    nsys_file = os.getenv("NSYS_FILE", f"/tmp/disagg_test_{test_desc}")
-    nsys_cmd = [
-        "nsys",
-        "profile",
-        "--trace",
-        "cuda,cublas,nvtx",
-        "--output=" + nsys_file,
-        "--force-overwrite=true",
-        "--duration=120",
-    ] if nsys_path and nsys_file else []
+    nsys_path = os.getenv("NSYS_PATH")
+    nsys_file = os.getenv("NSYS_FILE")
+    nsys_duration = os.getenv("NSYS_DURATION", "120")
+    nsys_cmd = []
+    if nsys_path and nsys_file:
+        nsys_cmd = [
+            nsys_path,
+            "profile",
+            "--trace",
+            "cuda,cublas,nvtx",
+            f"--output={nsys_file}",
+            "--force-overwrite=true",
+            f"--duration={nsys_duration}",
+        ]
     num_ranks, config_file = get_test_config(test_desc, example_dir,
                                              os.path.dirname(__file__))
 
-    workers_cmd = [
+    workers_cmd = nsys_cmd + [
         'mpirun', '--allow-run-as-root', '--oversubscribe', '-n',
         str(num_ranks), 'trtllm-serve', 'disaggregated_mpi_worker', '-c',
         config_file
@@ -254,6 +266,7 @@ def run_disaggregated_test(example_dir,
                                 "The capital of Germany is Berlin",
                                 "Asyncio is a Python library"
                             ]
+                        expected_strings = []
                         for expected_string in expected_strings:
                             if isinstance(expected_string, list):
                                 # At least one of the strings in the list should be found in the content