NVIDIA
diff --git a/‎cpp/include/tensorrt_llm/batch_manager/cacheTransceiver.h
Lines changed: 4 additions & 4 deletions b/‎cpp/include/tensorrt_llm/batch_manager/cacheTransceiver.h
Lines changed: 4 additions & 4 deletions
diff --git a/‎cpp/tensorrt_llm/batch_manager/CMakeLists.txt
Lines changed: 0 additions & 1 deletion b/‎cpp/tensorrt_llm/batch_manager/CMakeLists.txt
Lines changed: 0 additions & 1 deletion
diff --git a/‎cpp/tensorrt_llm/batch_manager/cacheFormatter.h
Lines changed: 190 additions & 1 deletion b/‎cpp/tensorrt_llm/batch_manager/cacheFormatter.h
Lines changed: 190 additions & 1 deletion
diff --git a/‎cpp/tensorrt_llm/batch_manager/cacheTransceiver.cpp
Lines changed: 7 additions & 9 deletions b/‎cpp/tensorrt_llm/batch_manager/cacheTransceiver.cpp
Lines changed: 7 additions & 9 deletions
@@ -34,8 +34,8 @@ namespace tensorrt_llm::batch_manager
 
 class ContextProgress;
 class BaseCacheTransceiver;
-class DataResponder;
-class DataRequester;
+class CacheSender;
+class CacheReceiver;
 
 class CacheTransceiverFactory
 {
@@ -110,8 +110,8 @@ class CacheTransceiver : public BaseCacheTransceiver
 
     void setContextState(LlmRequest* llmRequest);
 
-    std::unique_ptr<DataResponder> mCacheSender;
-    std::unique_ptr<DataRequester> mDataRequester;
+    std::unique_ptr<CacheSender> mCacheSender;
+    std::unique_ptr<CacheReceiver> mCacheReceiver;
     std::vector<std::pair<LlmRequest*, std::future<void>>> mSenderFutures;
     std::vector<std::pair<LlmRequest*, std::future<void>>> mRequesterFutures;
     mpi::MpiComm const *mMpiGroupComm{nullptr}, *mMpiWorldComm{nullptr};
 
@@ -24,7 +24,6 @@ set(SRCS
     createNewDecoderRequests.cpp
     contextProgress.cpp
     dataTransceiver.cpp
-    dataTransceiverImpl.cpp
     decoderBuffers.cpp
     encoderBuffers.cpp
     guidedDecoder.cpp
 
@@ -18,11 +18,11 @@
 #pragma once
 
 #include "cacheTransBuffer.h"
-#include "dataTransceiver.h"
 #include "tensorrt_llm/batch_manager/kvCacheManager.h"
 #include "tensorrt_llm/batch_manager/kvCacheUtils.h"
 #include "tensorrt_llm/common/envUtils.h"
 #include "tensorrt_llm/common/logger.h"
+#include "tensorrt_llm/executor/cacheCommunicator.h"
 #include "tensorrt_llm/executor/cache_transmission/cacheSplitConcat.h"
 #include "tensorrt_llm/executor/dataTransceiverState.h"
 #include "tensorrt_llm/runtime/bufferManager.h"
@@ -38,6 +38,135 @@ BlockRange getBlockRangeForSending(BaseKVCacheManager* cacheManager, LlmRequest
 
 BlockRange getBlockRangeForReceiving(BaseKVCacheManager* cacheManager, LlmRequest const& llmRequest);
 
+using DataContext = tensorrt_llm::executor::kv_cache::DataContext;
+using Connection = tensorrt_llm::executor::kv_cache::Connection;
+using SizeType32 = tensorrt_llm::runtime::SizeType32;
+
+class TransferSession
+{
+public:
+    struct Measure
+    {
+        double delay;     // from last token (ctx) or arrival time (gen), in ms
+        double duration;  // in ms
+        double bandwidth; // in Gbps
+    };
+
+    TransferSession(std::vector<Connection const*> connections, DataContext dataContext,
+        executor::DataTransceiverState const& selfState, executor::DataTransceiverState otherState,
+        runtime::BufferManager const& bufferManager, LlmRequest const* llmRequest = nullptr)
+        : mConnections(std::move(connections))
+        , mDataContext(dataContext)
+        , mSelfState(&selfState)
+        , mOtherState(std::move(otherState))
+        , mBufferManager(&bufferManager)
+        , mRequest(llmRequest)
+    {
+        TLLM_CHECK(!mConnections.empty());
+    }
+
+    [[nodiscard]] std::vector<Connection const*> const& getConnections() const
+    {
+        return mConnections;
+    }
+
+    // should be called only during the initialization of the TransferSession
+    void setConnection(size_t idx, Connection const* conn)
+    {
+        mConnections.at(idx) = conn;
+    }
+
+    [[nodiscard]] DataContext const& getDataContext() const
+    {
+        return mDataContext;
+    }
+
+    [[nodiscard]] executor::DataTransceiverState const& getSelfState() const
+    {
+        return *mSelfState;
+    }
+
+    [[nodiscard]] executor::DataTransceiverState const& getOtherState() const
+    {
+        return mOtherState;
+    }
+
+    [[nodiscard]] runtime::BufferManager const& getBufferManager() const
+    {
+        return *mBufferManager;
+    }
+
+    void send(size_t idx, void const* data, size_t size)
+    {
+        mConnections.at(idx)->send(mDataContext, data, size);
+    }
+
+    void recv(size_t idx, void* data, size_t size)
+    {
+        mConnections.at(idx)->recv(mDataContext, data, size);
+    }
+
+    [[nodiscard]] LlmRequest const& getLlmRequest() const
+    {
+        TLLM_CHECK(mRequest != nullptr);
+        return *mRequest;
+    }
+
+    // in CacheSender, the LlmRequest is not available until the sendSync is called
+    void setLlmRequest(LlmRequest const& llmRequest)
+    {
+        mRequest = &llmRequest;
+    }
+
+    void appendMeasure(double delay, double duration, size_t size)
+    {
+        if (!mRecordMeasure)
+        {
+            return;
+        }
+        auto bandwidth = size * 8 / (duration / 1000) / 1e9; // byte, ms => Gbps
+        mMeasures.emplace_back(Measure{delay, duration, bandwidth});
+    }
+
+    // TODO: 1. use global id instead of context request id; 2. export to llm metrics instead of file
+    void exportMeasure(std::ofstream& outFile, bool isContext) const
+    {
+        if (mMeasures.empty())
+        {
+            return;
+        }
+        // write header if not exist
+        if (outFile.tellp() == 0)
+        {
+            outFile << "RequestID";
+            for (size_t i = 0; i < mMeasures.size(); i++)
+            {
+                outFile << ",Delay(ms),Duration(ms),Bandwidth(Gbps)";
+            }
+            outFile << '\n';
+        }
+        // write measures
+        TLLM_CHECK(isContext || mRequest->getContextPhaseParams().has_value());
+        auto reqId = isContext ? mRequest->mRequestId : mRequest->getContextPhaseParams().value().getReqId();
+        outFile << reqId;
+        for (auto const& measure : mMeasures)
+        {
+            outFile << "," << measure.delay << "," << measure.duration << "," << measure.bandwidth;
+        }
+        outFile << '\n' << std::flush;
+    }
+
+private:
+    std::vector<Connection const*> mConnections;
+    DataContext mDataContext;
+    executor::DataTransceiverState const* mSelfState; // stored in CacheReceiver/CacheSender
+    executor::DataTransceiverState mOtherState;
+    runtime::BufferManager const* mBufferManager;
+    LlmRequest const* mRequest;
+    std::vector<Measure> mMeasures;
+    bool mRecordMeasure{false};
+};
+
 // Used to support the cache transmission with different layouts and different protocols.
 class BaseCacheFormatter
 {
@@ -78,6 +207,66 @@ class BaseCacheFormatter
     virtual ~BaseCacheFormatter() = default;
 };
 
+class KvCacheMeasureHelper
+{
+public:
+    KvCacheMeasureHelper(std::string output_path)
+        : mOutputPath(std::move(output_path))
+    {
+    }
+
+    void appendKVCacheTransfer(LlmRequest::RequestIdType requestId, double duration, size_t size)
+    {
+        auto bandwidth = size * 8 / (duration / 1000) / 1e9;
+        if (mOutputPath.empty())
+        {
+            return;
+        }
+
+        std::lock_guard<std::mutex> lock(mMutex);
+        mRequestKVCacheTranfserMeasure[requestId].emplace_back(duration, bandwidth);
+    }
+
+    ~KvCacheMeasureHelper()
+    {
+        if (!mRequestKVCacheTranfserMeasure.empty() && !mOutputPath.empty())
+        {
+            auto rank = mpi::MpiComm::world().getRank();
+            std::string outFilePath = mOutputPath + "rank_" + std::to_string(rank) + ".txt";
+            std::ofstream outFile(outFilePath);
+
+            TLLM_CHECK_WITH_INFO(outFile.is_open(), "Cannot write to file " + outFilePath);
+
+            size_t numTransferMeasure = mRequestKVCacheTranfserMeasure.begin()->second.size();
+
+            outFile << "RequestID";
+            for (size_t i = 0; i < numTransferMeasure; i++)
+            {
+                outFile << ",TimeDuration,Bandwidth";
+            }
+            outFile << '\n';
+
+            for (auto const& [requestID, measures] : mRequestKVCacheTranfserMeasure)
+            {
+                outFile << requestID;
+
+                for (auto const& [time, bandwidth] : measures)
+                {
+                    outFile << "," << time << "," << bandwidth;
+                }
+                outFile << '\n';
+            }
+
+            outFile.close();
+        }
+    }
+
+private:
+    std::map<LlmRequest::RequestIdType, std::vector<std::pair<double, double>>> mRequestKVCacheTranfserMeasure;
+    std::string mOutputPath;
+    std::mutex mMutex;
+};
+
 // Simple cache block copy. Because it does not involve data splitting or merging, it performs best when the
 // parallel topology is completely identical, making it the preferred method.
 class CacheFormatter final : public BaseCacheFormatter
 
@@ -37,7 +37,6 @@
 #include "tensorrt_llm/batch_manager/cacheFormatter.h"
 #include "tensorrt_llm/batch_manager/cacheTransceiver.h"
 #include "tensorrt_llm/batch_manager/contextProgress.h"
-#include "tensorrt_llm/batch_manager/dataTransceiverImpl.h"
 #include "tensorrt_llm/batch_manager/kvCacheManager.h"
 #include "tensorrt_llm/batch_manager/llmRequest.h"
 #include "tensorrt_llm/batch_manager/mlaCacheFormatter.h"
@@ -195,10 +194,9 @@ CacheTransceiver::CacheTransceiver(kv_cache_manager::BaseKVCacheManager* cacheMa
     auto makeFormatter = [cacheManager, isMLA, this]()
     { return createCacheFormatter(cacheManager, mCacheTransBufferManager.get(), isMLA); };
 
-    mCacheSender = std::make_unique<DataResponder>(
-        std::make_unique<CacheSenderImpl>(mManager.get(), *mCacheState, worldConfig.getRank(), makeFormatter()));
-    mDataRequester = std::make_unique<DataRequester>(
-        std::make_unique<CacheReceiverImpl>(mManager.get(), *mCacheState, worldConfig.getRank(), makeFormatter()));
+    mCacheSender = std::make_unique<CacheSender>(mManager.get(), *mCacheState, worldConfig.getRank(), makeFormatter());
+    mCacheReceiver
+        = std::make_unique<CacheReceiver>(mManager.get(), *mCacheState, worldConfig.getRank(), makeFormatter());
 
     initializeCommState();
 }
@@ -250,7 +248,7 @@ void CacheTransceiver::respondAndSendAsync(LlmRequest* llmRequest)
         return;
     }
     setContextState(llmRequest);
-    auto future = mCacheSender->respondAndSendAsync(*llmRequest);
+    auto future = mCacheSender->sendAsync(*llmRequest);
     mSenderFutures.emplace_back(llmRequest, std::move(future));
 }
 
@@ -266,7 +264,7 @@ void CacheTransceiver::respondAndSendLayerWise(
 
         llmRequest->setState(LlmRequestState::kDISAGG_CONTEXT_INIT_AND_TRANS);
         setContextState(llmRequest.get());
-        auto future = mCacheSender->respondAndSendAsync(*llmRequest);
+        auto future = mCacheSender->sendAsync(*llmRequest);
         mSenderFutures.emplace_back(llmRequest.get(), std::move(future));
     }
 }
@@ -275,7 +273,7 @@ void CacheTransceiver::requestAndReceiveSync(LlmRequest* llmRequest)
 {
     TLLM_CHECK(llmRequest && llmRequest->isGenerationOnlyRequest());
     {
-        auto future = mDataRequester->requestAndReceiveAsync(*llmRequest);
+        auto future = mCacheReceiver->receiveAsync(*llmRequest);
         future.get();
     }
     llmRequest->setState(LlmRequestState::kDISAGG_GENERATION_TRANS_COMPLETE);
@@ -293,7 +291,7 @@ void CacheTransceiver::requestAndReceiveAsync(LlmRequest* llmRequest)
         return;
     }
 
-    auto future = mDataRequester->requestAndReceiveAsync(*llmRequest);
+    auto future = mCacheReceiver->receiveAsync(*llmRequest);
     mRequesterFutures.emplace_back(llmRequest, std::move(future));
     llmRequest->setState(LlmRequestState::kDISAGG_GENERATION_TRANS_IN_PROGRESS);
 }
Original file line number	Diff line number	Diff line change
`@@ -37,7 +37,6 @@`
`37`	`37`	`#include "tensorrt_llm/batch_manager/cacheFormatter.h"`
`38`	`38`	`#include "tensorrt_llm/batch_manager/cacheTransceiver.h"`
`39`	`39`	`#include "tensorrt_llm/batch_manager/contextProgress.h"`
`40`		`-#include "tensorrt_llm/batch_manager/dataTransceiverImpl.h"`
`41`	`40`	`#include "tensorrt_llm/batch_manager/kvCacheManager.h"`
`42`	`41`	`#include "tensorrt_llm/batch_manager/llmRequest.h"`
`43`	`42`	`#include "tensorrt_llm/batch_manager/mlaCacheFormatter.h"`
`@@ -195,10 +194,9 @@ CacheTransceiver::CacheTransceiver(kv_cache_manager::BaseKVCacheManager* cacheMa`
`195`	`194`	`auto makeFormatter = [cacheManager, isMLA, this]()`
`196`	`195`	`{ return createCacheFormatter(cacheManager, mCacheTransBufferManager.get(), isMLA); };`
`197`	`196`
`198`		`- mCacheSender = std::make_unique<DataResponder>(`
`199`		`- std::make_unique<CacheSenderImpl>(mManager.get(), *mCacheState, worldConfig.getRank(), makeFormatter()));`
`200`		`- mDataRequester = std::make_unique<DataRequester>(`
`201`		`- std::make_unique<CacheReceiverImpl>(mManager.get(), *mCacheState, worldConfig.getRank(), makeFormatter()));`
	`197`	`+ mCacheSender = std::make_unique<CacheSender>(mManager.get(), *mCacheState, worldConfig.getRank(), makeFormatter());`
	`198`	`+ mCacheReceiver`
	`199`	`+ = std::make_unique<CacheReceiver>(mManager.get(), *mCacheState, worldConfig.getRank(), makeFormatter());`
`202`	`200`
`203`	`201`	`initializeCommState();`
`204`	`202`	`}`
`@@ -250,7 +248,7 @@ void CacheTransceiver::respondAndSendAsync(LlmRequest* llmRequest)`
`250`	`248`	`return;`
`251`	`249`	`}`
`252`	`250`	`setContextState(llmRequest);`
`253`		`- auto future = mCacheSender->respondAndSendAsync(*llmRequest);`
	`251`	`+ auto future = mCacheSender->sendAsync(*llmRequest);`
`254`	`252`	`mSenderFutures.emplace_back(llmRequest, std::move(future));`
`255`	`253`	`}`
`256`	`254`
`@@ -266,7 +264,7 @@ void CacheTransceiver::respondAndSendLayerWise(`
`266`	`264`
`267`	`265`	`llmRequest->setState(LlmRequestState::kDISAGG_CONTEXT_INIT_AND_TRANS);`
`268`	`266`	`setContextState(llmRequest.get());`
`269`		`- auto future = mCacheSender->respondAndSendAsync(*llmRequest);`
	`267`	`+ auto future = mCacheSender->sendAsync(*llmRequest);`
`270`	`268`	`mSenderFutures.emplace_back(llmRequest.get(), std::move(future));`
`271`	`269`	`}`
`272`	`270`	`}`
`@@ -275,7 +273,7 @@ void CacheTransceiver::requestAndReceiveSync(LlmRequest* llmRequest)`
`275`	`273`	`{`
`276`	`274`	`TLLM_CHECK(llmRequest && llmRequest->isGenerationOnlyRequest());`
`277`	`275`	`{`
`278`		`- auto future = mDataRequester->requestAndReceiveAsync(*llmRequest);`
	`276`	`+ auto future = mCacheReceiver->receiveAsync(*llmRequest);`
`279`	`277`	`future.get();`
`280`	`278`	`}`
`281`	`279`	`llmRequest->setState(LlmRequestState::kDISAGG_GENERATION_TRANS_COMPLETE);`
`@@ -293,7 +291,7 @@ void CacheTransceiver::requestAndReceiveAsync(LlmRequest* llmRequest)`
`293`	`291`	`return;`
`294`	`292`	`}`
`295`	`293`
`296`		`- auto future = mDataRequester->requestAndReceiveAsync(*llmRequest);`
	`294`	`+ auto future = mCacheReceiver->receiveAsync(*llmRequest);`
`297`	`295`	`mRequesterFutures.emplace_back(llmRequest, std::move(future));`
`298`	`296`	`llmRequest->setState(LlmRequestState::kDISAGG_GENERATION_TRANS_IN_PROGRESS);`
`299`	`297`	`}`