From 31e1774de9ad6aeb3f4bd25b853498e6cb9c93eb Mon Sep 17 00:00:00 2001
From: Jake Luciani <jake@apache.org>
Date: Mon, 22 Jan 2024 22:00:07 -0500
Subject: [PATCH] Speedup with streaming

---
 .../commands/ClusterCoordinatorCommand.java   |   2 +-
 .../github/tjake/jlama/model/LayerNorm.java   |   2 -
 .../com/github/tjake/jlama/net/Worker.java    |  74 ++++++++++--
 .../tjake/jlama/net/grpc/JlamaService.java    | 111 +++++++++++-------
 jlama-net/src/main/proto/JlamaService.proto   |   2 +-
 .../tjake/jlama/net/JlamaServiceTest.java     |   8 +-
 6 files changed, 142 insertions(+), 57 deletions(-)

diff --git a/jlama-cli/src/main/java/com/github/tjake/jlama/cli/commands/ClusterCoordinatorCommand.java b/jlama-cli/src/main/java/com/github/tjake/jlama/cli/commands/ClusterCoordinatorCommand.java
index 022d254..32c6161 100644
--- a/jlama-cli/src/main/java/com/github/tjake/jlama/cli/commands/ClusterCoordinatorCommand.java
+++ b/jlama-cli/src/main/java/com/github/tjake/jlama/cli/commands/ClusterCoordinatorCommand.java
@@ -14,7 +14,7 @@
 
 @CommandLine.Command(name = "cluster-coordinator", description = "Starts a distributed rest api for a model using cluster workers")
 public class ClusterCoordinatorCommand extends BaseCommand {
-    
+
     @CommandLine.Option(names = {"-w", "--worker-count"}, description = "signifies this instance is a coordinator", defaultValue = "1")
     int workerCount = 1;
 
diff --git a/jlama-core/src/main/java/com/github/tjake/jlama/model/LayerNorm.java b/jlama-core/src/main/java/com/github/tjake/jlama/model/LayerNorm.java
index 7d0263d..4c01e40 100644
--- a/jlama-core/src/main/java/com/github/tjake/jlama/model/LayerNorm.java
+++ b/jlama-core/src/main/java/com/github/tjake/jlama/model/LayerNorm.java
@@ -1,11 +1,9 @@
 package com.github.tjake.jlama.model;
 
 import com.github.tjake.jlama.util.Pair;
-import com.google.common.base.Function;
 import com.google.common.base.Preconditions;
 
 import com.github.tjake.jlama.tensor.AbstractTensor;
-import com.google.common.base.Supplier;
 
 import java.util.Optional;
 import java.util.function.BiFunction;
diff --git a/jlama-net/src/main/java/com/github/tjake/jlama/net/Worker.java b/jlama-net/src/main/java/com/github/tjake/jlama/net/Worker.java
index 9cedfc4..81306c3 100644
--- a/jlama-net/src/main/java/com/github/tjake/jlama/net/Worker.java
+++ b/jlama-net/src/main/java/com/github/tjake/jlama/net/Worker.java
@@ -10,10 +10,8 @@
 
 import com.google.common.base.Preconditions;
 import com.google.common.util.concurrent.Futures;
-import com.google.common.util.concurrent.MoreExecutors;
 import com.google.common.util.concurrent.Uninterruptibles;
 
-import com.github.tjake.jlama.util.PhysicalCoreExecutor;
 import com.google.protobuf.ByteString;
 import com.google.protobuf.UnsafeByteOperations;
 import io.grpc.Channel;
@@ -31,22 +29,21 @@
 import java.nio.ByteOrder;
 import java.nio.FloatBuffer;
 import java.nio.channels.FileChannel;
-import java.nio.file.Path;
 import java.nio.file.Paths;
 import java.util.Optional;
 import java.util.UUID;
+import java.util.concurrent.CompletableFuture;
 import java.util.concurrent.ConcurrentHashMap;
 import java.util.concurrent.ConcurrentMap;
 import java.util.concurrent.CountDownLatch;
-import java.util.concurrent.Executors;
 import java.util.concurrent.atomic.AtomicInteger;
+import java.util.concurrent.atomic.AtomicReference;
 
 import static com.github.tjake.jlama.model.ModelSupport.loadModel;
 
 public class Worker {
     private static final Logger logger = org.slf4j.LoggerFactory.getLogger(Worker.class);
     private final UUID workerId;
-
     private final ByteString workerIdBytes;
     private final AbstractModel model;
     private final JlamaServiceGrpc.JlamaServiceStub client;
@@ -65,20 +62,75 @@ public Worker(File modelPrefix, String host, int port, File workingDirectory, DT
         this.model = loadModel(AbstractModel.InferenceType.FORWARD_PASS, modelPrefix, workingDirectory, workingMemoryType, workingQuantizationType, modelQuantization, Optional.empty(), Optional.of(Pair.create(registerResponse.getOffset(), registerResponse.getLength())));
     }
 
+    class NormObserver implements StreamObserver<NormResponse> {
+
+        private final UUID session;
+        private final StreamObserver<NormRequest> requestStreamObserver;
+
+        private final AtomicReference<CompletableFuture<NormResponse>> activeRequestFuture;
+
+        NormObserver(UUID session) {
+            this.session = session;
+            this.requestStreamObserver = client.norm(this);
+            this.activeRequestFuture = new AtomicReference<>();
+        }
+
+        public CompletableFuture<NormResponse> request(NormRequest request) {
+            CompletableFuture<NormResponse> f = new CompletableFuture<>();
+            if (!activeRequestFuture.compareAndSet(null, f))
+                throw new IllegalStateException("active future still ourstanding for " + session);
+
+            requestStreamObserver.onNext(request);
+
+            return f;
+        }
+
+        @Override
+        public void onNext(NormResponse normResponse) {
+            CompletableFuture<NormResponse> f = activeRequestFuture.getAndSet(null);
+            if (f == null)
+                logger.error("Missing future for {}", session);
+            else
+                f.complete(normResponse);
+        }
+
+        @Override
+        public void onError(Throwable throwable) {
+            CompletableFuture<NormResponse> f = activeRequestFuture.getAndSet(null);
+            if (f == null)
+                logger.error("Missing future for {}", session);
+            else
+                f.completeExceptionally(throwable);
+        }
+
+        @Override
+        public void onCompleted() {
+            logger.info("NormResponseStream {} completed", session);
+            CompletableFuture<NormResponse> f = activeRequestFuture.getAndSet(null);
+
+            if (f != null)
+                f.completeExceptionally(new RuntimeException("Stream was completed for " + session));
+        }
+    }
+
+
     class GenerateObserver implements StreamObserver<GenerateResponse> {
         private final CountDownLatch finishedLatch;
         private final ConcurrentMap<UUID, Pair<RandomAccessFile, AbstractTensor>> kvBufferCache;
         private final ConcurrentMap<UUID, AtomicInteger> requestCount;
+        private final ConcurrentMap<UUID, NormObserver> normStreams;
+
         private volatile StreamObserver<GenerateRequest> outputStream;
 
         private GenerateObserver(CountDownLatch finishedLatch) {
             this.finishedLatch = finishedLatch;
             this.kvBufferCache = new ConcurrentHashMap<>();
             this.requestCount = new ConcurrentHashMap<>();
+            this.normStreams = new ConcurrentHashMap<>();
         }
 
         private AbstractTensor getKvBuffer(UUID session) {
-            return kvBufferCache.computeIfAbsent(session, s -> makeKvBuffer(s)).right;
+            return kvBufferCache.computeIfAbsent(session, this::makeKvBuffer).right;
         }
 
         private Pair<RandomAccessFile, AbstractTensor> makeKvBuffer(UUID session)
@@ -115,6 +167,10 @@ private int getNextRequestCount(UUID session) {
             return requestCount.computeIfAbsent(session, s -> new AtomicInteger(0)).incrementAndGet();
         }
 
+        private NormObserver getNormResponseStream(UUID session) {
+            return normStreams.computeIfAbsent(session, s -> new NormObserver(session));
+        }
+
         private ByteString getTensorBytes(AbstractTensor tensor) {
             Preconditions.checkArgument(tensor.dims() == 1 && tensor.dType() == DType.F32);
             return TensorOperationsProvider.get().requiresOffHeapTensor() ?
@@ -134,14 +190,16 @@ public void onNext(GenerateResponse generateResponse) {
             AbstractTensor output = model.forward(token, position, getKvBuffer(session),
                     Optional.of((a, b) -> {
                         NormRequest nr = NormRequest.newBuilder().setUuid(generateResponse.getSession()).setWorkerid(workerIdBytes).setLayer(getNextRequestCount(session)).setSumSq(a).setSum(b).build();
-                        NormResponse normResponse = blockingClient.norm(nr);
+
+                        NormResponse normResponse = getNormResponseStream(session).request(nr).join();
                         return Pair.create(normResponse.getSumSq(), normResponse.getSum());
                     }),
                     Optional.of(t -> {
                         NormRequest.Builder nrb = NormRequest.newBuilder().setUuid(generateResponse.getSession()).setWorkerid(workerIdBytes).setLayer(getNextRequestCount(session));
                         for (int i = 0; i < t.size(); i++)
                             nrb = nrb.addTensor(getTensorBytes(t.get(i)));
-                        NormResponse normResponse = blockingClient.norm(nrb.build());
+
+                        NormResponse normResponse = getNormResponseStream(session).request(nrb.build()).join();
 
                         for (int i = 0; i < t.size(); i++)
                             t.get(i).getMemorySegment().copyFrom(MemorySegment.ofBuffer(normResponse.getTensor(i).asReadOnlyByteBuffer().order(ByteOrder.LITTLE_ENDIAN)));
diff --git a/jlama-net/src/main/java/com/github/tjake/jlama/net/grpc/JlamaService.java b/jlama-net/src/main/java/com/github/tjake/jlama/net/grpc/JlamaService.java
index 2355c8f..01c7115 100644
--- a/jlama-net/src/main/java/com/github/tjake/jlama/net/grpc/JlamaService.java
+++ b/jlama-net/src/main/java/com/github/tjake/jlama/net/grpc/JlamaService.java
@@ -122,56 +122,85 @@ public StreamObserver<GenerateRequest> generate(StreamObserver<GenerateResponse>
     }
 
     @Override
-    public void norm(NormRequest request, StreamObserver<NormResponse> responseObserver) {
-        String key = STR."\{UUID.nameUUIDFromBytes(request.getUuid().toByteArray())}:\{request.getLayer()}";
-        MpmcArrayQueue<Pair<NormRequest, StreamObserver<NormResponse>>> norm = norms.computeIfAbsent(key, k -> new MpmcArrayQueue<>(workerCount+1));
-        norm.add(Pair.create(request, responseObserver));
-
-        // If we have all the workers, then we can calculate the result and send it back
-        if (norm.size() == workerCount && norms.remove(key, norm)) {
-            float sumSq = 0;
-            float sum = 0;
-            MemorySegment[] tensors = null;
-            Integer length = null;
-            for (Pair<NormRequest, StreamObserver<NormResponse>> f : norm) {
-                sumSq += f.left.getSumSq();
-                sum += f.left.getSum();
-                if (f.left.getTensorCount() > 0) {
-                    if (tensors == null) {
-                        tensors = new MemorySegment[f.left.getTensorCount()];
-                        for (int i = 0; i < tensors.length; i++) {
-                            ByteBuffer bb = ByteBuffer.wrap(f.left.getTensor(i).toByteArray()).order(ByteOrder.LITTLE_ENDIAN);
-                            tensors[i] = MemorySegment.ofBuffer(bb);
-                            if (length == null)
-                                length = bb.remaining() / Float.BYTES;
-                        }
-                    } else {
-                        for (int i = 0; i < tensors.length; i++) {
-                            MemorySegment ms = MemorySegment.ofBuffer(f.left.getTensor(i).asReadOnlyByteBuffer().order(ByteOrder.LITTLE_ENDIAN));
-                            //Sum float buffers
-                            accumulateF32(tensors[i], ms, length);
+    public StreamObserver<NormRequest> norm(StreamObserver<NormResponse> responseObserver) {
+
+        return new StreamObserver<NormRequest>() {
+            @Override
+            public void onNext(NormRequest request)
+            {
+                String key = STR."\{UUID.nameUUIDFromBytes(request.getUuid().toByteArray())}:\{request.getLayer()}";
+                MpmcArrayQueue<Pair<NormRequest, StreamObserver<NormResponse>>> norm = norms.computeIfAbsent(key, k -> new MpmcArrayQueue<>(workerCount + 1));
+                norm.add(Pair.create(request, responseObserver));
+
+                // If we have all the workers, then we can calculate the result and send it back
+                if (norm.size() == workerCount && norms.remove(key, norm))
+                {
+                    float sumSq = 0;
+                    float sum = 0;
+                    MemorySegment[] tensors = null;
+                    Integer length = null;
+                    for (Pair<NormRequest, StreamObserver<NormResponse>> f : norm)
+                    {
+                        sumSq += f.left.getSumSq();
+                        sum += f.left.getSum();
+                        if (f.left.getTensorCount() > 0)
+                        {
+                            if (tensors == null)
+                            {
+                                tensors = new MemorySegment[f.left.getTensorCount()];
+                                for (int i = 0; i < tensors.length; i++)
+                                {
+                                    ByteBuffer bb = ByteBuffer.wrap(f.left.getTensor(i).toByteArray()).order(ByteOrder.LITTLE_ENDIAN);
+                                    tensors[i] = MemorySegment.ofBuffer(bb);
+                                    if (length == null)
+                                        length = bb.remaining() / Float.BYTES;
+                                }
+                            }
+                            else
+                            {
+                                for (int i = 0; i < tensors.length; i++)
+                                {
+                                    MemorySegment ms = MemorySegment.ofBuffer(f.left.getTensor(i).asReadOnlyByteBuffer().order(ByteOrder.LITTLE_ENDIAN));
+                                    //Sum float buffers
+                                    accumulateF32(tensors[i], ms, length);
+                                }
+                            }
                         }
                     }
+
+                    NormResponse.Builder responseBuilder = NormResponse.newBuilder()
+                            .setSumSq(sumSq)
+                            .setSum(sum);
+
+                    if (tensors != null)
+                    {
+                        for (int i = 0; i < tensors.length; i++)
+                            responseBuilder = responseBuilder.addTensor(UnsafeByteOperations.unsafeWrap(tensors[i].asByteBuffer().order(ByteOrder.LITTLE_ENDIAN)));
+                    }
+
+                    NormResponse response = responseBuilder.build();
+                    for (Pair<NormRequest, StreamObserver<NormResponse>> f : norm)
+                    {
+                        f.right.onNext(response);
+                        //f.right.onCompleted();
+                    }
+
+                    norm.clear();
                 }
             }
 
-            NormResponse.Builder responseBuilder = NormResponse.newBuilder()
-                    .setSumSq(sumSq)
-                    .setSum(sum);
+            @Override
+            public void onError(Throwable throwable)
+            {
 
-            if (tensors != null) {
-                for (int i = 0; i < tensors.length; i++)
-                    responseBuilder = responseBuilder.addTensor(UnsafeByteOperations.unsafeWrap(tensors[i].asByteBuffer().order(ByteOrder.LITTLE_ENDIAN)));
             }
 
-            NormResponse response = responseBuilder.build();
-            for (Pair<NormRequest, StreamObserver<NormResponse>> f : norm) {
-                f.right.onNext(response);
-                f.right.onCompleted();
-            }
+            @Override
+            public void onCompleted()
+            {
 
-            norm.clear();
-        }
+            }
+        };
     }
 
     void accumulateF32(MemorySegment a, MemorySegment b, int length) {
diff --git a/jlama-net/src/main/proto/JlamaService.proto b/jlama-net/src/main/proto/JlamaService.proto
index 2755895..9426941 100644
--- a/jlama-net/src/main/proto/JlamaService.proto
+++ b/jlama-net/src/main/proto/JlamaService.proto
@@ -41,5 +41,5 @@ message RegisterResponse {
 service JlamaService {
   rpc register(RegisterRequest) returns (RegisterResponse);
   rpc generate(stream GenerateRequest) returns (stream GenerateResponse);
-  rpc norm(NormRequest) returns (NormResponse);
+  rpc norm(stream NormRequest) returns (stream NormResponse);
 }
\ No newline at end of file
diff --git a/jlama-net/src/test/java/com/github/tjake/jlama/net/JlamaServiceTest.java b/jlama-net/src/test/java/com/github/tjake/jlama/net/JlamaServiceTest.java
index 9d16d47..42483d4 100644
--- a/jlama-net/src/test/java/com/github/tjake/jlama/net/JlamaServiceTest.java
+++ b/jlama-net/src/test/java/com/github/tjake/jlama/net/JlamaServiceTest.java
@@ -31,7 +31,7 @@
 
 public class JlamaServiceTest {
     JlamaServiceGrpc.JlamaServiceBlockingStub blockingStub;
-    JlamaServiceGrpc.JlamaServiceFutureStub futureStub;
+    JlamaServiceGrpc.JlamaServiceStub stub;
 
     @Rule
     public final GrpcCleanupRule grpcCleanup = new GrpcCleanupRule();
@@ -53,7 +53,7 @@ public void setup() throws Exception{
                 .directExecutor()
                 .build()));
 
-        futureStub = JlamaServiceGrpc.newFutureStub(grpcCleanup.register(InProcessChannelBuilder.forName(serverName)
+        stub = JlamaServiceGrpc.newStub(grpcCleanup.register(InProcessChannelBuilder.forName(serverName)
                 .directExecutor()
                 .build()));
     }
@@ -92,7 +92,7 @@ public void testNorm() {
                 .setSumSq(10)
                 .build();
 
-        ListenableFuture<NormResponse> response1 = futureStub.norm(request);
+        /*ListenableFuture<NormResponse> response1 = futureStub.norm(request);
         ListenableFuture<NormResponse> response2 = futureStub.norm(request);
         ListenableFuture<NormResponse> response3 = futureStub.norm(request);
         ListenableFuture<NormResponse> response4 = futureStub.norm(request);
@@ -101,7 +101,7 @@ public void testNorm() {
         assertThat(response1.resultNow().getSumSq()).isEqualTo(40);
         assertThat(response2.resultNow().getSumSq()).isEqualTo(40);
         assertThat(response3.resultNow().getSumSq()).isEqualTo(40);
-        assertThat(response4.resultNow().getSumSq()).isEqualTo(40);
+        assertThat(response4.resultNow().getSumSq()).isEqualTo(40);*/
     }
 
     class MockConfig extends Config {