keras-team
diff --git a/‎keras_hub/src/layers/preprocessing/multi_segment_packer.py
Lines changed: 17 additions & 3 deletions b/‎keras_hub/src/layers/preprocessing/multi_segment_packer.py
Lines changed: 17 additions & 3 deletions
diff --git a/‎keras_hub/src/layers/preprocessing/multi_segment_packer_test.py
Lines changed: 173 additions & 0 deletions b/‎keras_hub/src/layers/preprocessing/multi_segment_packer_test.py
Lines changed: 173 additions & 0 deletions
@@ -3,6 +3,7 @@
     PreprocessingLayer,
 )
 from keras_hub.src.utils.tensor_utils import convert_to_ragged_batch
+from keras_hub.src.utils.tensor_utils import pad
 from keras_hub.src.utils.tensor_utils import preprocessing_function
 
 try:
@@ -66,6 +67,8 @@ class MultiSegmentPacker(PreprocessingLayer):
                 "waterfall" algorithm that allocates quota in a
                 left-to-right manner and fills up the buckets until we run
                 out of budget. It support arbitrary number of segments.
+        padding_side: str. Whether to pad the input on the "left" or "right".
+            Defaults to "right".
 
     Returns:
         A tuple with two elements. The first is the dense, packed token
@@ -124,6 +127,7 @@ def __init__(
         sep_value=None,
         pad_value=None,
         truncate="round_robin",
+        padding_side="right",
         **kwargs,
     ):
         super().__init__(**kwargs)
@@ -162,6 +166,7 @@ def check_special_value_type(value, value_name):
         self.end_value = end_value
 
         self.pad_value = pad_value
+        self.padding_side = padding_side
 
     def get_config(self):
         config = super().get_config()
@@ -173,6 +178,7 @@ def get_config(self):
                 "sep_value": self._sep_value,
                 "pad_value": self.pad_value,
                 "truncate": self.truncate,
+                "padding_side": self.padding_side,
             }
         )
         return config
@@ -287,10 +293,18 @@ def call(
         # Pad to dense tensor output.
         sequence_length = sequence_length or self.sequence_length
         shape = tf.cast([-1, sequence_length], "int64")
-        token_ids = token_ids.to_tensor(
-            shape=shape, default_value=self.pad_value
+        token_ids = pad(
+            token_ids,
+            shape=shape,
+            padding_side=self.padding_side,
+            pad_value=self.pad_value,
+        )
+        segment_ids = pad(
+            segment_ids,
+            shape=shape,
+            padding_side=self.padding_side,
+            pad_value=0,
         )
-        segment_ids = segment_ids.to_tensor(shape=shape)
         # Remove the batch dim if added.
         if unbatched:
             token_ids = tf.squeeze(token_ids, 0)
 
@@ -8,6 +8,7 @@
 
 class MultiSegmentPackerTest(TestCase):
     def test_trim_single_input_ints(self):
+        # right padding
         input_data = np.arange(3, 10)
         packer = MultiSegmentPacker(
             sequence_length=8, start_value=1, end_value=2
@@ -16,7 +17,20 @@ def test_trim_single_input_ints(self):
         self.assertAllEqual(token_ids, [1, 3, 4, 5, 6, 7, 8, 2])
         self.assertAllEqual(segment_ids, [0, 0, 0, 0, 0, 0, 0, 0])
 
+        # left padding
+        input_data = np.arange(3, 10)
+        packer = MultiSegmentPacker(
+            sequence_length=8,
+            start_value=1,
+            end_value=2,
+            padding_side="left",
+        )
+        token_ids, segment_ids = packer(input_data)
+        self.assertAllEqual(token_ids, [1, 3, 4, 5, 6, 7, 8, 2])
+        self.assertAllEqual(segment_ids, [0, 0, 0, 0, 0, 0, 0, 0])
+
     def test_trim_single_input_strings(self):
+        # right padding
         input_data = ["a", "b", "c", "d"]
         packer = MultiSegmentPacker(
             sequence_length=5, start_value="[CLS]", end_value="[SEP]"
@@ -25,7 +39,19 @@ def test_trim_single_input_strings(self):
         self.assertAllEqual(token_ids, ["[CLS]", "a", "b", "c", "[SEP]"])
         self.assertAllEqual(segment_ids, [0, 0, 0, 0, 0])
 
+        # left padding
+        packer = MultiSegmentPacker(
+            sequence_length=5,
+            start_value="[CLS]",
+            end_value="[SEP]",
+            padding_side="left",
+        )
+        token_ids, segment_ids = packer(input_data)
+        self.assertAllEqual(token_ids, ["[CLS]", "a", "b", "c", "[SEP]"])
+        self.assertAllEqual(segment_ids, [0, 0, 0, 0, 0])
+
     def test_trim_multiple_inputs_round_robin(self):
+        # right padding
         seq1 = ["a", "b", "c"]
         seq2 = ["x", "y", "z"]
         packer = MultiSegmentPacker(
@@ -40,7 +66,22 @@ def test_trim_multiple_inputs_round_robin(self):
         )
         self.assertAllEqual(segment_ids, [0, 0, 0, 0, 1, 1, 1])
 
+        # left padding
+        packer = MultiSegmentPacker(
+            sequence_length=7,
+            start_value="[CLS]",
+            end_value="[SEP]",
+            truncate="round_robin",
+            padding_side="left",
+        )
+        token_ids, segment_ids = packer((seq1, seq2))
+        self.assertAllEqual(
+            token_ids, ["[CLS]", "a", "b", "[SEP]", "x", "y", "[SEP]"]
+        )
+        self.assertAllEqual(segment_ids, [0, 0, 0, 0, 1, 1, 1])
+
     def test_trim_multiple_inputs_waterfall(self):
+        # right padding
         seq1 = ["a", "b", "c"]
         seq2 = ["x", "y", "z"]
         packer = MultiSegmentPacker(
@@ -55,7 +96,22 @@ def test_trim_multiple_inputs_waterfall(self):
         )
         self.assertAllEqual(segment_ids, [0, 0, 0, 0, 0, 1, 1])
 
+        # left padding
+        packer = MultiSegmentPacker(
+            sequence_length=7,
+            start_value="[CLS]",
+            end_value="[SEP]",
+            truncate="waterfall",
+            padding_side="left",
+        )
+        token_ids, segment_ids = packer((seq1, seq2))
+        self.assertAllEqual(
+            token_ids, ["[CLS]", "a", "b", "c", "[SEP]", "x", "[SEP]"]
+        )
+        self.assertAllEqual(segment_ids, [0, 0, 0, 0, 0, 1, 1])
+
     def test_trim_batched_inputs_round_robin(self):
+        # right padding
         seq1 = [["a", "b", "c"], ["a", "b", "c"]]
         seq2 = [["x", "y", "z"], ["x", "y", "z"]]
         packer = MultiSegmentPacker(
@@ -80,7 +136,32 @@ def test_trim_batched_inputs_round_robin(self):
             ],
         )
 
+        # left padding
+        packer = MultiSegmentPacker(
+            sequence_length=7,
+            start_value="[CLS]",
+            end_value="[SEP]",
+            truncate="round_robin",
+            padding_side="left",
+        )
+        token_ids, segment_ids = packer((seq1, seq2))
+        self.assertAllEqual(
+            token_ids,
+            [
+                ["[CLS]", "a", "b", "[SEP]", "x", "y", "[SEP]"],
+                ["[CLS]", "a", "b", "[SEP]", "x", "y", "[SEP]"],
+            ],
+        )
+        self.assertAllEqual(
+            segment_ids,
+            [
+                [0, 0, 0, 0, 1, 1, 1],
+                [0, 0, 0, 0, 1, 1, 1],
+            ],
+        )
+
     def test_trim_batched_inputs_waterfall(self):
+        # right padding
         seq1 = [["a", "b", "c"], ["a", "b"]]
         seq2 = [["x", "y", "z"], ["x", "y", "z"]]
         packer = MultiSegmentPacker(
@@ -105,7 +186,32 @@ def test_trim_batched_inputs_waterfall(self):
             ],
         )
 
+        # left padding
+        packer = MultiSegmentPacker(
+            sequence_length=7,
+            start_value="[CLS]",
+            end_value="[SEP]",
+            truncate="waterfall",
+            padding_side="left",
+        )
+        token_ids, segment_ids = packer((seq1, seq2))
+        self.assertAllEqual(
+            token_ids,
+            [
+                ["[CLS]", "a", "b", "c", "[SEP]", "x", "[SEP]"],
+                ["[CLS]", "a", "b", "[SEP]", "x", "y", "[SEP]"],
+            ],
+        )
+        self.assertAllEqual(
+            segment_ids,
+            [
+                [0, 0, 0, 0, 0, 1, 1],
+                [0, 0, 0, 0, 1, 1, 1],
+            ],
+        )
+
     def test_pad_inputs(self):
+        # right padding
         seq1 = ["a"]
         seq2 = ["x"]
         packer = MultiSegmentPacker(
@@ -118,7 +224,23 @@ def test_pad_inputs(self):
         )
         self.assertAllEqual(segment_ids, [0, 0, 0, 1, 1, 0])
 
+        # left padding
+        packer = MultiSegmentPacker(
+            6,
+            start_value="[CLS]",
+            end_value="[SEP]",
+            pad_value="[PAD]",
+            padding_side="left",
+        )
+        token_ids, segment_ids = packer((seq1, seq2))
+        self.assertAllEqual(
+            token_ids,
+            ["[PAD]", "[CLS]", "a", "[SEP]", "x", "[SEP]"],
+        )
+        self.assertAllEqual(segment_ids, [0, 0, 0, 0, 1, 1])
+
     def test_pad_batched_inputs(self):
+        # right padding
         seq1 = [["a"], ["a"]]
         seq2 = [["x"], ["x", "y"]]
         packer = MultiSegmentPacker(
@@ -143,7 +265,32 @@ def test_pad_batched_inputs(self):
             ],
         )
 
+        # left padding
+        packer = MultiSegmentPacker(
+            sequence_length=7,
+            start_value="[CLS]",
+            end_value="[SEP]",
+            pad_value="[PAD]",
+            padding_side="left",
+        )
+        token_ids, segment_ids = packer((seq1, seq2))
+        self.assertAllEqual(
+            token_ids,
+            [
+                ["[PAD]", "[PAD]", "[CLS]", "a", "[SEP]", "x", "[SEP]"],
+                ["[PAD]", "[CLS]", "a", "[SEP]", "x", "y", "[SEP]"],
+            ],
+        )
+        self.assertAllEqual(
+            segment_ids,
+            [
+                [0, 0, 0, 0, 0, 1, 1],
+                [0, 0, 0, 0, 1, 1, 1],
+            ],
+        )
+
     def test_list_special_tokens(self):
+        # right padding
         seq1 = [["a", "b"], ["a", "b"]]
         seq2 = [["x", "y"], ["x"]]
         packer = MultiSegmentPacker(
@@ -170,6 +317,32 @@ def test_list_special_tokens(self):
             ],
         )
 
+        # left padding
+        packer = MultiSegmentPacker(
+            8,
+            start_value="<s>",
+            end_value="</s>",
+            sep_value=["</s>", "</s>"],
+            pad_value="<pad>",
+            truncate="round_robin",
+            padding_side="left",
+        )
+        token_ids, segment_ids = packer((seq1, seq2))
+        self.assertAllEqual(
+            token_ids,
+            [
+                ["<s>", "a", "b", "</s>", "</s>", "x", "y", "</s>"],
+                ["<pad>", "<s>", "a", "b", "</s>", "</s>", "x", "</s>"],
+            ],
+        )
+        self.assertAllEqual(
+            segment_ids,
+            [
+                [0, 0, 0, 0, 0, 1, 1, 1],
+                [0, 0, 0, 0, 0, 0, 1, 1],
+            ],
+        )
+
     def test_config(self):
         seq1 = [["a", "b", "c"], ["a", "b"]]
         seq2 = [["x", "y", "z"], ["x", "y", "z"]]