Reduce peak memory consumption during Datumaro and COCO extractors (#…

…1061) For importing COCO data, As-is: ![image](https://github.com/openvinotoolkit/datumaro/assets/89109581/fa662910-abdd-41fc-8d5b-7c6c90479639) To-be: ![image](https://github.com/openvinotoolkit/datumaro/assets/89109581/fc60606b-1167-4f77-8e5a-a60eb38793cb)
openvinotoolkit · Jul 6, 2023 · f00acf8 · f00acf8
1 parent 9be801a
commit f00acf8
Show file tree

Hide file tree

Showing 4 changed files with 27 additions and 10 deletions.
diff --git a/CHANGELOG.md b/CHANGELOG.md
@@ -33,6 +33,8 @@ and this project adheres to [Semantic Versioning](https://semver.org/spec/v2.0.0
   (<https://github.com/openvinotoolkit/datumaro/pull/1055>)
 - Add CVAT data format document
   (<https://github.com/openvinotoolkit/datumaro/pull/1060>)
+- Reduce peak memory usage when importing COCO and Datumaro formats
+  (<https://github.com/openvinotoolkit/datumaro/pull/1061>)
 - Enhance the error message for datum stats to be more user friendly
   (<https://github.com/openvinotoolkit/datumaro/pull/1069>)
 

diff --git a/src/datumaro/plugins/data_formats/coco/base.py b/src/datumaro/plugins/data_formats/coco/base.py
@@ -137,6 +137,8 @@ def __init__(
             self._mask_dir = osp.splitext(path)[0]
         self._items = self._load_items(json_data)
 
+        del json_data
+
     def __iter__(self):
         yield from self._items.values()
 
@@ -225,10 +227,16 @@ def _load_person_kp_categories(self, json_cat):
 
     def _load_items(self, json_data):
         pbars = self._ctx.progress_reporter.split(2)
+
+        def _gen_ann(info_lists):
+            while info_lists:
+                yield info_lists.pop()
+
         items = {}
         img_infos = {}
+        img_lists = self._parse_field(json_data, "images", list)
         for img_info in pbars[0].iter(
-            self._parse_field(json_data, "images", list),
+            _gen_ann(img_lists),
             desc=f"Parsing image info in '{osp.basename(self._path)}'",
         ):
             img_id = None
@@ -258,8 +266,9 @@ def _load_items(self, json_data):
                 self._ctx.error_policy.report_item_error(e, item_id=(img_id, self._subset))
 
         if self._task is not CocoTask.panoptic:
+            ann_lists = self._parse_field(json_data, "annotations", list)
             for ann in pbars[1].iter(
-                self._parse_field(json_data, "annotations", list),
+                _gen_ann(ann_lists),
                 desc=f"Parsing annotations in '{osp.basename(self._path)}'",
             ):
                 img_id = None
@@ -277,8 +286,9 @@ def _load_items(self, json_data):
                         e, item_id=(img_id, self._subset)
                     )
         else:
+            ann_lists = self._parse_field(json_data, "annotations", list)
             for ann in pbars[1].iter(
-                self._parse_field(json_data, "annotations", list),
+                _gen_ann(ann_lists),
                 desc=f"Parsing annotations in '{osp.basename(self._path)}'",
             ):
                 img_id = None

diff --git a/src/datumaro/plugins/data_formats/datumaro/base.py b/src/datumaro/plugins/data_formats/datumaro/base.py
@@ -148,7 +148,9 @@ def _load_categories(parsed):
     def _load_items(self, parsed):
         items = []
 
-        for item_desc in parsed["items"]:
+        item_descs = parsed["items"]
+        while item_descs:
+            item_desc = item_descs.pop()
             item_id = item_desc["id"]
 
             media = None

diff --git a/tests/unit/data_formats/datumaro/test_datumaro_format.py b/tests/unit/data_formats/datumaro/test_datumaro_format.py
@@ -64,7 +64,7 @@ def _test_save_and_load(
         [
             pytest.param(
                 "fxt_test_datumaro_format_dataset",
-                compare_datasets_strict,
+                compare_datasets,
                 True,
                 id="test_can_save_and_load",
             ),
@@ -76,13 +76,13 @@ def _test_save_and_load(
             ),
             pytest.param(
                 "fxt_relative_paths",
-                compare_datasets_strict,
+                compare_datasets,
                 True,
                 id="test_relative_paths",
             ),
             pytest.param(
                 "fxt_can_save_dataset_with_cjk_categories",
-                compare_datasets_strict,
+                compare_datasets,
                 True,
                 id="test_can_save_dataset_with_cjk_categories",
             ),
@@ -94,7 +94,7 @@ def _test_save_and_load(
             ),
             pytest.param(
                 "fxt_can_save_and_load_image_with_arbitrary_extension",
-                compare_datasets_strict,
+                compare_datasets,
                 True,
                 id="test_can_save_and_load_image_with_arbitrary_extension",
             ),
@@ -203,8 +203,11 @@ def test_inplace_save_writes_only_updated_data_with_direct_changes(self, test_di
             set(os.listdir(osp.join(test_dir, "annotations"))),
         )
         helper_tc.assertEqual({"2.jpg"}, set(os.listdir(osp.join(test_dir, "images", "a"))))
-        compare_datasets_strict(
-            helper_tc, expected, Dataset.import_from(test_dir, format=self.format)
+        compare_datasets(
+            helper_tc,
+            expected,
+            Dataset.import_from(test_dir, format=self.format),
+            require_media=True,
         )
 
     @mark_requirement(Requirements.DATUM_GENERAL_REQ)