[TVM] inference script #412

ismukhin · 2023-10-09T19:49:05Z

TODO:

Поддержка MXNet
Поддержка PyTorch (модели из torchvision модуля)
Поддержка ONNX (некоторые модели последних версий падают на стороне TVM)
Запуск инференса для вывода (1 итерация)
Замеры времени
Поддержка бенчмарка
Тест запуска бенчмарка
README для скриптов инференса и для бенчмарка

ismukhin · 2023-10-09T19:53:54Z

@valentina-kustikova, я унаследовал io_model_wrapper и transformer от MXNet, чтобы примерно накинуть шаблон для скрипта, думаю, их можно переписать средствами TVM, в документации вроде есть. Но по поводу версии TVM: документация на их сайте неполная, вероятно, его нужно действительно собирать из исходников для нормальной работы.

valentina-kustikova · 2023-10-11T17:01:03Z

@Rodimkov, в текущем PR будет располагаться реализация вывода. Просьба - отслеживать состояние реализации.

ismukhin · 2023-10-14T13:52:15Z

@valentina-kustikova, решил попробовать разделить эти скрипты по фреймворкам. Тогда вопрос: имеет ли смысл их засунуть в отдельную папку TVM?
Еще есть небольшая проблема: скрипт не хочет работать без строчки import mxnet падает с ошибкой free(): invalid size Аварийный останов (образ памяти сброшен на диск)
Хотя в самом скрипте inference_tvm_mxnet.py я не использую что-либо из mxnet, только в вспомогательном модуле.

src/inference/inference_tvm_mxnet.py

src/inference/tvm_auxiliary.py

ismukhin · 2023-10-20T12:48:29Z

@valentina-kustikova, пока промежуточный результат примерно такой:

Если писать скрипты под каждый фреймворк, то нужно будет делать много наследований (под каждый фреймворк) в модулях бенчмарка под TVM.
В файл .csv почему-то не записывается input blob size, хотя структура идентична MXNet, в котором он записывается.
Если писать 1 общий скрипт, то вместо множества наследований будут проверки (например, для PyTorch и MXNet проверять расширение файла модели внутри скрипта инференса .pt и .json соответственно) параметров командной строки.

По итогу получается, что в обоих случаях придется в конфигах таскать много параметров

valentina-kustikova · 2023-10-21T12:26:18Z

src/benchmark/frameworks/tvm/tvm_process.py

+        return f'{common_params}'
+
+
+class MXNet_TVMProcess(TVMProcess):


Может, назвать класс TVMProcessMXNetFormat?

valentina-kustikova · 2023-10-21T12:31:57Z

src/inference/tvm_auxiliary.py

+            model, params = tvm.relay.frontend.from_mxnet(net, shape_dict)
+            with tvm.transform.PassContext(opt_level=3):
+                lib = tvm.relay.build(model, target=target, params=params)
+            module = tvm.contrib.graph_executor.GraphModule(lib["default"](dev))


Может быть, конвертацию под каждый фреймворк стоит вынести в отдельный метод?

Предлагаю сделать их приватными и вызывать в обертке в зависимости от фреймворка

def convert_model(self, framework): if framework == 'mxnet': _convert_from_mxnet(self)

Как-то так примерно

def _convert_from_mxnet(self): import mxnet, gluoncv if self.args['device'] == 'CPU': context = mxnet.cpu() model_name = self.args['model_name'] log.info(f'Loading network \"{model_name}\" from GluonCV model zoo') net = gluoncv.model_zoo.get_model(model_name, pretrained=True, ctx=context) shape_dict = {self.args['input_name']: self.args['input_shape']} log.info('Creating graph module from MXNet model') model, params = tvm.relay.frontend.from_mxnet(net, shape_dict) with tvm.transform.PassContext(opt_level=3): lib = tvm.relay.build(model, target=target, params=params) module = tvm.contrib.graph_executor.GraphModule(lib["default"](dev)) return module def convert_model(self, framework): if framework == 'mxnet': module = self._convert_from_mxnet() return module elif framework == 'pytorch': ...

valentina-kustikova · 2023-10-21T12:42:28Z

@valentina-kustikova, пока промежуточный результат примерно такой:

Если писать скрипты под каждый фреймворк, то нужно будет делать много наследований (под каждый фреймворк) в модулях бенчмарка под TVM.

В файл .csv почему-то не записывается input blob size, хотя структура идентична MXNet, в котором он записывается.

Если писать 1 общий скрипт, то вместо множества наследований будут проверки (например, для PyTorch и MXNet проверять расширение файла модели внутри скрипта инференса .pt и .json соответственно) параметров командной строки.

По итогу получается, что в обоих случаях придется в конфигах таскать много параметров

Вопросы 1 и 3 связанные, договорились, что делаем несколько скриптов.

Вопрос 2: input blob size в csv получается в результате парсинга того, что логирует скрипт инференса вот в этой строке:

log.info(f'Shape for input layer {args.input_name}: {args.input_shape}')

ismukhin · 2023-10-25T15:44:57Z

@valentina-kustikova, немного переделал вспомогательный модуль, потому что проблему #412 (comment) я недооценил, она возникает, на самом деле, у всех фреймворков, просто я не создавал объекты device как у MXNet, поэтому сложилось впечатление, что это только у MXNet
Также не могу понять, почему падает smoke test для tvm_pytorch, я делаю тоже самое, что и в скрипте инференса для PyTorch, очень странно. На моей машине скрипт работает нормально

valentina-kustikova · 2023-10-25T16:04:32Z

@valentina-kustikova, немного переделал вспомогательный модуль, потому что проблему #412 (comment) я недооценил, она возникает, на самом деле, у всех фреймворков, просто я не создавал объекты device как у MXNet, поэтому сложилось впечатление, что это только у MXNet Также не могу понять, почему падает smoke test для tvm_pytorch, я делаю тоже самое, что и в скрипте инференса для PyTorch, очень странно. На моей машине скрипт работает нормально

@ismukhin, не понятно, удалось ли побороть первую проблему?

По второму в трассе тестов (если по ним нажать) написано: Traceback (most recent call last):\n', ' File "/home/runner/work/dl-benchmark/dl-benchmark/src/inference/inference_tvm_pytorch.py", line 208, in main\n', ' graph_module = converter.get_graph_module()\n', ' File "/home/runner/work/dl-benchmark/dl-benchmark/src/inference/tvm_auxiliary.py", line 30, in get_graph_module\n', ' module = self._convert_model_from_framework(target, dev)\n', ' File "/home/runner/work/dl-benchmark/dl-benchmark/src/inference/inference_tvm_pytorch.py", line 143, in _convert_model_from_framework\n', ' pt_model = pt_model(weights=True)\n', "TypeError: init() got an unexpected keyword argument 'weights'\n", т.е. pt_model получает неожиданный аргумент, у него просто нет такого аргумента. Проверять работу тестов можно локально, запуская скрипт, там пишется лог с ошибками.

ismukhin · 2023-10-25T16:10:51Z

@valentina-kustikova, немного переделал вспомогательный модуль, потому что проблему #412 (comment) я недооценил, она возникает, на самом деле, у всех фреймворков, просто я не создавал объекты device как у MXNet, поэтому сложилось впечатление, что это только у MXNet Также не могу понять, почему падает smoke test для tvm_pytorch, я делаю тоже самое, что и в скрипте инференса для PyTorch, очень странно. На моей машине скрипт работает нормально

@ismukhin, не понятно, удалось ли побороть первую проблему?

По второму в трассе тестов (если по ним нажать) написано: Traceback (most recent call last):\n', ' File "/home/runner/work/dl-benchmark/dl-benchmark/src/inference/inference_tvm_pytorch.py", line 208, in main\n', ' graph_module = converter.get_graph_module()\n', ' File "/home/runner/work/dl-benchmark/dl-benchmark/src/inference/tvm_auxiliary.py", line 30, in get_graph_module\n', ' module = self._convert_model_from_framework(target, dev)\n', ' File "/home/runner/work/dl-benchmark/dl-benchmark/src/inference/inference_tvm_pytorch.py", line 143, in _convert_model_from_framework\n', ' pt_model = pt_model(weights=True)\n', "TypeError: init() got an unexpected keyword argument 'weights'\n", т.е. pt_model получает неожиданный аргумент, у него просто нет такого аргумента. Проверять работу тестов можно локально, запуская скрипт, там пишется лог с ошибками.

Первую проблему удалось решить в таком варианте, который я залил.
А вот со smoke_test'ом вопрос в том, что в скрипте inference_pytorch.py во время загрузки модели делается тоже самое и переменная спокойно принимает аргумент weights. Локально у меня работает это дело без ошибок, не падает, а вот в smoke_test почему-то падает.
Надо внимательно посмотреть ещё раз.

valentina-kustikova · 2023-10-25T16:13:38Z

@valentina-kustikova, немного переделал вспомогательный модуль, потому что проблему #412 (comment) я недооценил, она возникает, на самом деле, у всех фреймворков, просто я не создавал объекты device как у MXNet, поэтому сложилось впечатление, что это только у MXNet Также не могу понять, почему падает smoke test для tvm_pytorch, я делаю тоже самое, что и в скрипте инференса для PyTorch, очень странно. На моей машине скрипт работает нормально

@ismukhin, не понятно, удалось ли побороть первую проблему?
По второму в трассе тестов (если по ним нажать) написано: Traceback (most recent call last):\n', ' File "/home/runner/work/dl-benchmark/dl-benchmark/src/inference/inference_tvm_pytorch.py", line 208, in main\n', ' graph_module = converter.get_graph_module()\n', ' File "/home/runner/work/dl-benchmark/dl-benchmark/src/inference/tvm_auxiliary.py", line 30, in get_graph_module\n', ' module = self._convert_model_from_framework(target, dev)\n', ' File "/home/runner/work/dl-benchmark/dl-benchmark/src/inference/inference_tvm_pytorch.py", line 143, in _convert_model_from_framework\n', ' pt_model = pt_model(weights=True)\n', "TypeError: init() got an unexpected keyword argument 'weights'\n", т.е. pt_model получает неожиданный аргумент, у него просто нет такого аргумента. Проверять работу тестов можно локально, запуская скрипт, там пишется лог с ошибками.

Первую проблему удалось решить в таком варианте, который я залил. А вот со smoke_test'ом вопрос в том, что в скрипте inference_pytorch.py во время загрузки модели делается тоже самое и переменная спокойно принимает аргумент weights. Локально у меня работает это дело без ошибок, не падает, а вот в smoke_test почему-то падает. Надо внимательно посмотреть ещё раз.

Надо попробовать локально запустить smoke-тест, только ваш и посмотреть результат.

ismukhin · 2023-10-25T17:44:53Z

@valentina-kustikova, оказалось, что имя модели нужно задавать только буквами нижнего регистра.

valentina-kustikova · 2023-10-25T18:06:04Z

@ismukhin, можно ревьюить все, что сделано? Статус пока драфт, поэтому и спрашиваю.

ismukhin · 2023-10-25T18:07:48Z

@ismukhin, можно ревьюить все, что сделано? Статус пока драфт, поэтому и спрашиваю.

Можно

ismukhin · 2023-10-25T18:09:59Z

В PyTorch пока что поддержка только моделей из torchvision модуля, поддержку моделей из файлов, думаю, занесу вместе с TF и TFLite

valentina-kustikova · 2023-10-25T18:29:11Z

В PyTorch пока что поддержка только моделей из torchvision модуля, поддержку моделей из файлов, думаю, занесу вместе с TF и TFLite

Хорошо, тогда переводите из состояния драфт, оставлю ревью.

@Rodimkov, предлагаю вам тоже посмотреть разработанный код.

valentina-kustikova

Нужно еще обновить README с описанием инференс-скриптов + шаблонный файл конфигурации + README к шаблонному файлу конфигурации.

valentina-kustikova · 2023-10-26T03:31:24Z

src/benchmark/frameworks/tvm/tvm_process.py

+
+        common_params = (f'-i {dataset} '
+                         f'-is {input_shape} -b {batch_size} -ni {iteration} '
+                         f'--report_path {self.report_path}')


Лучше в 2 строки написать, а не 3.

valentina-kustikova · 2023-10-26T03:32:36Z

src/benchmark/frameworks/tvm/tvm_process.py

+            common_params = (f'-m {model_json} -w {model_params} ')
+        else:
+            raise Exception('Incorrect model parameters. Set model name or file names.')
+        path_to_sync_script = Path.joinpath(self.inference_script_root,


Лучше переименовать в path_to_script, поскольку здесь явно режимов нет.

valentina-kustikova · 2023-10-26T03:33:15Z

src/benchmark/frameworks/tvm/tvm_process.py

+            common_params = (f'-m {model_json} -w {model_params} ')
+        else:
+            raise Exception('Incorrect model parameters. Set model name or file names.')
+        path_to_sync_script = Path.joinpath(self.inference_script_root,


Лучше переименовать в path_to_script, поскольку здесь явно режимов нет.

valentina-kustikova · 2023-10-26T03:33:33Z

src/benchmark/frameworks/tvm/tvm_process.py

+    def _fill_command_line(self):
+        model = self._test.model.model
+        common_params = f'-m {model} '
+        path_to_sync_script = Path.joinpath(self.inference_script_root,


Лучше переименовать в path_to_script, поскольку здесь явно режимов нет.

valentina-kustikova · 2023-10-26T03:36:51Z

src/inference/inference_tvm_mxnet.py

+        shape_dict = {self.args['input_name']: self.args['input_shape']}
+        log.info('Creating graph module from MXNet model')
+        model, params = tvm.relay.frontend.from_mxnet(net, shape_dict)
+        with tvm.transform.PassContext(opt_level=3):


Вот здесь выставляется уровень оптимизации, но не понятно, почему именно такой?

В TVM по умолчанию 2, если не указывать явно. Но в примерах и прочем используют 3. Возможно стоит задать параметром, это влияет на производительность.

А на этот параметр есть какие-то ограничения? Потому что я выставляю и 10, и 100, и 1000 и оно работает.

Как я понимаю там стоит условие, что оптимизация используется если ее уровень не меньше указанного в opt_level. Максимальный уровень у оптимизаций 4, то есть при opt_level=4 и выше будут включены все оптимизации.

valentina-kustikova · 2023-10-26T03:42:27Z

src/inference/inference_tvm_mxnet.py

+            log.info('Converting output tensor to print results')
+            res = prepare_output(result, args.task, args.output_names)
+            log.info('Inference results')
+            io.process_output(res, log)


Во всех скриптах вывода есть параметр raw_output, поэтому печать выполняется так, как показано ниже. В целом по структуре (логические отступы и прочее) основной функции надо посмотреть в других скриптах вывода, например, в onnx

if not args.raw_output: if args.number_iter == 1: try: log.info('Converting output tensor to print results') result = prepare_output(result, args.output_names, args.model_name, args.task, args) log.info('Inference results') io.process_output(result, log) except Exception as ex: log.warning('Error when printing inference results. {0}'.format(str(ex))) log.info(f'Performance results:\n{json.dumps(inference_result, indent=4)}')

valentina-kustikova · 2023-10-26T03:44:20Z

src/inference/inference_tvm_onnx.py

+            log.info('Converting output tensor to print results')
+            res = prepare_output(result, args.task, args.output_names)
+            log.info('Inference results')
+            io.process_output(res, log)


Аналогичный комментарий.

valentina-kustikova · 2023-10-26T03:45:45Z

src/inference/inference_tvm_pytorch.py

+    module.set_input(input_name, slice_input[input_name])
+    module.run()
+    res = module.get_output(0)
+    return res


А мы можем вот эти три функции вытащить в отдельный скрипт? Если я правильно вижу, то они дублируются для всех фреймворков.

valentina-kustikova · 2023-10-26T03:46:11Z

src/inference/inference_tvm_pytorch.py

+            log.info('Converting output tensor to print results')
+            res = prepare_output(result, args.task, args.output_names)
+            log.info('Inference results')
+            io.process_output(res, log)


Аналогичный комментарий касательно структуры скрипта.

valentina-kustikova · 2023-10-26T03:47:26Z

src/inference/tvm_auxiliary.py

+        if device == 'CPU':
+            log.info(f'Inference will be executed on {device}')
+            target = tvm.target.Target('llvm')
+            dev = tvm.cpu(0)


А если передан не CPU? Тем более, что вроде бы для MXNet фигурирует NVIDIA_GPU.

Rodimkov · 2023-10-26T08:05:53Z

src/inference/transformer.py

+                         self._converting['mean'][1],
+                         self._converting['mean'][2]])
+        for i in range(image.shape[2]):
+            image[:, :, i] /= 255


А зачем тут всегда делать на 255?

Я предполагаю, что std и mean подаются в диапазоне от [0,1], поэтому все пиксели изображения нормируются. В любом случае, нормировка — опциональный параметр. И я пока что имел дело только с ImageNET'овскими std и mean, которые бывают как нормированные, так и не нормированные.

ismukhin · 2023-10-29T12:30:45Z

@valentina-kustikova, исправления выложил

valentina-kustikova · 2023-10-29T12:44:35Z

src/benchmark/README.md

@@ -17,6 +17,7 @@
 - [OpenCV][opencv].
 - [MXNet][mxnet].
 - [PyTorch][pytorch].
+- [TVM][tvm].


В основном readme в корне репозитория тоже надо добавить такую строчку.

valentina-kustikova · 2023-10-29T12:52:43Z

@maslovaz, @n-berezina-nn, написали поддержку бенчмаркинга средствами TVM моделей в формате MXNet, PyTorch, ONNRuntime. Посмотрите, пожалуйста. Отдельным пулл-реквестом добавим поддержку бенчмаркинга моделей в формате TensorFlow, TensorFlow lite и оптимизированных моделей в формате TVM.

valentina-kustikova · 2023-10-29T12:53:21Z

TODO:

Поддержка MXNet

Поддержка PyTorch

Поддержка ONNX (падают на стороне TVM)

Запуск инференса для вывода (1 итерация)

Замеры времени

Поддержка бенчмарка

Тест запуска бенчмарка

@ismukhin, обновите, пожалуйста, этот статус в соответствии с тем, что сейчас сделано. Спасибо!

valentina-kustikova · 2023-11-04T18:43:32Z

@maslovaz, @n-berezina-nn, написали поддержку бенчмаркинга средствами TVM моделей в формате MXNet, PyTorch, ONNRuntime. Посмотрите, пожалуйста. Отдельным пулл-реквестом добавим поддержку бенчмаркинга моделей в формате TensorFlow, TensorFlow lite и оптимизированных моделей в формате TVM.

@maslovaz, @n-berezina-nn, посмотрите, или мы заливаем?

raw tvm inference

974ebc2

ismukhin marked this pull request as draft October 9, 2023 19:50

valentina-kustikova requested review from valentina-kustikova and Rodimkov October 11, 2023 16:59

pytorch, onnx and time measurements

b1cbed7

valentina-kustikova reviewed Oct 15, 2023

View reviewed changes

ismukhin added 7 commits October 17, 2023 22:08

Merge branch 'master' into tvm_inference

d017099

template for tvm benchmark

e769268

some features

9d48c08

benchmark support

2006dd9

examination of None type for framework

0ba6146

fix

72938be

fix1

d5afb7c

valentina-kustikova reviewed Oct 21, 2023

View reviewed changes

ismukhin added 7 commits October 25, 2023 13:35

Merge branch 'master' into tvm_inference

f53df5d

support of onnx and pytorch(torchvision)

9fa26d0

pytorch and codestyle fixes

92e97b1

fixes

5689413

fixes1

02f6f21

fixes2

1ade071

fixes3

429b730

fixes4

581199a

valentina-kustikova self-requested a review October 25, 2023 18:29

ismukhin marked this pull request as ready for review October 25, 2023 18:30

valentina-kustikova reviewed Oct 26, 2023

View reviewed changes

Rodimkov reviewed Oct 26, 2023

View reviewed changes

ismukhin added 2 commits October 29, 2023 02:19

fixes

d44ba48

fixes1

463ec43

valentina-kustikova reviewed Oct 29, 2023

View reviewed changes

valentina-kustikova requested review from maslovaz and n-berezina-nn October 29, 2023 12:50

readme update

d68d22b

valentina-kustikova approved these changes Oct 29, 2023

View reviewed changes

maslovaz approved these changes Nov 7, 2023

View reviewed changes

valentina-kustikova merged commit 8bbd440 into itlab-vision:master Nov 7, 2023
3 checks passed

ismukhin mentioned this pull request Nov 27, 2023

[TVM] Model converters, tvm_pytorch features and inference tvm #436

Merged

7 tasks

		return f'{common_params}'


		class MXNet_TVMProcess(TVMProcess):

[TVM] inference script #412

[TVM] inference script #412

Conversation

ismukhin commented Oct 9, 2023 • edited Loading

ismukhin commented Oct 9, 2023 • edited Loading

valentina-kustikova commented Oct 11, 2023

ismukhin commented Oct 14, 2023

ismukhin commented Oct 20, 2023 • edited Loading

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

valentina-kustikova commented Oct 21, 2023

ismukhin commented Oct 25, 2023 • edited Loading

valentina-kustikova commented Oct 25, 2023

ismukhin commented Oct 25, 2023

valentina-kustikova commented Oct 25, 2023

ismukhin commented Oct 25, 2023

valentina-kustikova commented Oct 25, 2023

ismukhin commented Oct 25, 2023

ismukhin commented Oct 25, 2023 • edited Loading

valentina-kustikova commented Oct 25, 2023

valentina-kustikova left a comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

ismukhin commented Oct 29, 2023

Choose a reason for hiding this comment

valentina-kustikova commented Oct 29, 2023

valentina-kustikova commented Oct 29, 2023

valentina-kustikova commented Nov 4, 2023

ismukhin commented Oct 9, 2023 •

edited

Loading

ismukhin commented Oct 9, 2023 •

edited

Loading

ismukhin commented Oct 20, 2023 •

edited

Loading

ismukhin commented Oct 25, 2023 •

edited

Loading

ismukhin commented Oct 25, 2023 •

edited

Loading