[Disk Manager] retry with new checkpoint id when create snapshot if shadow disk failed during filling #2691

gy2411 · 2024-12-13T09:47:25Z

#1950

Сейчас есть баг при создании снапшотов из disk registy based дисков. Чекпоинты для таких дисков делаются через теневой диск (shadow disk). Сейчас, если вот тут мы от чекпоинта с теневым диском получаем статус Error, то мы удаляем чекпоинт и ретраим таск. При ретрае таск падает при попытке создать чекпоинт с тем же id, что был у удалённого чекпоинта.

Теперь вместо этого мы при ретрае создаём чекпоинт с новым checkpoint id.

Также для воспроизведения падений теневого диска в интеграционных тестах нам нужно ходить в disk registry. Добавляю в nbs client нужный для этого код.

См. больше деталей в комментариях в #1950

Надо понимать, что эта правка ещё не полностью решает проблему с падением теневого диска. Подробнее написал в issue #1950.

…f shadow disk failed during its filling

github-actions · 2024-12-13T13:12:25Z

Note

This is an automated comment that will be appended during run.

🟢 linux-x86_64-relwithdebinfo: all tests PASSED for commit 35da72c.

TESTS	PASSED	ERRORS	FAILED	SKIPPED	MUTED^?
6618	6618	0	0	0	0

gy2411 · 2024-12-13T16:03:05Z

cloud/disk_manager/internal/pkg/services/snapshots/create_snapshot_from_disk_task.go

-	if err != nil {
-		return err
-	}
+	if t.state.FinalCheckpointID == "" {


Мотивировка этого if (и вообще мотивировка поля FinalCheckpointID) -- мы не должны обновлять чекпоинт, если мы уже зашедуллили dataplane таск с предыдущим чекпоинтом.

gy2411 · 2024-12-13T16:05:19Z

cloud/disk_manager/internal/pkg/services/snapshots/create_snapshot_from_disk_task.go


-	// NBS-1873: should always delete checkpoint.
-	err = nbsClient.DeleteCheckpoint(ctx, disk.DiskId, checkpointID)
+	err = t.deletePreviousCheckpoint(ctx, nbsClient)


Предыдущий чекпоинт тоже надо удалить -- таск мог пойти на отмену после инкремента FailedCheckpointsCount, но до удаления старого чекпоинта.

gy2411 · 2024-12-13T16:07:32Z

cloud/disk_manager/internal/pkg/facade/snapshot_service_test/snapshot_service_test.go

+	)
+}
+
+func TestCreateSnapshotFromDiskWithFailedShadowDiskLong(t *testing.T) {


Сделал два варианта теста с разными границами на интервал случайной зажержки, чтобы меньше зависеть от конкретных таймингов работы таска.

gy2411 · 2024-12-13T16:10:18Z

cloud/disk_manager/internal/pkg/clients/nbs/testing_client.go

+	}
+
+	input := fmt.Sprintf(
+		"{\"DisableAgent\":{\"AgentId\":\"%v\",\"DeviceUUIDs\":%v},\"Message\":\"%v\"}",


Хотя ручка и называется "DisableAgent", она не будет ломать весь агент, если ей передать непустой спасок девайсов. Она сломает только девайсы из этого списка.

Сломает -- значит, девайсы начнут отдавать ошибку в ответ на все запросы чтения и записи.

gy2411 · 2024-12-13T16:13:15Z

cloud/disk_manager/internal/pkg/services/snapshots/create_snapshot_from_disk_task.go

@@ -278,6 +293,7 @@ func (t *createSnapshotFromDiskTask) GetResponse() proto.Message {

 func (t *createSnapshotFromDiskTask) ensureCheckpointReady(


Тут есть конфликт с #2612 (там эта функция уносится в метод nbs-клиента). Придётся его порезолвить.

Кстати, в том pr делается удаление чекпоинта в методе EnsureCheckpointReady, а в этом pr предлагается вынести его за пределы EnsureCheckpointReady. Это важно: иначе будет возможен плохой сценарий, при котором таск пойдёт на ретрай уже после удаления чекпоинта, но еще не успев увеличить FailedCheckpointsCount.

gy2411 · 2024-12-13T16:15:23Z

cloud/disk_manager/test/recipe/nbs_launcher.py

@@ -75,6 +75,7 @@ def __init__(
        storage_config_patch.DisableLocalService = False
        storage_config_patch.InactiveClientsTimeout = 60000  # 1 min
        storage_config_patch.AgentRequestTimeout = 5000      # 5 sec
+        storage_config_patch.UseShadowDisksForNonreplDiskCheckpoints = True


Возможно, включение этой опции стоит сделать в отдельном pr (вот он: #2687)

github-actions · 2024-12-13T19:22:51Z

Note

This is an automated comment that will be appended during run.

🟢 linux-x86_64-relwithdebinfo: all tests PASSED for commit 3b88f28.

TESTS	PASSED	ERRORS	FAILED	SKIPPED	MUTED^?
6619	6619	0	0	0	0

…s update when retry shadow disk fail

github-actions · 2024-12-14T18:38:43Z

Note

This is an automated comment that will be appended during run.

🟢 linux-x86_64-relwithdebinfo: all tests PASSED for commit e5ab782.

TESTS	PASSED	ERRORS	FAILED	SKIPPED	MUTED^?
6624	6624	0	0	0	0

gy2411 added 4 commits December 13, 2024 12:38

[Disk Manager] add methods for disk registry to nbs client

6d80281

[Disk Manager] retry with new checkpoint id in create snapshot task i…

d7cd897

…f shadow disk failed during its filling

[Disk Manager] add test on snapshot creation with shadow disk failure

54278fb

[Disk Manager] enable shadow disks in disk manager large tests

35da72c

gy2411 added the large-tests Launch large tests for PR label Dec 13, 2024

gy2411 mentioned this pull request Dec 13, 2024

[Disk manager] Retry snapshot creation on shadow disk fail #1950

Open

minor improvements

3b88f28

gy2411 commented Dec 13, 2024

View reviewed changes

gy2411 added 3 commits December 14, 2024 15:03

[Disk Manager] add tests on disk registry methods of nbs client

2fff43a

[Disk Manager] create snapshot from disk: add unit test on checkpoint…

7cf5113

…s update when retry shadow disk fail

fix tests names

e5ab782

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[Disk Manager] retry with new checkpoint id when create snapshot if shadow disk failed during filling #2691

[Disk Manager] retry with new checkpoint id when create snapshot if shadow disk failed during filling #2691

gy2411 commented Dec 13, 2024 •

edited

Loading

github-actions bot commented Dec 13, 2024

gy2411 Dec 13, 2024 •

edited

Loading

gy2411 Dec 13, 2024

gy2411 Dec 13, 2024

gy2411 Dec 13, 2024

gy2411 Dec 13, 2024 •

edited

Loading

gy2411 Dec 13, 2024

github-actions bot commented Dec 13, 2024

github-actions bot commented Dec 14, 2024

		@@ -278,6 +293,7 @@ func (t *createSnapshotFromDiskTask) GetResponse() proto.Message {

		func (t *createSnapshotFromDiskTask) ensureCheckpointReady(

[Disk Manager] retry with new checkpoint id when create snapshot if shadow disk failed during filling #2691

Are you sure you want to change the base?

[Disk Manager] retry with new checkpoint id when create snapshot if shadow disk failed during filling #2691

Conversation

gy2411 commented Dec 13, 2024 • edited Loading

github-actions bot commented Dec 13, 2024

gy2411 Dec 13, 2024 • edited Loading

Choose a reason for hiding this comment

gy2411 Dec 13, 2024

Choose a reason for hiding this comment

gy2411 Dec 13, 2024

Choose a reason for hiding this comment

gy2411 Dec 13, 2024

Choose a reason for hiding this comment

gy2411 Dec 13, 2024 • edited Loading

Choose a reason for hiding this comment

gy2411 Dec 13, 2024

Choose a reason for hiding this comment

github-actions bot commented Dec 13, 2024

github-actions bot commented Dec 14, 2024

gy2411 commented Dec 13, 2024 •

edited

Loading

gy2411 Dec 13, 2024 •

edited

Loading

gy2411 Dec 13, 2024 •

edited

Loading