2025年6月22日日曜日

デジタル庁クラウドチームのサービスレベルの計測の話の日本語が(´・ω・`)ショボーン

このエントリーをはてなブックマークに追加
Pocket

まず、用語の整理からはじめたい。業務システムの価値は、利便性とコストの削減になる。業務システムの信頼性、可用性、応答性などの状態を、サービスレベルと呼ぶ。サービスレベルを定量化して評価項目としたのが、サービスレベル指標(SLI)。SLIの目標値を、サービスレベル目標(SLO)と呼ぶ。

さて、本題のデジタル庁クラウドチームのサービスレベルの計測の話なのだが、言葉がおかしいことになっている。

GCASガイドの該当部分の冒頭を見てみよう。

3. サービスレベルの定義、計測

モダンなシステムの運用は、サービスやシステムがユーザーに価値を提供し続けるための活動であり、その価値を継続して提供できるようプロアクティブに活動すべきものと認識を改める必要がある。そのためにはサービスやシステムの価値をKPIとして定量的に定義し、KPIに対するサービスレベルを定義する。

定義したKPIやサービスレベルに対して、その内容を計測し、継続的に振り返り、改善することが重要となる。

「プロアクティブ」は積極的にとでも書いてくれないかとか、「サービスやシステム」はシステムだけで十分であろうと言うのは些事なので置くとして、「サービスやシステムの価値をKPIとして定量的に定義し、KPIに対するサービスレベルを定義する」はかなり問題がある。

システム導入による利便性の向上程度やコスト削減効果を評価するシステムなんて聞いたことが無いのだが。システムを導入しなかった場合と比較しないといけないので。サービスレベル合意(SLA)で約束するのは、稼働率やエラー率や応答時間に関するSLOだ。

私ならば「業務システムの信頼性、可用性、応答性などを定量化してサービスレベル指標(SLI)として定義し、サービスレベル目標(SLO)を定める」と書くところだ。重要業績評価指標(KPI)は誤りとは言えないが使うのは避けたほうがよい。業務システムで管理している利用者の業務目標もKPIだからだ。混乱を招く。

実際、クラウドチームの説明は、

KPIには稼働率やレスポンス、エラー率、登録ユーザー数などがあるが、そのサービスがどのような価値を提供するかによって異なる。

と、サービスレベルではないビジネス目標である登録ユーザー数を、サービスレベルとして取り上げてしまっている。ウェブのサービスにおいて登録ユーザー数は代表的なKPIであるが、それはビジネス上のKPIだ。システムとして問題になるのは応答性。登録ユーザー数が増えると難易度があがるが、SLIは応答性。

ユーザー数が急激に増えて不具合が出るインターネットのサービスはよくあるし、データが増えてきて応答性が極めて悪化した業務アプリもあると聞く。エンドユーザーから文句を言われて対応をはじめると、エンドユーザーの業務に支障が出る期間が長くなるし、ソフトウェアエンジニアも切羽詰って心理的につらいので、状況が重篤になる前に把握すべきと言うのは理がある話だ。

デジタル庁クラウドチームがサービスレベルを詳細かつ迅速に把握できるようにしておきましょうと言うのは分かるのだが、役所なのに言葉が粗くて残念なことになっている。サービスレベルを計測してPDCAをまわせと言っているクラウドチームの皆さん、文書表記もPDCAをまわしてください。

0 コメント:

コメントを投稿