【監視】統計の基本について

■ 目次


 

1. はじめに

本を買ったので勉強した内容をアウトプットしていきたいと思います。
 

1.1. 統計の種類について

  • 算術平均 (mean)
    • 集合のすべての値を足して、週五黄の要素数で割った値
  • 移動平均 (moving avaerage)
    • 最近取得したデータポイント群で平均を計算した値
  • 中央値 (median)
    • データを大きい順に並べたとき、真ん中にある値
  • パーセンタイル値 (percentile)
    • データの個数に着目し、パーセントで順位を表す値
  • 標準偏差 (standard deviation)
    • 分散を平方根にとることによって求められる値

 

2. 算術平均 (mean) とは

  • 集合のすべての値を足して、集合の要素数で割った値
  • その集合がどのようなものかを表すことができる
テストの平均点などになります。

 

3. 移動平均 (moving avaerage) とは

  • 最近、取得したデータポイント群で平均を計算した値
  • 凸凹の多いグラフをなめらかにして、傾向を把握しやすくなる
  • 平滑化(へいかつか)しすぎると重要なデータポイントを見落としてしまう可能性があるので注意
 

3.1. サンプル例

【順列:数字】:【1:5、2:8、3:4、4:9、5:2、6:4、7:8、8:2、9:9、10:2】 ↑のをグラフ化すると、下記画像のように凸凹している。
例えば、数字を 3 個ずつ区切っていくと下記のようになる。
(四捨五入をしている。)
  • 1,【1,2,3】-> 5.7
  • 2,【2,3,4】-> 7
  • 3,【3,4,5】-> 5
  • 4,【4,5,6】-> 5
  • 5,【5,6,7】-> 4.7
  • 6,【6,7,8】-> 4.7
  • 7,【7,8,9】-> 6.3
  • 8,【8,9,10】-> 4.3
  • 9,【9,10】-> 5.5
↑の数字をグラフ化すると下記のグラフのように滑らかになっていく。
- 連続した値の適当な箇所で区切って平均化をする。 - 実際の監視のなかでも、ロードアベレージ(Load Average)の算出に移動平均(Moving Average)が使われている。

 

4. 中央値 (median) とは

  • データを大きい順に並べた時、真ん中の値を中央値という
  • データの数が偶数のときは「真ん中の値」が 2 つ存在するので、それらを足して 2 で割ったものを中央値とする
  • 異様に大きかったり小さかったりするデータがある場合、平均よりも中央値を求める方が妥当である
データを小さい順に並べた際に真ん中にくる値が中央値 – 奇数の場合は、真ん中の値 – 1、10、12、13、28 -> 12 が中央値 – 偶数の場合は、中央の数を足して 2 で割った値 – 1,10,12,13,28,34 -> (12 + 13) / 2 -> 12.5 が中央値

 

5. パーセンタイル値 (percentile) とは

  • データの個数に着目し、パーセントで順位を表す値
  • 外れ値を無視してサービス品質を評価できる。突発的なイレギュラーに踊らされず、大局を見られる
  • 残りの値を捨てているので、最大値が高すぎる場合も加味して考えた方がよい
 

5.1. サンプル例 1

次のようなデータポイントが 10 個あるとした場合に、 80 パーセンタイル値だと 7.5 になる。

5.2. サンプル例 2

100人居た場合の例として…
  • 2 パーセンタイル = 前から 2 番目の人
  • 16 パーセンタイル = 前から 16 番目の人
  • 50 パーセンタイル = 前から 55 番目の人(中央)
  • 99 パーセンタイル = 前から 99 番目の人
メモ - 「Percent」という言葉がはいってることからも、「そのデータポイントが下から何パーセント目にあたるか」ということを表す。 - パーセンタイルを使う際のメリットとして、外れ値を無視してサービス品質を評価が出来る。

 

6. 標準偏差 (standard deviation) とは

  • 分数を平方根にとることによって求められる値
  • データや確率変数の散らばり具合を表すことができる
  • 非正規分布には標準偏差を適用できない。平均値より上と下のパーセンテージについて正確に語ることができなくなるためである
あまり理解出来ていない。