統計の世界観です。
数学に詳しい父親の話を参考にしています。
統計とは、「ものごとについて変化を調査し、数値にしながら分析すること」です。
たとえば、社会の変化や自然の観測に対して、期間ごとのデータの変化を調査します。人口の変化や分布、天気や気象のデータを調査することなどです。
また、ただデータにするだけではなく、さまざまな属性や分類に応じてデータを調査します。たとえば、人口の男性と女性、年齢ごとの変化や分布などを、統計的に調査します。
統計は、ある程度の長い時間に渡って、データを取り続ける作業であり、すぐに答えや発見があるものではありませんが、統計がなければ、そもそもこの世界でどんな現象が起きているのかを把握することはできません。統計はとても大切な学問領域です。
分布した集団の数値を考える上で、必ずひとつに集まる場所がある。その中央の地点あるいは平均の地点を50として、それよりもどれだけ高い値・低い値にあるかを捉えることができる。
このような考え方を「標準偏差」と呼ぶ。
統計の性質を考える数学である統計学では、標準偏差によって数値の分布を考える。
標準偏差を取った値のことを「偏差値」と呼ぶ。
標準偏差による偏差値は、共通の条件を持ったデータでなければ意味をなさない場合がある。たとえば、同じ高校生の試験結果についての偏差値を取ることは有用だが、これが10歳から80歳までの多くの年代における偏差値を取ると、値がバラバラになってしまい、意味をなさない。
統計におけるデータの分布を考える際に、データの母集団の数が多すぎる場合など、母集団から直接情報を得るのは現実的でない場合がある。
このような時は、「標本」という一部のサンプルを母集団から抽出して、そこから母集団の情報の分布を推定する。
母集団と標本は異なるものであり、区別される。標本の抽出は、作為的に抽出する方法と、無作為的に抽出する方法がある。
2024.10.17
全体の真ん中ぐらいにある数値を求めるために、平均値を出すことでは適切でない場合がある。
総和を総数で割る平均値は、ひとつの値がほかよりもはるかに高い値を持っていると、ほかのほとんどすべての値がとても低い値であったとしても、全体をそのひとつだけが引き上げてしまい、真ん中よりもはるかに高い値を出してしまうことがある。
そのため、平均値ではなく、中央値と呼ばれる、単に中央に存在する値を出したほうが、みんなにとって真ん中の値を出すことができることがある。
具体例を挙げると、社会における平均収入(たとえば年収)を求めた時、めちゃくちゃ儲けている超富裕層が何人かいるせいで、社会の平均収入はかなり上の値になってしまい、現実的な「みんなの普通の収入」からはかけ離れてしまいます。「自分は平均収入よりもこんなに下なのだ」という絶望感すら与えてしまいます。このような場合には、平均値よりも中央値が適していることがあります。
2024.09.29
ローレンツ曲線は分布における偏りや集中の具合を示す曲線のこと。これを数値化したものをジニ係数と呼ぶ。
経済学などにおいて、主に富(所得・貯蓄)の格差を示す際によく使われる。
格差が少ない場合は、ローレンツ曲線は完全平等線という45度の直線に近くなり、ジニ係数は0に近くなる。格差が大きい場合は、ローレンツ曲線は完全平等線から離れ、ジニ係数は大きな数値になる。
ミクロ・マクロ経済学も参照のこと。
2024.10.17
従来では、国や行政が公開された情報として統計調査を行うことが多かったが、現代で特にみられることとして、非公開の「ビッグデータ」から一部の大企業がデータを独占し、そのデータに基づいて、他の会社よりも優位に立って競争することが増加しつつある。
特に、Google, Amazon, Facebook, Appleのような「GAFA」などの一部の企業が、突出して莫大なデータを独占しつつある。
後日注記:これはとても恐ろしいことで、「GAFAしか真実のこの世界を知らない」という世界になってしまう。GAFA以外は全部、独占された非公開のデータから支配され、彼らに操られてしまうのである。
統計と確率は密接に関わりあっている。
確率とは、それが必ず起きる場合を100%、絶対に起きない場合を0%、起きるか起きないかが半分半分の場合は50%とし、どれだけの「確からしさ」からそれがその時起きるかどうかを数学的な指針から「予測」すること。
統計と確率によって、データとパーセントから未来における現象を「予測」することができる。
後日注記:統計では、単なる確率の計算だけではなく、それぞれの起きる値と、その値が起きる確率の、対応付けをした分布を考える。これを「確率分布」と呼ぶ。確率分布には様々な具体的な分布がある。
2024.10.17編集
順列と組み合わせの違いは、順番を考慮するかしないか。
順列は、順番を考慮する。n個からk個を取り出して順番に並べた順列の総数は、
\[ {}_n \mathrm{ P }_k = n(n - 1)(n - 2)(n - 3)\cdots(n - k + 1) = \frac{n!}{(n - k)!} \]
組み合わせは、順番を考慮しない。n個からk個を取り出した組み合わせの総数は、
\[ {}_n \mathrm{ C }_k = \frac{{}_n \mathrm{ P }_k}{k!} = \frac{ n! }{ k! ( n - k )! } \]
(図解入門よくわかる高校数学の基本と仕組みを参考にして執筆しました。)
2024.07.21
統計をやる上で、便利なのはエクセルです。
MS-Officeのエクセルには、統計のための数値計算で用いる関数やデータベース用の機能が豊富に揃っていて、視覚的なグラフも簡単に使うことができます。
さらに賢いことをやるためにはR言語やPythonなどのプログラミング言語や機械学習・データサイエンスのためのライブラリが必要になることもありますが、基本的なことはエクセルでできます。
MS-Excelも参照のこと。
2024.09.29
R言語は、オープンソースな統計専用のプログラミング言語。R言語を参照のこと。
人工知能・AI・機械学習・データマイニングを参照のこと。
統計力学の計算では対数関数を多用する。指数対数を参照のこと。