記述統計の基礎 統計学は、経験的に得られたバラツキのあるデータから、応用数学の手法を用いて数値上の性質や規則性あるいは不規則性を見いだす。統計的手法は、実験計画、データの要約や解釈を行う上での根拠を提供する学問であり、幅広い分野で応用されている。 英語で統計または統計学を statistics と言うが、語源はラテン語で「状態」を意味するstatisticum であり、この言葉がイタリア語で「国家」を意味するようになり、国家の人力、財力等といった国勢データを比較検討する学問を意味するようになった。現在では、経済学、自然科学、社会科学、医学(疫学、EBM)、薬学、心理学、言語学など広い分野で必須の学問となっていることは論をまたない。また統計学は哲学の一分科である科学哲学においても重要なひとつのトピックスになっている。これは統計学が科学的な研究において方法論上の基礎的な部分を構成していながら、確率という一種捉えがたい概念を扱っているためであり、その意味やあり方が帰納の正当性の問題などと絡めて真剣に議論される。 記述統計とは、収集したデータから要約した数値、すなわち統計量とよばれる平均、分散などを計算して、データの状況や規則性を明らかにすることで、データの示す傾向や性質を知ること。とくにデータについては、これに関する経験や知識が分析を行うためには重要なかぎとなる。新たな発見、知覚認識に結びついていく。 推測統計という分野では、抽出されたデータからその根源となっている諸性質を確率論的に推測する分野であり、経験から発見される知覚ではなく、数理的な仮説にもとづく検証や推測を目的とする。 統計調査  政府による官庁統計、   人口動態(出生率、死亡率、市町村別人口動態)、消費者物価指数、GDP成長率  マスコミによる調査   世論調査、政党支持率、番組視聴率調査  民間会社による市場調査   POSデータ、商品動向、需要予測、経済予測 調査における主要な項目:  調査の企画、目的と対象、経費、実施手順、調査項目、  設計、抽出、2段階層別抽出法  調査結果の処理、集計、データ処理、結果の分析、公表 統計データの種類、分類 尺度水準(しゃくどすいじゅん)とは、調査対象に割り振った変数、その測定、あるいはそれにより得られたデータを、それらが表現する情報の性質に基づき数学・統計学的に分類する基準である。データ(あるいは変数、測定)の尺度あるいは単位の構造から、ふつう次のような種類(水準)に分類される。この尺度水準によって、統計に用いるべき基本の統計量や統計検定法が異なることに注意する。 * 質的データ、カテゴリデータ o 名義尺度:単なる番号で順番の意味はない。電話番号、背番号など。   この水準では数字を単なる名前として対象に割り振る。2つの対象に同じ数字がついていればそれらは同じカテゴリに属する。変数値間の比較は等しいか異なるかでしか行えない。順序もないし加減などの演算もできない。例としては電話番号、背番号、バスの系統番号など。中心的傾向の指標として使えるのは最頻値のみである。統計的バラツキは変動比や情報エントロピーで評価できるが、標準偏差などの概念はありえない。名義尺度でのみ測定されるデータはカテゴリデータとも呼ばれる。 * なおカテゴリデータを、ある性質が「あるかないか」という表現に直し、さらにこれを「1か0か」で表現したものをダミー変数という。ダミー変数またはそれから算出されるスコア(点数)を、順序尺度以上の水準に準じて扱う方法もよく用いられる。 o 順序尺度:順序が意味を持つ番号。階級や階層など。     この水準では対象に割り振られた数字は測定する性質の順序を表す。数字は等しいかどうかに加え、順序(大きいか小さいか)による比較ができる。しかし加減などの演算には意味がない。物理学的な例にはモース硬度がある。その他の例にはレースの着順などがあるが、これでは到着時間の差は記録できない。心理学や社会科学の測定のほとんどは順序尺度で行われる。例えば社会的態度(保守的か進歩的かなど)や階級は順序水準で測定されるものである。また客の嗜好(アイスクリームのバニラ味とチョコレート味とどちらが好きか)のデータもこれで表現できる。順序尺度の中心的傾向は最頻値や中央値で表されるが、中央値の方が多くの情報を与える。順序尺度で測定されるデータは順序(または順位)データと呼ばれる。 * 以上の名義尺度および順序尺度で表されるデータを合わせて質的データともいう。また各カテゴリに属す対象の個数という形のデータにまとめると数量データと呼ばれ、これは分割表で表示できる。これらに対して用いられる統計検定法はノンパラメトリックなものに限られる。 * 量的データ、数値データ o 間隔尺度:順序に加え間隔にも意味がある(単位がある)が、ゼロには絶対的な意味はない。摂氏・華氏温度、知能指数など。   対象に割り振られる数字は順序水準の性質を全て満たし、さらに差が等しいということは間隔が等しいということを意味する。つまり測定値のペアの間の差を比較しても意味がある。加減の演算にも意味があるが、尺度上のゼロ点は任意で負の値も使える。例にはカレンダーの日付がある。値の間の比には意味がなく、直接の乗除の演算は行えない。とはいえ差の比には意味がある。中心傾向は最頻値、中央値あるいは算術平均で表され、算術平均が最も多くの情報を与える。間隔尺度で測定されるデータは間隔データと呼ばれる。摂氏または華氏で測る温度も間隔尺度である。社会・人文科学分野で普通用いられる唯一の間隔尺度は知能指数(IQ)である。     o 比率尺度:ゼロを基準とする絶対的尺度で、間隔だけでなく比率にも意味がある。絶対温度、金額など。       対象に割り振られた数字は間隔尺度の性質を全て満たし、さらにその中のペアの比にも、乗除の演算にも意味がある。比率水準のゼロ点は絶対的である。 ほとんどの物理学的量、つまり質量、長さやエネルギーは比率水準である。また温度も絶対温度で測れば比率尺度である。比率尺度で測定される変数の中心的傾向は最頻値、中央値、算術平均あるいは幾何平均で表されるが、間隔尺度と同じく算術平均が最も多くの情報を与える。比率尺度で測定されるデータは比率データと呼ばれる。比率尺度で表される社会的変数には年齢、ある場所での居住期間、収入などといったものがある。 * 正しい意味で単位を有するのは間隔尺度と比率尺度のみであり、従ってこれらは真の尺度とも呼ばれる。これらのデータを合わせて量的データ(質的データに対して)、数値データ(数量データに対して)ともいう。   スタンレー・スティーヴンズ(Stanley Smith Stevens)により1946年の論文「測定尺度の理論について」"On the theory of scales of measurement"で提案された分類がよく用いられる。変数に対して可能な数字の演算は、変数を測定した尺度水準に依存し、その結果、特に統計学で用いるべき要約統計量および検定法も変数の尺度水準に依存する。スティーヴンズは低い方から順に以上の4つの尺度水準を提案しており、高い水準はより低い水準の性質を含む形になっている。また高い水準でのデータを低い水準に変換して扱うことができる。 度数分布  度数分布表、   度数分布(どすうぶんぷ、Frequency Distribution)とは、統計において標本として得られたある変量の値のリストである。一般に量の大小の順で並べ、各数値が現われた個数を表示する表(度数分布表)で示される。 例 例えば、100人がある文章に同意するかを5段階のリッカート尺度で回答したとする。このとき、1 は強く同意することを示し、5 は全く同意しないことを示す。その回答群を度数分布で表すと次のようになる:   階級 同意の度合     回答数    1 強く同意する     25    2 ある程度同意する 35    3 どちらとも言えない 20    4 ある程度同意できない 15    5 全く同意できない 5 この単純な表には2つの弱点がある。変量が連続的な値をとりうる場合や非常に範囲が広い場合、度数分布表の作成は難しくなる。  ヒストグラム   平均と中央値が異なる場合、度数分布に歪みがあると称する。度数分布の尖度とは、平均値への集中の度合であり、ヒストグラムで表した場合のグラフの尖り具合である。正規分布以上に尖っている場合を「急尖的; leptokurtic」と称し、逆の場合を「緩尖的; platykurtic」と称する。 ヒストグラム(度数分布図、柱状グラフ、Histogram)とは、縦軸に度数、横軸に階級をとった統計グラフの一種で、データの分布状況を視覚的に認識するために主に統計学や数学、画像処理等で用いられる。  累積分布表  相対度数分布表  統計グラフ   統計図表(とうけいずひょう)とは、複数の統計データの整理、視覚化、分析、解析等に用いられるグラフおよび表の総称である。ここで、グラフとは「図形を用いて視覚的に、複数の数量・標本資料の関係などを特徴付けた物」のことを指す。この意味においてのグラフはしばし「統計グラフ」と呼ばれる。統計図表は、統計データの整理、分析、検定などの過程で用いられる。統計図表を駆使することで、「調査活動によって得られた数量(統計データ)の特徴」(増減の傾向の型,集団の構成など)や、統計データ同士の関係(相関関係など)を視覚的に理解することが出来る。  統計グラフの種類   統計グラフの分類は、人によって様々だが、以下に典型的な統計グラフの種類を示す。   棒グラフ    棒グラフは、資料を質的に(意味的に複数の項目に)分類したときに、各項目間の大きさを比較するために用いる。項目を横軸、各項目の大きさを縦軸に表現する(横軸、縦軸は逆でも良い)。棒で表すことで、各項目の大きさや、大きい値(小さい値)を持つ項目、各項目間の関係などが把握しやすくなる。   柱状グラフ(ヒストグラム)    柱状グラフ(ヒストグラム)は、棒グラフの一種で、資料を量的に(大きさを複数の階級に区分し、各要素がどの階級に属するかという指標で)分類した時に、各階級の散らばりの様子を見るために用いる。柱状で表すことで、集団の偏りや各階級間の散らばりの様子が把握しやすくなる。品質管理などにおいて、度数分布表から度数分布を図示するときによく用いられる。度数が増えるにしたがって、グラフの形状は柱状から曲線へと近づいてゆく。この曲線を度数分布曲線という。   円グラフ    円グラフは、資料を特定の項目に分類した時、その一項目での割合を比較する時によく用いられる。円で全体を表すことで、ある項目内・分野内での割合の大小が直感的に把握しやすく、プレゼンテーションなどでよく利用される。又、円グラフでは、全体の数値を360として表現することも少なくない。他方で、厳密な比較には向かないため、専門分野ではむしろ使用されない。   統計グラフ選択の目安を下記に示す。 1. 2種類の系列からなるデータの相関⇒散布図 2. 1種類の系列からなるデータの時間的推移(時間との相関)⇒折れ線グラフ 3. 値の大きさの比較⇒棒グラフ 4. 内訳や構成比を見る⇒円グラフ 分布の代表値  データの集まりから、この分布を特徴づける基本統計量として 平均、標準誤差、中央値(メジアン)、最頻値(モード)、標準偏差、分散、尖度、歪度、範囲、最小、最大、合計、標本数  位置を表す   平均(average)、標本平均(sample mean, sample average)   トリム平均(trimmed mean, trimmed average)   中央値(メジアン、中位数)(median)   モード(最頻値)(mode)  広がり具合    分散(variance)、   標本分散(sample variance)   不偏分散(unbiased variance)   標準偏差(standared deviation)   範囲(range)   四分位数(quartile) 百分位数(percentile)  解析的な尺度   歪度(わいど)(skewness) 正の場合は左に歪んでいるL字型       このとき、モード<中央値<平均の順に並ぶ       また負の場合は逆L字型に右に歪んでいる   尖度(せんど)(kurtosis)   標準誤差    標準誤差とは、個別の $x$ の値に対する $y$ の予測値の誤差の程度を計測するための尺度です。$y$ の予測値の標準誤差は次のように定義されます。 \[ S_{y,x} = \sqrt{\dfrac{1}{n(n-2)} n \sum y^2 - (\sum y)^2 - \dfrac{[n \sum xy - (\sum x)(\sum y)]^2)}{n \sum y^2 - (\sum y)^2 } \] ここで、x は標本平均 AVERAGE(既知の x)、y は標本平均 AVERAGE(既知の y)、n は標本数です。  代表値の計算法  スプレッドシート(表計算ソフト)    count(データ数列) frequency(データ数列;区間配列) CTRL+SHIFT+ENTER    sumproduct((範囲="条件")*1) CTRL+SHIFT+ENTER    vlookup(検索するデータ;検索範囲;取り出す列位置;検索の型)  箱ひげ図(ボックスチャート)    最小値、第1四分位数、中央値(第2四分位数)、最大値  統計量の性質 統計量の変換 データについて、基本統計量とよばれるものは、 基本統計量について大きさnの標本をとするとき。 平均: $\overline{x} = \dfrac{1}{n}\sum x_i$   通常の算術平均を計算します。 AVERAGE関数の値と同じ。 標準誤差: $s/\sqrt{n}$ ただし $s$は標準偏差 によって与えられる量。 中央値(メジアン): $x_{1} \leq x_{2} \leq \cdots \leq x_{n}$ データを大きさの順に並べたとき 中央にくる値。データ数が奇数ならば$x_{\dfrac{n+1}{2}}$, 偶数ならば、$\big(x_{\dfrac{n}{2}}+ x_{\dfrac{n}{2}+1}\big)/2$ のように真ん中の値がかわる。  最頻値(モード): 度数の値が最大となるような変数の値 $\max_i x_i$。  データの中で、最も頻度が高く現れた値。MODE関数と同じ。単峰性ならば  ひとつに定まるが、もしひとつに  定まらないような双峰性の形では存在しないとする。 データがすべて、異なる値を取るときは、"#N/A"(Not Available)と表示される。   標準偏差: 平均との2乗偏差値の和を個数引く1で割った値の平方根をとり、単位を 同じにしたもの。 いわゆる標本不偏分散の平方根を取ったもの。STDEV関数と同じ。  VAR関数の平方根を取ったもの。   分散 標本分散:分母は、不偏性を考慮するために、(n-1)としている。VAR関数と一 致。VARP関数は、分母が(n-1)でなく、nを用いている。 この値は標本分散とよばれる。   尖度(せんど): KURT関数で与えられる量。正規分布の山型の頂上付近におけるとがり具合を比較したもので、正規分布では値が3となり、3より大きいかどうかを目安とする。トガリが鋭いときは3より小さく、逆に緩いときは、3より大きくなる。 とがり具合を測る尺度となります。   歪度(わいど) SKEW関数で与えられる量。 左右対称性を測る尺度となります。 たとえば、L字型の形状の分布では正の値をとり、逆L字型では負の値をとります。 範囲 データの最大値から、最小値を引いたもの。 分布がL字型であれば、代表値の大きさは  モード<中位数<平均の順になり、 もし逆L字型では、順序が、平均<中位数<モードの順になります。 最小 データの最小値。MIN関数。 最大 データの最大値。MAX関数。 合計 総和。SUM関数と同じ。 標本数 データ数n。COUNTA関数で与えられる値。 信頼区間(95.0%) 信頼係数95%に対する信頼区間の幅の1/2。上の平均プラスこの値と平均マイナスこの値で出来る区間が信頼係数95%の信頼区間を構成する。 また工業分野では、パレート図(ABCチャート)、チェックシート、管理図、特性要因図、層別法、散布図と並んで品質管理のためのQC七つ道具として知られている。 ヒストグラム(度数分布図、柱状グラフ、Histogram)とは、縦軸に度数、横軸に階級をとった統計グラフの一種で、データの分布状況を視覚的に認識するために主に統計学や数学、画像処理等で用いられる。管理図(かんりず)とは、品質や製造工程が安定な状況で管理されている状態にあることを判断するために使用するグラフのことである。時間ごとの状態をグラフ上に配置し、従来までの傾向と異なるデータや管理限界線を逸脱したデータの有無から異常の発生を判定する。管理図は、シューハート管理図(JIS Z 9021)や累積和管理図などに分類される。 シューハート管理図   シューハート管理図は、ほぼ規則的な間隔でサンプリングを行い、データを収集する。同じ間隔から採られた複数のデータをまとめて群と呼ぶ。群から、平均値などの特性値を得る。グラフは、中心線や上方管理限界、下方管理限界の線を書き、群の順番に特性値を打点する。シューハート管理図は、3シグマ法とも呼ばれている。 シューハートは、問題を「特殊原因」と「共通原因(偶然原因)」から構成されるものとし、それらを区別するためのツールとして管理図を導入した。製造工程を共通原因だけが存在する統計的管理状態にし、その制御を維持することが、未来の出力を予測して経済的に製造工程を管理するのに必須であると強調した。慎重に設計された実験に基づき、管理図の基本と統計的管理状態の概念を生み出した。純粋に数理統計的な理論から出発し、実際には製造工程が決して正規分布曲線(釣鐘形の曲線)を描かないことを発見した。つまり、製造工程の実際のデータから、それが自然における確率的データ(たとえば粒子のブラウン運動)とは振る舞いが異なることを見出したのである。シューハートは、あらゆる工程で分散があるが、一部は制御された自然な分散であり、他は分散の原因が常に存在するとは限らないために制御されていない分散を示すのだと断定した。 相関と回帰  2変量の度数分布表、2変量のヒストグラム  相関図   散布図(さんぷず)とは、縦軸、横軸に2項目の量や大きさ等を対応させ、データを点でプロットしたものである。各データは2項目の量や大きさ等を持ったものである。  散布図の例   散布図には、2項目の分布、相関関係を把握できる特長がある。データ群が右上がりに分布する傾向であれば正の相関があり、右下がりに分布する傾向であれば負の相関がある。相関係数が0であれば無相関となる。  共分散 covar(配列A,配列B)    一連の個別の対象物に対して測定される N 個の異なる測定変数がある場合、相関分析ツールと共分散分析ツールは同じ設定で使うことができます。相関分析ツールと共分散分析ツールは共に、測定変数の各組み合わせ間のそれぞれ相関係数または共分散を示すマトリクスが、出力テーブルとして得られます。相関係数が -1 から +1 までの範囲に収まるのに対し、対応する共分散はこの範囲に収まらない点が異なります。相関係数と共分散は共に、2 つの変数が一緒に変化する範囲で測定されます。共分散分析ツールは測定変数のそれぞれの組み合わせについて COVAR ワークシート関数の値を計算します。たとえば N=2 の 2 つの測定変数のみの場合は、共分散分析ツールではなく COVAR 関数を直接使用する方法が適しています。共分散分析ツールの出力テーブルで対角線上の i 行と i 列の値は、それ自身の i 番目の測定変数の共分散を表します。これは、VARP ワークシート関数で計算されるその変数に対する母集団の分散の値と同じです。共分散分析ツールを使うと、測定変数の組み合わせそれぞれについて 2 つの測定変数が一緒に変化する傾向があるかどうかを調べることができます。一方の変数の大きな値がもう一方の変数の大きな値と関連する傾向があるか (正の共分散)、一方の変数の小さな値がもう一方の変数の大きな値と関連する傾向があるか (負の共分散)、両方の変数の値が関連しない傾向があるか (0 に近い共分散) などを調べることができます。  相関係数    N 個の対象物それぞれに対して各変数の測定を行う場合、CORREL ワークシート関数と PEARSON ワークシート関数は共に 2 つの測定変数間の相関係数を計算します。いずれかの対象物に対する観察が行われないと、分析時にその対象物が無視されます。相関分析ツールは、N 個の対象物それぞれに対して 3 つ以上の測定変数がある場合に特に役立ちます。この分析を行うと、測定変数の可能な組み合わせそれぞれに対して適用された CORREL (または PEARSON) 関数の値を示した相関マトリクスが、出力テーブルとして得られます。共分散と同じように、相関係数は 2 つの測定変数が一緒に変化する範囲で測定します。共分散とは異なり、相関係数は 2 つの測定変数を表現する単位とは関係なくその値の基準が決められます。たとえば、2 つの測定変数が重量と高さの場合、重量がポンドからキログラムに変更されても相関係数の値は変わりません。相関係数のすべての値は、-1 から +1 までの範囲に収まる必要があります。相関分析ツールを使うと、測定変数の組み合わせそれぞれについて 2 つの測定変数が一緒に変化する傾向があるかどうかを調べることができます。一方の変数の大きな値がもう一方の変数の大きな値と関連する傾向があるか (正の相関)、一方の変数の小さな値がもう一方の変数の大きな値と関連する傾向があるか (負の相関)、両方の変数の値が関連しない傾向があるか (0 に近い相関) などを調べることができます。  順位データ rank(データ, 範囲))  順位相関係数、   ケンドール、   スピアマン  直線の当てはめ  回帰分析、   回帰分析ツールは、線形回帰分析を行います。回帰分析では、R-2 乗値を使って、観測値のデータが最適な直線に当てはめられます。このツールを使って、複数の独立変数が 1 つの従属変数に与える影響を分析することができます。 たとえば、スポーツ選手の年齢、身長、体重などの要素が成績に与える影響を分析できます。成績データに基づいて、これらの要素それぞれが成績に影響した比率を割り当てたり、回帰分析の結果を使って、ほかのスポーツ選手の成績を予測することもできます。 回帰分析ツールは LINEST ワークシート関数を使用します。 予測 インターネットによる統計データ資料  総務省統計局   http://www.stat.go.jp/data/index.htm  千葉県の統計情報   http://www.pref.chiba.jp/outline/statistics/index-j.html  熊沢氏のHP   http://www.biwako.shiga-u.ac.jp/sensei/kumazawa/index.html 歴史   統計学の源流は国家または社会全体における人口あるいは経済に関する調査(東西を問わず古代から行われている)にある。学問としては、17世紀にはイギリスでウィリアム・ペティの『政治算術』などが著述され、その後の社会統計学につながる流れが始まった。またゴットフリート・ライプニッツやエドモンド・ハレーによる死亡統計の研究も行われた。これらの影響のもと18世紀にはドイツのジュースミルヒが『神の秩序』(1741年)で人口動態にみられる規則性を明らかにしたが、これには文字通り「神の秩序」を数学的に記述する意図があった。   ドイツでは17世紀からヨーロッパ各国の国状の比較研究が盛んになったが、1749年にアッヘンヴァルがこれにドイツ語でStatistik(「国家学」の意味)の名をつけている。19世紀初頭になるとこれに関して政治算術的なデータの収集と分析が重視されて、Statistikの語は特に「統計学」の意味に用いられ、さらにイギリスやフランスなどでも用いられるようになった。この頃アメリカ、イギリス、フランスなどで国勢調査も行われるようになる。   一方ブレーズ・パスカル、ピエール・ド・フェルマーに始まった確率論の研究がフランスを中心にして進み、19世紀初頭にはピエール=シモン・ラプラスによって一応の完成を見ていた。またレオンハルト・オイラーによる誤差や正規分布についての研究も統計学発展の基礎となった。ラプラスも確率論の社会的な応用を考えたが、この考えを本格的に広めたのが「近代統計学の父」と呼ばれるアドルフ・ケトレーであった。彼は『人間について』(1835年)、『社会物理学』(1869年)などを著し、自由意志によってばらばらに動くように見える人間の行動も社会全体で平均すれば法則に従っている(「平均人」を中心に正規分布に従う)と考えた。ケトレーの仕事を契機として、19世紀半ば以降、社会統計学がドイツを中心に、特に経済学と密接な関係を持って発展する。代表的な人物にはアドルフ・ワグナー、エルンスト・エンゲル(エンゲル係数で有名)、ゲオルク・フォン・マイヤーがいる。またフローレンス・ナイチンゲールも、社会医学に統計学を応用した最初期の人物として知られる。   同じく19世紀半ばにチャールズ・ダーウィンの進化論が発表され、彼の従弟に当たるフランシス・ゴルトンは数量的側面から進化の研究に着手した。これは当時Biometrics*(生物測定学)と呼ばれ、多数の生物(ヒトも含めて)を対象として扱う統計学的側面を含んでいる。ゴルトンは回帰の発見で有名であるが、当初生物学的と思われたこの現象は一般の統計学的対象の解析でも重要であることが明らかとなる。ゴルトンの後継者となった数学者カール・ピアソンはこのような生物統計学をさらに数学的に発展させ(数理統計学)、19世紀終わりから20世紀にかけ記述統計学を大成する。 (*注:現在の言い方では生物統計学Biostatisticsに当たり、この単語は現在では生体認証という別の意味で使われている)   20世紀に入ると、ウィリアム・ゴセット、続いてロナルド・フィッシャーが農学の実験計画法研究をきっかけとして数々の統計学的仮説検定法を編み出し、記述統計学から推計統計学の時代に移る。ここでは母集団から抽出された標本を基に、確率論を利用して逆に母集団を推定するという考え方がとられる。続いてイェジ・ネイマン、エゴン・ピアソンらによって現代の推計統計学の理論体系が構築され、これは社会科学、医学、工学などの様々な分野へ応用されることとなった。   推計統計学は精緻な数学理論となったが、その反面、応用には必ずしも適していないとの批判がある。これに対抗しうるものとして主観確率を認めるベイズ統計学が1950年代に提唱され、現代ではこれも種々の場面に応用されている。またこのほかにも、応用に重点を置いた様々な統計学的方法が発展している(オペレーションズ・リサーチと重複する部分も多い)。 統計の困難さ   一度信頼できる統計データが取れさえすれば統計学的分析は数学的に行えるが、信頼できる統計データの収集はとても難しい。実際、統計を取る人の主義主張によって統計値が大きく異なる事も多々あり、レーガン政権は当時アメリカにホームレスが30万人しかいないと主張したが、活動家達はその10倍の 300万人いると主張した。質問の仕方一つで結果がガラリと変わってしまう。   また暗数の考慮にも主観がつきまとってしまう。暗数とは「統計に出ない値」の事で、例えば強姦のような犯罪はそれがタブーであるがゆえに警察に届けない事も多くしたがって統計にあらわれない。したがって統計を正しく読み解くには暗数を考慮する必要があるが、統計値を多く見積もりたい人は意識的・無意識的に暗数を多く見積もってしまうだろうし、統計値を少なく見積もりたい人は逆に暗数を少なく見積もってしまうだろう。   正しい統計データから正しい統計操作を行ってもなお騙す事が可能である。ここ40数年で少年犯罪は1/4になっているが、「少年犯罪は急激に犯罪が増加している」事を主張したければ、最近10年分のデータだけを提示すればよい。(最近10年分では微増しているので)。[2]グラフの縦軸(=犯罪数の軸)をわざと縦長に書く事で犯罪数が急上昇しているように見せかける事も可能である。   またもっと簡単なミスで統計結果を勘違いしてしまう事がある。例えば「日本で犯罪件数がもっとも多い県は東京である」という統計を読むと、東京がもっとも危険な街であるように思えてしまうが、東京はもっとも人口が多いのでそれに比例して犯罪件数が多いのは自明である。どの県が危険なのかを知りたければ犯罪件数ではなく犯罪率を調べなければならない。