【量的変数 vs カテゴリ変数】この2つの違いは何なのか?データ分析との関係性まで紹介します
量的変数とカテゴリ変数について知りたい人「量的変数とカテゴリ変数って何が違うんだろう?データ分析との関係も含めてわかりやすく教えて欲しい」
こんな悩みを解決していきます。
変数の違いを理解することはデータ分析にも役立つ!
「量的変数と質的変数(カテゴリ変数)」
これらの変数を知るキッカケは人それぞれでしょうが、多くは「統計学」を学ぶ過程でその存在を知る人が多い印象です。
「なんとなくはわかるけど、違いが今一つ理解できない」
「具体的にどんな場面で活用するのかイメージできない」
本記事ではそういった疑問を解決することを目的に、データ分析の観点や実務の観点を踏まえて解説していきたいと思います。両者の違いをしっかりと理解することで、データ分析にも活用することが出来ますよ。
本記事の内容
- 量的変数と質的変数(カテゴリ変数)の違い
- データ分析との関連性と活用方法
- 統計学やデータサイエンス領域の力を伸ばす方法
量的変数と質的変数(カテゴリ変数)の違いとは
量的変数とカテゴリ変数は具体的にどのように区別すればいいのか。イメージしやすいように、簡単な具体例をあげて解説していきます。
量的変数と質的変数の違いを区別する方法
ある変数が「量的変数」と「質的変数」のどちらに該当するのかをどうやって見分ければいいのか。
結論として「定量的に表せるかどうか」で区別することが可能です。
- 量的変数:定量的に表すことができる変数
- 質的変数:定量的に表すことができない変数
こんな感じですね。
定量的というのは数値の差が持つ意味が等しいもの。もう少し厳密に言えば「値の差に意味(等間隔や比例関係)があるデータ」のことを指します。
もっとざっくり言ってしまえば「数値型」のデータのことです。
- 量的変数:定量的に表すことができて、値の差に意味を持つ
- 質的変数:定量的に表すことができず、値の差に意味を持たない
「値の差に意味を持つかどうか」という部分。少しイメージしづらいと思うので、具体例をまじえて解説していきます。
量的変数とカテゴリ変数を具体例で理解する
以下のような具体例を考えてみます。
【具体例】
①性別、②成績のABC評価、③気温、④体重の4つの変数があった時、それぞれどの変数に分類されるか?
先ほど紹介した”量的変数と質的変数の違い”を踏まえて分類してみます。
結論として、4つの変数は以下のように分類可能。
- ①性別:質的変数(カテゴリ変数)
- ②成績のABC評価:質的変数(カテゴリ変数)
- ③気温:量的変数
- ④体重:量的変数
1つずつ簡単にその理由を見ていきます。
① 性別について
性別は男女にわけられますが、どうみても数値型ではないです。また、男性と女性の”差”に特に意味はないですよね。よって、性別は「カテゴリ変数」に分類されます。
② 成績のABC評価について
成績のABC評価は、A・B・Cにわけられるということ。こちらも明らかに数値型ではないですよね。また、ABCの各評価の”差”には優劣の意味関係はありますが、等間隔にあるとは言えません。よって、成績のABC評価は「カテゴリ変数」に分類されます。
③ 気温について
気温についてはどうでしょうか。気温は0度だったり20度だったりと、色々な値を取り得る数値型のデータです。
また「気温20度と21度の差」と「気温30度と31度の差」は等間隔と言えます。よって、気温は「量的変数」に分類されます。
ちなみに、等間隔は目盛りで測定出来るものと理解してもらえればOKです。
④体重について
体重については、50kgや60kgのように気温と同じく色々な値を取り得る数値型のデータです。また「体重40kgと41kgの差」と「体重60kgと61kgの差」は等間隔。加えて、60kgの人は40kgの人に比べて1.5倍重いといったように比例関係にあるとも言えます。よって、体重は「量的変数」に分類されます。
ざっくりでもいいので、自分なりの理由で分類出来るようにしてみてください。データ分析の場面でも「ある変数がどちらの変数に該当するか」を区別出来るようにすることはとても重要になるので覚えておきましょう。
具体例の答えをまとめておきます。
①:性別 | 男女の差に意味はなく数値型でもないため「カテゴリ変数」に分類 |
②:ABC評価 | ABCの差は等間隔とは言えないため「カテゴリ変数」に分類 |
③:気温 | 気温の差は等間隔に設定されているため「量的変数」に分類 |
④:体重 | 体重の差は等間隔かつ比例関係にあるため「量的変数」に分類 |
量的変数とカテゴリ変数を”尺度”に分類する【参考】
もう一つ、尺度で分類する方法についても紹介しておきます。
ただこちらは統計検定のような資格試験くらいでした出てこないので、学問や理論として知っておきたい人向けの参考情報です。
この「尺度」という概念を使うと、量的変数とカテゴリ変数をさらに細分化することが可能。結論として、カテゴリ変数は「名義尺度」と「順序尺度」に、量的変数は「間隔尺度」と「比例尺度」に分類することが可能です。
先ほどの4つの具体例を尺度に当てはめたものがこちら。
- 性別:カテゴリ変数のうち「名義尺度」に分類される
- 評価:カテゴリ変数のうち「順序尺度」に分類される
- 気温:量的変数のうち「間隔尺度」に分類される
- 体重:量的変数のうち「比例尺度」に分類される
厳密に分類出来たところで、実務上はあまり意味がありません。
なので細かいことは割愛しますが、尺度の意味をまとめるとこんな感じになります。
- 順序尺度:カテゴリ変数のうち優劣や大小のような順番があるもの
- 名義尺度:カテゴリ変数のうち優劣や大小のような順番がないもの
- 間隔尺度:量的変数のうち比例関係がないもの
- 比例尺度:量的変数のうち比例関係があるもの
間隔尺度と比例尺度について補足をすると、例えば「気温30度は気温20度の時と比べて1.5倍暑い」とは言わないですよね。対して「体重60kgの人は体重40kgの人に比べて1.5倍重い」と言えます。これが比例関係の有無になります。
見方を変えれば、気温0度のように「0に意味がある」場合には「間隔尺度」となり、体重0kgのように「0に意味がない」場合には「比例尺度」になるとも言えます。
量的変数と質的変数の”データ分析との関連性”
ここまで両変数の違いについて見てきましたが、実務上、変数を区別することの意義はどこにあるのでしょうか。データ分析との関係性について触れていきます。
量的変数とカテゴリ変数を区別する意義【まとめ】
両変数を区別することの意義は以下の3つに集約できます。
- ポイント①:データの扱い方に影響する
- ポイント②:使える要約統計量が変わる
- ポイント③:データ可視化の方法が変わる
Pythonなどのデータ分析をする際にも影響してくるので、このポイントはしっかりとおさえておきましょう。データ分析レベルの向上にもつながります。
ポイント①:データの扱い方に影響する
一番のポイントとも言えますが、量的変数やカテゴリ変数といったデータ型の違いは、データの扱い方の違いとしてもろに影響を受けます。
なぜなら、Pythonのようなプログラミング言語でデータ分析をする際には、すべて「数値」として扱う必要があるから。量的変数であれば問題なさそうですが、カテゴリ変数はそのままデータとして扱えなさそうですよね。
つまりデータ分析上は「量的変数はそのまま読み込み、カテゴリ変数は数値型に変換した上で読み込む」ことが必要になるということです。
カテゴリ変数を数値型に変換する方法についてはカテゴリ変数を数値化する必要性とオススメ手法を紹介しますの記事を参考にしてみてください。
量的変数 | そのままデータとして使うことができる |
質的変数 | データ分析をする際には数値に変換する作業が必要となる |
ポイント②:使える要約統計量が変わる
2つ目のポイントは「要約統計量」です。
要約統計量というのは、対象データの特徴を定量的にまとめた情報のこと。量的変数かカテゴリ変数かで、使うべき要約統計量が変わってくるのです。その違いをまとめてみました。
- 量的変数:平均値、分散、標準偏差、最頻値、分位点などの統計量
- 質的変数:度数、相対度数、最頻値などのカウントに関する統計量
カテゴリ変数の場合はそもそも数値ではないので、各カテゴリに属する個数をカウントするような統計量が使われることが多いです。一方、量的変数の場合には平均値や標準偏差といった有名な統計量を用いることが多いです。
このように、変数の種類に応じて使える統計量が違うことを理解しておくことも重要になります。
ポイント③:データ可視化の方法が変わる
最後は可視化の方法です。
量的変数とカテゴリ変数を区別することで、実務で可視化する時にも役立てることが出来ます。
データ分析というと、機械学習やアルゴリズム、モデル構築などに目が行きがちですが、EDA(探索的データ解析)に代表されるように、可視化を通じたデータの解釈は非常に重要なプロセスになります。
変数の種類を意識せず、ただpythonのライブラリ(機能)を用いて「イイ感じに可視化出来ないかな」と行き当たりばったりで可視化している人も多いですが、自分の頭の中で目的を設定し、それを実現出来るように可視化していくのが理想的な姿です。
一例ですが、使える可視化方法についてまとめておいたので、参考にしてみてください。
1変量に対する可視化 | ヒストグラム |
2変量に対する可視化 | 散布図[数値型×数値型]、モザイクプロット[カテゴリ型×カテゴリ型]、棒グラフ・箱ひげ図・バイオリンプロット等[カテゴリ型×数値型] |
多変量に対する可視化 | ペアプロット |
まとめ:量的変数とカテゴリ変数の違いを見分けるのは簡単!データ分析にも役立てよう
今回は「量的変数」と「カテゴリ変数」について解説しつつ、データ分析との関連性まで紹介してきました。
基本的な論点ではありますが、データ分析においては非常に重要な論点でもあるので、しっかりと基礎を理解してみてください。
最後に、統計学を勉強したい方やデータサイエンティストの基礎を固めたい方には、理論的な内容を網羅的に学べる「統計検定2級の取得」がオススメです。
統計検定2級の合格には公式テキストと公式問題集は必須です。めちゃくちゃわかりやすいわけではないですが、本試験までに理解できていれば合格率はかなり高まります。日本統計学会の公式なので外せません。
統計学検定2級の公式テキスト
統計学検定2級の公式問題集
データサイエンティストやAIエンジニアを目指すなら
もしデータサイエンティストやAIエンジニアに興味があるなら、プログラミング言語「Python」を学習する必要があります。未経験から目指したい人向けに学習ロードマップを以下の記事にまとめたので、興味のある人は参考にしてみてください。
【完全ガイド】pythonの学習サイトをレベル別に紹介!【基礎から機械学習・人工知能までのロードマップ】
pythonを極めたいすべての人に贈る学習ロードマップ。おすすめの学習サイトをレベル別に紹介しているので、pythonのレベルをあげていきたいと考えるすべての人に読んで欲しい記事です。これさえ読めば、自分に合っている学習方法やこれから目指すべき方向性がわかります。pythonライフ、楽しんでいきましょう。
最速でAIエンジニアになりたいのであれば、日本ディープラーニング協会が主催する「E資格」を目指すのが近道です。こちらも良ければ読んでみてください。
【合格体験記】AIエンジニアを目指すには「E資格」がおすすめ!試験概要や難易度をわかりやすく解説します
AIエンジニアを目指すために「E資格」を取得することのメリットや試験概要について、実際にE資格に合格した僕がわかりやすく解説した記事です。E資格の合格率を高める方法や、プログラミング未経験からでもAIエンジニアを目指せる方法を紹介しているので、興味のある方は必見です。