びじねす 分析【A vs Z】 資格と勉強法 データサイエンス 統計学 非エンジニア向け

【量的変数 vs カテゴリ変数】この2つ変数の違いとは?データ分析との関係まで紹介します

こんにちは、TAKです。

今回は、統計学やデータサイエンスの勉強を始めると最初に学ぶ「変数の種類」について解説していきます。

具体的には、「量的変数」と「カテゴリ変数(質的変数)」の違いを中心に解説していきます。
本記事を読むことで

・ 両者の違いを知っておくことが何の役に立つのか?
・ データ分析ではどのような場面で役に立つのか?

といった点がイメージしやすくなるはずです。

● 統計学やデータサイエンスの勉強を始めたばかりの方

● 量的変数とカテゴリ変数の違いを理解したい方

● データ分析の観点から、量的変数とカテゴリ変数がどう活用されるかを知りたい方

統計検定2級に代表されるような資格試験に合格する目的であれば、両者の違いを理解して問題に答えることは結構カンタンです。

ただ、データ分析のようにいざ実務で活かそうと思うと、量的変数とカテゴリ変数の理解がどこかに行ってしまい、うまくデータ分析が出来ていない人が多いのも事実です。  

基本的な内容ではありますが、今一度見直すキッカケにしてみてください。

量的変数とカテゴリ変数の違い

「量的変数」と「質的変数」の違い

量的変数とカテゴリ変数はどのように区別するのでしょうか?

一般的には、ある変数を定量的に表せるかどうかで区別することになります。

・ 定量的に表すことが出来れば「量的変数」
・ 定量的に表すことが出来なければ「カテゴリ変数」

といった具合ですね。

定量的というのは、「数値の差が持つ意味が等しいもの」と説明されることが多いですが、ざっくり言ってしまえば「数値型」のデータのことです。

もう少し厳密に言うと「値の差に意味(等間隔や比例関係)があるデータ」のことを指します。

● 量的変数 ・・・ 「定量的」に表すことができるデータであり、値の差に意味を持つ

● 質的変数 ・・・ 「定量的」に表すことができないデータであり、値の差に意味を持たない

具体的に考えてみる

少し具体例を考えてみましょう。
例えば、「性別」「成績のABC評価」「気温」「体重」の4つはどの変数に分類されるでしょうか?

「性別」は男女にわけられますが、どうみても数値型ではないですし、男性と女性の差に特に意味はないですよね。よって、性別は「カテゴリ変数」に分類されます。

「成績のABC評価」はABCにわけられますが、こちらも数値型ではないですよね。ABCの各評価の差には優劣の意味関係はありますが、等間隔にあるとは言えません。

よって、成績のABC評価は「カテゴリ変数」に分類されます。

「気温」については、0度だったり20度だったりと、色々な値を取り得る数値型のデータです。
また、気温20度と21度の差と、気温30度と31度の差は「等間隔」と言えます。

よって、気温は「量的変数」に分類されます。
ちなみに、等間隔というのは、目盛りのようなイメージで測定出来るものと思ってもらえれば大丈夫です。

「体重」については、50kgや60kgのように、気温と同様に色々な値を取り得る数値型のデータです。
また、体重40kgと41kgの差と、体重60kgと61kgの差は「等間隔」と言えます。
加えて、60kgの人は40kgの人に比べて1.5倍重いといったように「比例関係」にあるとも言えます。

よって、体重は「量的変数」に分類されます。

● 性別 ・・・ 男女の差に意味はなく数値型でもないので、「カテゴリ変数」に分類

● 評価 ・・・ ABCの差は等間隔とは言えないため、「カテゴリ変数」に分類

● 気温 ・・・ 気温の差は等間隔に設定されているため、「量的変数」に分類

● 体重 ・・・ 体重の差は等間隔かつ比例関係にあるため、「量的変数」に分類

【参考】尺度による分類も可能

以上が「量的変数」と「カテゴリ変数」の分類の仕方となりますが、データ分析の場面では「ある変数がどちらの変数に該当するか」を区別出来るようにすることが大切です。

ここでは、参考までに量的変数とカテゴリ変数をさらに「尺度」でわけた分類方法を紹介しておきます。
統計検定のような資格試験や、学問・理論として知っておきたい方は参考にしてください。

結論から言うと、カテゴリ変数は「名義尺度」と「順序尺度」に、量的変数は「間隔尺度」と「比例尺度」に分類することが可能です。先ほどの4つの具体例を尺度に当てはめた結果が以下となります。

● 性別 ・・・ 「カテゴリ変数」のうち、「名義尺度」に分類される

● 評価 ・・・ 「カテゴリ変数」のうち、「順序尺度」に分類される

● 気温 ・・・ 「量的変数」のうち、「間隔尺度」に分類される

 体重 ・・・ 「量的変数」のうち、「比例尺度」に分類される

厳密に分類出来たところで、実務上はあまり意味がないので細かいことは割愛しますが、カテゴリ変数のうち「優劣」「大小」のような順番に意味があるものは「順序尺度」となり、意味がないものは「名義尺度」となります。  

また、量的変数のうち比例関係がないものは「間隔尺度」となり、比例関係があるものは「比例尺度」となります。

例えば、気温30度は気温20度の時と比べて1.5倍暑いとは言えないのに対して、体重60kgの人は体重40kgの人に比べて1.5倍重いと言えることが、比例尺度の有無という意味です。

少し見方を変えれば、気温0度のように「0に意味がある」場合には「間隔尺度」となり、体重0kgのように「0に意味がない」場合には「比例尺度」になるとも言えます。

データ分析との関連性

【相違点①】データの扱い方

では実際に、「量的変数」と「カテゴリ変数」を区別出来ると、データ分析をする上でどのようなメリットがあるのか見ていきましょう。

一番のメリットは、データ型の違いを理解することでデータを適切に扱えることです。

具体的には、AIモデルを構築する場合でも、Kaggleのようなデータ分析コンペで既存データを読み込む場合でも、pythonのようなプログラミング言語でデータを扱うためには「数値」として扱う必要があります。

つまり、量的変数はそのまま読み込み、カテゴリ変数は数値型に変換した上で読み込む必要があるということです。

カテゴリ変数を数値型に変換する方法については下記記事を参考にしてみてください。

● 量的変数のデータは、そのまま扱うことが可能

● 質的変数のデータは、数値に変換した上で扱う作業が必要

【相違点②】用いる統計量

次に、「量的変数」と「カテゴリ変数」に区別出来ることで、用いるべき要約統計量がわかります。
要約統計量とは、対象データの特徴を定量的にまとめた情報のことを言います。

カテゴリ変数の場合はそもそも数値ではないので、各カテゴリに属する個数をカウントするような統計量が使われることが多いです。

対して、量的変数の場合には、平均値や標準偏差といった有名な統計量を用いることが多いです。

このように、変数の種類に応じて使える統計量が違うことを理解しておくことも重要になります。

カテゴリ変数に使える要約統計量
● 度数、相対度数、最頻値といったカウントに関する統計量

<量的変数に使える要約統計量>
● 平均値、分散、標準偏差、最頻値、分位点(最大最小値、中央値 etc)等の統計量

【相違点③】可視化の方法

最後に、「量的変数」と「カテゴリ変数」に区別することで、可視化する時にも役立てることが出来ます。

データ分析というと、機械学習やアルゴリズム、モデル構築などに目が行きがちですが、EDA(探索的データ解析)に代表されるように、可視化を通じたデータ解釈は非常に重要なプロセスになります。

変数の種類を意識せず、ただpythonのライブラリ(機能)を用いて「イイ感じに可視化出来ないかな」と行き当たりばったりで可視化している人も多いですが、自分の頭の中で目的を設定し、それを実現出来るように可視化していくのが理想的な姿です。

一例ですが、使える可視化方法についてまとめておきますので、必要に応じて参考にしてみてください。

<1変量に対する可視化 
● ヒストグラム

<2変量に対する可視化
● 散布図(数値型×数値型)、モザイクプロット(カテゴリ型×カテゴリ型)
● 棒グラフ、箱ひげ図、バイオリンプロット等
カテゴリ型×数値型

<多変量に対する可視化>
● ペアプロット

まとめ

今回は「量的変数」と「カテゴリ変数」について解説しつつ、データ分析との関連性まで紹介してきました。

基本的な論点ではありますが、データ分析においては非常に重要な論点でもあるので、しっかりと基礎を理解してみてください。

最後に、統計学を勉強したい方やデータサイエンティストの基礎を固めたい方には、理論的な内容を網羅的に学べる「統計検定2級の取得」がオススメです。

僕が統計検定2級を取得したときに利用した公式テキストと問題集を紹介しますので、良ければ参考にしてみてください。

データサイエンスやAI全般に興味がある方は、以下記事でオススメの本を紹介しているのでコチラもさんこうにしてみてください。

今回はこのへんで、またね~