べくとりうむ.py Written by TicTak(※現在ブログ工事中のため、見づらい点があり申し訳ないです)

【データ分析】データの基本単位「MB」や「GB」を理解する

AI×機械学習 python

こんにちは、TAKです。
今回は、データ容量の基本単位「MB」や「GB」について紹介していきたいと思います。

デジタル化が進んだ現代社会では、データ容量の単位を目にしない日はあまりないですよね。
ビジネスの場面では「顧客先にファイルを送ろうとしたけど、ファイルが重くて送れない」、プライベートの場面では「写真を撮り過ぎてスマホの容量がなくなった」といったシーンはよくあるかと思います。

その割に、IT職に就いている人以外はデータ容量の基本を意外と知らないのが現状だと思います。
非エンジニアの方であっても、データ分析やデータサイエンスの領域に興味があるならば知っておいた方が良いと感じたので、今回の記事で紹介していきます。

容量の小さい軽いデータを扱う場合にはあまり問題にはなりませんが、データサイエンスで扱うようなデータはかなり膨大になります。データ容量が膨大な状態でモデルを構築してトレーニングすることは、メモリも時間も使ってしまうため、対象データの容量や単位についてしっかりと理解しておくようにしましょう。

【こんな人に読んで欲しい記事です】

● データ容量の基本単位(MBやGBなど)について知っておきたい方

● データ分析やデータサイエンスの勉強を始めたばかりの方

僕自身も、正直今まではあまりデータ容量の単位を意識することはありませんでした。

ただ、ある時pythonでデータ分析をしていて、やたら容量のデカいデータに出くわしことをキッカケに「データ容量」を意識するようになりました。僕と同じく、今まで「データ容量」をあまり意識していなかった方は、今回の記事を通して少しずつ意識するようにしてみてください。

以下の記事では、pythonのpandasを使って「データ容量を確認する方法」や「データ単位を変換する方法」を紹介しているので、興味のある方は参考にしてみてください。

データ容量単位の全体像

データ容量の最小単位は「bit(ビット)」

データ容量の単位と言えば、GB(ギガバイト)・MB(メガバイト)・KB(キロバイト)などをよく見かけるかと思いますが、最も小さな単位は「bit(ビット)」と呼ばれるものです。

コンピューターの世界では、「0と1」からなる2進数の世界となっており、この2進数の1ケタが1bitとなっています。そして、1bitを8個並べたものが「1B(バイト)」となります。

1Bは半角英数字1文字分に相当するので、「aiueo」のような5文字分は「5B」に相当します。
試しに「aiueo」の文字を入力してテキスト保存した結果が以下です。確かに5バイトとなっていますね。

「aiueo」と入力したテキストファイルの容量(5バイト)

データ容量の「単位」比較

テキスト文字だけなら「バイト」単位の世界だけでもいいでしょうが、実際は画像や動画といった様々なデータ形式があるのでそうもいきません。

データ容量に限った話ではありませんが、数値が大きくなるにつれて単位変換しないと理解しにくいです。
例えば、「今年はコロナウイルスの影響で○○業界の市場規模が1,000,000,000,000円縮小してしまう可能性がある」と言われても、パットみわかりにくいですよね。慣れていればすぐに1兆円とわかりますが、誰が見ても理解出来るようにすることが大切なので、大きさに応じた「単位変換」が求められるのです。

では「データ容量」の場合はどうなるかというと、まとめた表が以下になります。

「データ容量」の基本単位

日頃扱うデータによって個人差はあるでしょうが、「MB(メガバイト)」や「GB(ギガバイト)」を扱うケースが比較的多いのかなといった印象です。

参考程度ですが、このブログ記事のタイトル画像は変換前は「MB」ですが、変換後は「KB」になっています。重いままアップロードすると、読込時間もかかってしまうためこのような処理をしています。

【参考】当ブログの本記事で扱っている画像サイズ比較

単位変換をする場合は「1024倍」

データ容量の単位変換はどのようにすればいいのでしょうか?
結論、以下の表を抑えてもらえばOKです。

「データ容量」の基本単位に関する変換表

「1KBは1024B」「1MBは1024KB」「1GBは1024MB」「1TBは1024GB」となることがわかります。
なぜ「1000単位」ではなく「1024単位」になっているかというと、これもコンピューターの構造(2進数)の影響です。ちょうど2の10乗が1024になるので、単位変換は1024倍で調整すればよいことになります。

「1kgが1000gであるように、大体1000なのね」と覚えてもらってもいいでしょう。
(ちなみに国際単位では「1000」倍を用いて変換します。)

まとめ

今回は、データ容量の基本単位である「MB」や「GB」について紹介してきました。

基本的な内容かと思いますが、基礎をしっかりと理解していることは強みになります。
特にデータ分析やデータサイエンスを勉強されている方は、データ容量を意識するようにしてみてください。

では今回はこのへんで。