サンプル問題科目A 問23 - 基本情報技術者試験問題を解いてみる

問題

ビッグデータのデータ貯蔵場所であるデータレイクの特徴として，適切なものはどれか。

アあらゆるデータをそのままの形式や構造で格納しておく。

イデータ量を抑えるために，データの記述情報であるメタデータは格納しない。

ウデータを格納する前にデータ利用方法を設計し，それに沿ってスキーマをあらかじめ定義しておく。

エテキストファイルやバイナリデータなど，格納するデータの形式に応じてリポジトリを使い分ける。

出典：基本情報技術者試験サンプル問題

データレイク

データレイクという言葉を知らなかったので調べました。

データレイク (Data lake) は構造化/非構造化データやバイナリ等のファイル含めたデータを一元的に格納するデータリポジトリ。一般的に、データレイクはレポート、可視化、分析、機械学習に利用されるエンタープライズのデータのコピーや返還後のデータを一カ所に集約する。データレイクはリレーショナルデータベースの構造化データ（列と行）や、半構造化データ（CSV、ログ、XML、JSON）、非構造化データ（Eメール、ドキュメント、PDF）、バイナリデータ（画像、音声、映像）を含めることができる。

（Wikipedia）

関連項目にデータウェアハウスがあり、大規模なデータベースとの違いがあやふやだったので、それも調べてみました。

データウェアハウスとは、直訳すれば「データの倉庫」である。利用者により定義範囲は異なるが、一般に時系列に整理された大量の統合業務データ、もしくはその管理システムを指す。
データウェアの提唱はアメリカの計算機科学者ビル・インモン（英語版）(William H. Inmon)で、1990年の著作によれば、「データウェアハウスは、意思決定(Decision)のため、主題別(Subject-oriented)に編成され、統合(Integrate)され、時系列で、削除(Delete)や更新(Update)しないデータの集合体」とされる。
複数の基幹系システム（製造管理システム、販売管理システム、会計システムなど)から、マスタやトランザクション(取引)を抽出して、再構成・再蓄積したシステムを指すことが多い。

（Wikipedia）

なんとなく分かったところで、選択肢を見ていきます。

選択肢を見る

アあらゆるデータをそのままの形式や構造で格納しておく。

定義から見て、原則としてこれは正しそうな気がします。必ずしもそのままの必要は無く、変換後のデータでもよさそうですが。

イデータ量を抑えるために，データの記述情報であるメタデータは格納しない。

いろいろな形式のデータが混在しているなら、そのデータをどのように扱えば良いか記述するメタデータは必須だと思います。

ウデータを格納する前にデータ利用方法を設計し，それに沿ってスキーマをあらかじめ定義しておく。

これは従来型のデータベースです。

エテキストファイルやバイナリデータなど，格納するデータの形式に応じてリポジトリを使い分ける。

定義から、データレイクは一元的に格納するリポジトリなので、これは違います。

答え

ア

問題

データレイク

選択肢を見る

ア あらゆるデータをそのままの形式や構造で格納しておく。

イ データ量を抑えるために，データの記述情報であるメタデータは格納しない。

ウ データを格納する前にデータ利用方法を設計し，それに沿ってスキーマをあらかじめ定義しておく。

エ テキストファイルやバイナリデータなど，格納するデータの形式に応じてリポジトリを使い分ける。

答え

アあらゆるデータをそのままの形式や構造で格納しておく。

イデータ量を抑えるために，データの記述情報であるメタデータは格納しない。

ウデータを格納する前にデータ利用方法を設計し，それに沿ってスキーマをあらかじめ定義しておく。

エテキストファイルやバイナリデータなど，格納するデータの形式に応じてリポジトリを使い分ける。