サンプル問題 科目A 問23

問題

ビッグデータのデータ貯蔵場所であるデータレイクの特徴として,適切なものはどれか。 

 

ア  あらゆるデータをそのままの形式や構造で格納しておく。 

イ  データ量を抑えるために,データの記述情報であるメタデータは格納しない。 

ウ  データを格納する前にデータ利用方法を設計し,それに沿ってスキーマをあらかじめ定義しておく。 

エ  テキストファイルやバイナリデータなど,格納するデータの形式に応じてリポジトリを使い分ける。

出典:基本情報技術者試験 サンプル問題

データレイク

データレイクという言葉を知らなかったので調べました。

データレイク (Data lake) は構造化/非構造化データやバイナリ等のファイル含めたデータを一元的に格納するデータリポジトリ。一般的に、データレイクはレポート、可視化、分析、機械学習に利用されるエンタープライズのデータのコピーや返還後のデータを一カ所に集約する。データレイクはリレーショナルデータベースの構造化データ(列と行)や、半構造化データ(CSV、ログ、XMLJSON)、非構造化データ(Eメール、ドキュメント、PDF)、バイナリデータ(画像、音声、映像)を含めることができる。

Wikipedia

関連項目にデータウェアハウスがあり、大規模なデータベースとの違いがあやふやだったので、それも調べてみました。

データウェアハウスとは、直訳すれば「データの倉庫」である。利用者により定義範囲は異なるが、一般に時系列に整理された大量の統合業務データ、もしくはその管理システムを指す。
データウェアの提唱はアメリカの計算機科学者ビル・インモン(英語版)(William H. Inmon)で、1990年の著作によれば、「データウェアハウスは、意思決定(Decision)のため、主題別(Subject-oriented)に編成され、統合(Integrate)され、時系列で、削除(Delete)や更新(Update)しないデータの集合体」とされる。
複数の基幹系システム(製造管理システム、販売管理システム、会計システムなど)から、マスタやトランザクション(取引)を抽出して、再構成・再蓄積したシステムを指すことが多い。

Wikipedia

なんとなく分かったところで、選択肢を見ていきます。

選択肢を見る

ア  あらゆるデータをそのままの形式や構造で格納しておく。 

定義から見て、原則としてこれは正しそうな気がします。必ずしもそのままの必要は無く、変換後のデータでもよさそうですが。

イ  データ量を抑えるために,データの記述情報であるメタデータは格納しない。 

いろいろな形式のデータが混在しているなら、そのデータをどのように扱えば良いか記述するメタデータは必須だと思います。

ウ  データを格納する前にデータ利用方法を設計し,それに沿ってスキーマをあらかじめ定義しておく。 

これは従来型のデータベースです。

エ  テキストファイルやバイナリデータなど,格納するデータの形式に応じてリポジトリを使い分ける。

定義から、データレイクは一元的に格納するリポジトリなので、これは違います。

答え