サンプル問題 科目A 問23
問題
ビッグデータのデータ貯蔵場所であるデータレイクの特徴として,適切なものはどれか。
ア あらゆるデータをそのままの形式や構造で格納しておく。
イ データ量を抑えるために,データの記述情報であるメタデータは格納しない。
ウ データを格納する前にデータ利用方法を設計し,それに沿ってスキーマをあらかじめ定義しておく。
エ テキストファイルやバイナリデータなど,格納するデータの形式に応じてリポジトリを使い分ける。
出典:基本情報技術者試験 サンプル問題
データレイク
データレイクという言葉を知らなかったので調べました。
データレイク (Data lake) は構造化/非構造化データやバイナリ等のファイル含めたデータを一元的に格納するデータリポジトリ。一般的に、データレイクはレポート、可視化、分析、機械学習に利用されるエンタープライズのデータのコピーや返還後のデータを一カ所に集約する。データレイクはリレーショナルデータベースの構造化データ(列と行)や、半構造化データ(CSV、ログ、XML、JSON)、非構造化データ(Eメール、ドキュメント、PDF)、バイナリデータ(画像、音声、映像)を含めることができる。
関連項目にデータウェアハウスがあり、大規模なデータベースとの違いがあやふやだったので、それも調べてみました。
データウェアハウスとは、直訳すれば「データの倉庫」である。利用者により定義範囲は異なるが、一般に時系列に整理された大量の統合業務データ、もしくはその管理システムを指す。
データウェアの提唱はアメリカの計算機科学者ビル・インモン(英語版)(William H. Inmon)で、1990年の著作によれば、「データウェアハウスは、意思決定(Decision)のため、主題別(Subject-oriented)に編成され、統合(Integrate)され、時系列で、削除(Delete)や更新(Update)しないデータの集合体」とされる。
複数の基幹系システム(製造管理システム、販売管理システム、会計システムなど)から、マスタやトランザクション(取引)を抽出して、再構成・再蓄積したシステムを指すことが多い。
なんとなく分かったところで、選択肢を見ていきます。
選択肢を見る
ア あらゆるデータをそのままの形式や構造で格納しておく。
定義から見て、原則としてこれは正しそうな気がします。必ずしもそのままの必要は無く、変換後のデータでもよさそうですが。
イ データ量を抑えるために,データの記述情報であるメタデータは格納しない。
いろいろな形式のデータが混在しているなら、そのデータをどのように扱えば良いか記述するメタデータは必須だと思います。
ウ データを格納する前にデータ利用方法を設計し,それに沿ってスキーマをあらかじめ定義しておく。
これは従来型のデータベースです。
エ テキストファイルやバイナリデータなど,格納するデータの形式に応じてリポジトリを使い分ける。
定義から、データレイクは一元的に格納するリポジトリなので、これは違います。
答え
ア