データモデリング

データモデリングが重要な理由

データモデルは、情報がデータベースに書き込まれる前に、どのように構造化され、関連付けられ、保存されるかを定義します。

非構造化

Alice

Order#21

Paid

ItemA

分断されたデータ

→

モデリング

構造化

👤 Alice📦 21✔ Paid

👤 Bob📦 45✔ Pending

つながった関係

システムの動作への影響

レイテンシ

複雑さ

スケーラビリティ

データの構造化の仕方が、システムの性能とスケールを左右します

バックエンドシステムは、正しく動作するために構造化されたデータに依存しています。
エンジニアは、どのデータが存在し、それらがどのように関連するかを決める必要があります。
データの構成は、パフォーマンスとスケーラビリティに直接影響します。

詳細

バックエンドシステムはデータを中心に構築されています。ユーザー、投稿、注文、支払いなど、あらゆる機能は、構造化された情報を確実に保存し、取得することに依存しています。

データベースを選んだりクエリを書いたりする前に、エンジニアはデータモデルを定義しなければなりません。これには、どのデータが存在するか、データ同士がどのように関連しているか、そして全体をどのように整理すべきかを特定することが含まれます。

この段階で選んだ構造は、長期的な影響を持ちます。データモデルが不適切だと、非効率なクエリ、データの重複、システムのスケーリングの難しさにつながります。後から修正するのはコストが高く、多くの場合、大規模なリファクタリングが必要になります。

流れはシンプルです。アプリケーションが要件を定義し、データモデルがその要件を整理し、データベースがその結果を保存します。明確なデータモデルがなければ、データベースは整理されず、保守が難しくなります。

エンティティ

エンティティは、システム内の中核となるオブジェクト、つまりアプリケーションが管理する基本的なデータ要素を表します。

👤

ユーザー

name

📦

注文

userId

total

🛒

製品

name

price

各エンティティは独自のデータを定義しますが、リレーションシップを通じて他のエンティティとつながります

エンティティは、システムが追跡する必要のあるユーザー、注文、製品などの実世界の概念をモデル化します。
各エンティティは、独自の属性と振る舞いを持つ、明確に区別されたデータ型を定義します。
エンティティは、テーブル、コレクション、ドキュメントなどの保存構造に直接対応します。

詳細

エンティティは、あらゆるデータモデルの基盤です。ユーザー、投稿、コメント、注文、製品など、システム内に存在する主要なオブジェクトを表します。これらは、アプリケーションがサポートする必要のあるものから直接導かれます。

各エンティティは、関連するデータをひとまとめにします。たとえば、User エンティティには name、email、created date のようなフィールドが含まれ、Post エンティティには title と content が含まれます。このまとまりによって、データは整理され、意味のある形で管理できます。

実際には、エンティティはデータベース構造に対応します。リレーショナルデータベースではテーブルになります。NoSQL システムでは、コレクションやドキュメントとして表現されることがあります。この対応関係が、アプリケーションの概念と実際に保存されるデータを結びつけます。

エンティティを早い段階で明確に定義することは非常に重要です。定義が不十分だと、後の開発で混乱、データの重複、非効率なクエリにつながります。

エンティティ間の関係

関係はエンティティ同士がどのようにつながっているかを定義し、システムが関連データを効率的に結び付けて検索できるようにします。

1対1の接続

関係は、あるエンティティが別のエンティティとどのように関連しているかを表します。
一般的な種類には、1対1、1対多、多対多があります。
これらのつながりによって、データの保存方法と検索方法が決まります。

詳細

エンティティは、ほとんどの場合、単独では存在しません。多くのシステムではデータ同士を関連付ける必要があります。たとえば、ユーザーが投稿を作成し、投稿にはコメントがあります。これらのつながりは関係によって定義されます。

一般的な関係の種類はいくつかあります。1対1の関係は、あるエンティティの各レコードが別のエンティティのちょうど1つのレコードに対応することを意味します。たとえば、ユーザーとそのプロフィールです。1対多の関係は、1つのエンティティが複数の他のエンティティと関連付けられることを意味します。たとえば、1人のユーザーが複数の投稿を持つ場合です。多対多の関係では、両側の複数のエンティティ同士を関連付けることができます。たとえば、複数のコースに登録している学生です。

これらの関係は、リレーショナルデータベースの外部キーのような参照を使って実装されます。これにより、不要な重複を避けながら、システムはエンティティ間でデータを結び付けることができます。

関係を適切に定義することは、データを効率的に検索するうえで重要です。これによって、システムが関連情報をどれだけ簡単に取得できるかが決まり、パフォーマンスとデータ整合性に直接影響します。

スキーマ設計

スキーマはデータの構造を定義し、データベース内で一貫性、整合性、そして明確な整理を保証します。

入力データ

👤 Alice
📧 alice@email.com

スキーマルール

名前必須

メール一意

タイプstring

保存結果

✅ 保存済み

スキーマがデータをフィルタリングします — 有効で構造化されたエントリのみが保存されます。

スキーマは、各エンティティのフィールド、データ型、関係を定義します。
制約は、必須値や一意性などのルールを強制します。
適切に設計されたスキーマは、データの一貫性と予測可能性を保ちます。

詳細

スキーマは、データベースにデータをどのように保存するかを示す設計図です。どのフィールドが存在するか、それらがどのようなデータ型を持つか、そして異なるエンティティがどのように接続されるかを定義します。

たとえば、Users 構造には id、email、created_at のようなフィールドが含まれ、Posts 構造には id、user_id、title、content が含まれます。各フィールドには、string、integer、timestamp などの定義されたデータ型があります。

スキーマは制約も強制します。これらのルールはデータの整合性を保証します。たとえば、特定のフィールドの存在を必須にしたり、一意の値を強制したり、エンティティ間の有効な関係を維持したりします。

明確に定義されたスキーマは、不整合または無効なデータがシステムに入るのを防ぎます。アプリケーションとデータベースの間に明確な契約を提供し、システムを理解しやすく、保守しやすくします。

正規化

正規化は、重複を減らし、一貫性を保つために、データを別々の構造に整理します。

前（重複あり）

👤 Alice📘 Math

👤 Alice📘 Science

👤 Bob📘 Math

繰り返しのユーザーデータ

✂️

分割

後（構造化）

ユーザー

Alice

Bob

コース

Math

Science

重複ではなくリンクされている

正規化は、データを分離してリンクすることで繰り返しをなくします。

同じ情報を繰り返さないように、データを複数のエンティティに分割します。
関連するデータは、重複させる代わりにリレーションシップを使って接続します。
これにより、一貫性、保存効率、保守性が向上します。

詳細

正規化とは、各情報を1回だけ保存するようにデータを構造化するプロセスです。同じデータを複数のレコードに繰り返し保存するのではなく、別々のエンティティに分けます。

たとえば、名前のようなユーザー情報を各投稿に繰り返し入れるべきではありません。代わりに、ユーザーデータは Users 構造に保存し、投稿は user_id を通じてユーザーを参照します。

この方法は冗長性を減らし、一貫性を確保します。ユーザー名が変更された場合でも、多くのレコードを更新するのではなく、1か所だけ更新すれば済みます。

正規化は保存効率も向上させ、更新を सरल化します。ただし、クエリ時には複数のエンティティにまたがってデータを結合する必要があることが多く、適切に管理しないとパフォーマンスに影響する場合があります。

非正規化

非正規化は、読み取り性能を向上させ、クエリの複雑さを減らすために、意図的にデータを重複させる手法です。

正規化済み（結合が必要）

👤 Alice

ID:1

→

📘 Math

UserID:1

複数回の検索（遅い）

⚖️

非正規化済み（事前結合）

📄 Alice - Math

📄 Alice - Science

→

直接読み取り（高速）

✏️ 更新: Alice → Alicia

Alicia - Math

Alice - Science

重複データは同期がずれることがあります

複数のエンティティにまたがる高コストな結合を避けるために、データを重複させます。
これにより、トラフィックの多いシステムでより高速な読み取りと、よりシンプルなクエリが可能になります。
トレードオフは、重複したデータが同期されていない場合に不整合が発生する可能性があることです。

詳細

非正規化は、正規化とは逆のアプローチです。データを厳密に分離する代わりに、一部の情報を意図的に複数のエンティティに重複させて、クエリを高速化します。

たとえば、posts に user_id だけを保存する代わりに、システムは Posts 構造体に user_name も直接保存することがあります。これにより、posts を取得するたびに Users データと結合する必要がなくなります。

このアプローチは、特にデータベースの結合を最小限に抑えることが重要な読み取り中心のシステムで、パフォーマンスを向上させます。また、必要なデータを 1 回の操作で取得できることが多いため、クエリロジックも सरल化されます。

欠点は一貫性です。ユーザー名のように重複したデータが変更された場合、複数の場所で更新する必要があります。適切に処理しないと、システム全体で古いデータや不整合なデータが発生する可能性があります。

データモデルの例

実際のアプリケーションでは、エンティティとリレーションシップを組み合わせて、システムの動作を反映する構造化されたデータモデルを作成します。

👤

ユーザー

📦

注文

🛒

製品

💳

支払い

作成する

エンティティが構造を形成します。リレーションシップは、それらの間でデータがどのように流れるかを定義します。

アプリケーションは、システムとして連携して動作する複数のエンティティを定義します。
リレーションシップは、これらのエンティティを結び付けて、実際のやり取りを表現します。
この構造により、効率的なクエリ実行とデータ整理が可能になります。

詳細

典型的なソーシャルシステムは、ユーザー、投稿、コメントという3つの主要なエンティティでモデル化できます。それぞれが、アプリケーションの機能の異なる部分を表します。

ユーザーは投稿を作成し、投稿には複数のコメントを付けることができます。コメントは、投稿と、それを作成したユーザーの両方に関連付けられます。これらのリレーションシップは、データがシステム内をどのように流れるかを定義します。

データベースでは、この構造は Users、Posts、Comments のような個別のテーブルまたはコレクションとして表現されます。リレーションシップは、投稿内のユーザーIDやコメント内の投稿IDのような参照を使って実装されます。

この例は、エンティティやリレーションシップのような抽象的な概念が、実際にはどのように組み合わさるかを示しています。適切に構造化されたデータモデルは、アプリケーションの振る舞いを反映し、データの保存、取得、管理を効率的にしやすくします。

データモデルの設計

データモデリングは、アプリケーションの要件をスケーラブルで効率的なデータベース設計へと変換する、構造化されたプロセスです。

エンティティを特定する

リレーションシップを定義する

構造を最適化する

👤

📦

🛒

エンティティはつながり合います。リレーションシップは、データがどのように相互作用するかを定義します。

まず、アプリケーション要件からコアとなるエンティティを特定します。
それらのエンティティが互いにどのように関連するかを定義します。
スキーマを設計し、データを正規化し、パフォーマンス向上のためにインデックスを追加します。

詳細

データモデルの設計は、アプリケーションの要件を理解することから始まります。エンジニアはまず、システムに必要な主要エンティティ、たとえばユーザー、注文、商品などを特定します。

次に、これらのエンティティ間の関係を定義します。これによって、データがどのようにつながり、どのように問い合わせられるかが決まります。明確な関係は、効率的で理解しやすいシステムを構築するうえで不可欠です。

エンティティと関係が定まったら、スキーマを設計します。これには、フィールド、データ型、制約の定義が含まれ、その後、重複を減らして一貫性を高めるために正規化を行います。

最後に、一般的なクエリのパフォーマンスを最適化するためにインデックスを追加します。このステップにより、システムは実際の利用に対して効率的にスケールし、処理できるようになります。

この一連のプロセスによって、高レベルのアプリケーション要件が、データベースが確実に保存し提供できる構造化されたデータモデルへと変換されます。

質問セクション

まずは自分の言葉で答えてみてから、カードをめくって確認しましょう。

1 / 5