Database Partitioning and Sharding

Database partitioning is fundamental in distributed systems. It divides data into partitions that can be independently stored, managed, and queried.

1 Why Partition?

Capacity: Fit data when a single machine’s storage/compute is not enough.
Performance: Restrict queries to relevant partitions; reduce IO.
Maintainability: Operate on subsets (backup, reindex) without impacting entire dataset.
Cost and Compliance: Keep hot vs. cold data on appropriate hardware.

Concept	Scope	Deployment
Partitioning	Splitting data within one logical database instance	Same server (logical splits)
Sharding	Distributing partitions across multiple servers	Scale-out (multi-node)

Partitioning vs sharding

Rows are divided based on a partition key.

Columns are split across tables, keeping the same primary key.

Technique	How it Works	Pros	Cons
Range	Split by continuous ranges (dates, IDs)	Easy to reason about	Risk of uneven load if ranges skew
List	Explicit values per partition (regions, categories)	Intuitive mapping	Rebalancing when categories change
Hash	Hash function on key distributes rows	Even distribution automatically	Harder to control locality
Composite	Combine strategies (e.g., range + hash)	Balances locality + distribution	More complex routing logic

Sharding places partitions on separate servers (shards). Each shard is a self-contained DB node storing a subset of data.

Sharding layout

Cross-shard joins: expensive; often replaced by denormalization or application-side joins.
Referential integrity: foreign keys across shards are not enforced by the DB; ensure in code.
Rebalancing: adding shards requires moving data; plan for consistent hashing or directory services.
Hotspots: poor shard keys can overload a single shard; monitor and adjust.

Automate shard metadata updates; avoid manual routing tables.
Monitor per-shard metrics (CPU, disk, query latency) to catch imbalances.
Design schema with sharding in mind; keep related data co-located by the shard key.
Consider geo-partitioning to keep data near users and satisfy data residency laws.

Partitioning is logical table splits; sharding distributes those splits across nodes.
Horizontal partitioning supports scale-out; vertical partitioning optimizes column access and security.
Choose shard keys carefully, plan for rebalancing, enforce cross-shard rules in application logic.