Season 1 · March 2026 · SHIFT Framework

SMOL AI WORLDCUPSize · Honesty · Intelligence · Fast · Thrift

World's first 5-axis benchmark for small AI · 125 questions · 7 languages · 🥅 League One · ⚽ La Liga · 🏅 Premier · 🏆 Champions

🏆 OFFICIAL RANKING FORMULA

WCS = √SHIFT × PIR_norm

QUALITY

SHIFT

H×0.4 + I×0.6

EFFICIENCY

PIR_norm

(I×H×F) ÷ (S×T) → log scale

Both quality AND efficiency must be high. A model that's smart but huge, or tiny but dumb, ranks low.
Size · Honesty · Intelligence · Fast · Thrift — all 5 axes matter.

Models

125

Questions

Languages

SHIFT Axes

Leagues

⚽ Evaluate Model 🤗 HF Dataset 🏅 ALL Bench Leaderboard

🏆 STANDINGS

📊 SHIFT AXES

💰 VALUE

🏅 VS SOTA

⚔ MATCHUP

🔬 INSIGHTS

📋 RULES

LEAGUE: │

#	PLAYER↕	🏆 WCS↕	🥊 PIR↕	⭐ SHIFT↕	🛡 Honesty↕	🧠 Intel↕	🏅 Union↕	⚖ League↕	📐 Params↕	⚡ tok/s↕	💾 RAM↕	🪤 Trap↕	📊 Calib↕	🚫 Refuse↕	🔄 Fix↕	🧩 Logic↕	🔢 Math↕	💻 Code↕	🌍 Lang↕	📚 Know↕	🧬 Meta↕

🥊 PIR = (I×H×F)/(S×T)│ 🥅 League One(<2GB) ⚽ La Liga(2-4GB) 🏅 Premier(4-8GB) 🏆 Champions(8-16GB)

SHIFT 5-AXIS DEEP DIVE

📦 SIZE

🛡 HONESTY

🧠 INTEL

⚡ FAST

💾 THRIFT

💰 BEST VALUE — GIANT KILLERS

Which models deliver the most intelligence per GB of RAM?

🏟 INTELLIGENCE vs RESOURCE — WHO PUNCHES UP?

Upper-left = best value (high performance, low resource). Dot size = PIR. 🥅 League One models in the upper-left are Giant Killers.

🥅 LEAGUE CHAMPIONS — SHIFT RADAR

Best model from each league, compared on 5 SHIFT axes. Outer = better.

⚡ SPEED EFFICIENCY — tok/s PER GB

Who squeezes the most speed from each GB of RAM? Bigger slice = more efficient.

🏅 GIANT KILLING INDEX

Small models vs Frontier giants — same Union Eval questions

🏟 SMOL vs SOTA — SCATTER MAP

Red zone = Frontier giants. Colored dots = Smol challengers. Closer to red = closer to SOTA.

⚔ TALE OF THE TAPE

🔵 BLUE CORNER

🔴 RED CORNER

🔬 KEY DISCOVERIES

Data-driven insights from SHIFT 125Q + Union 19Q + Speed measurement on 18 models

🥊 4B vs 8B

🏭 MoE Edge

🧠 Thinking

🪤 Hallucination

⚡ Speed

🏅 Recommend

🥊 "4B BEATS 8B"

A 4B model using only 2GB RAM achieves higher SHIFT scores than most 8B models requiring 5.5GB. Doubling parameters ≠ doubling performance.

⚽ Gemma-3n-E4B (2GB)

77.3

⚽ Qwen3-4B (2.8GB)

76.8

🏅 Qwen3-8B (5.5GB)

76.9

🏅 Llama-3.1-8B (5.5GB)

61.0

→ SHIFT gap: 0.1 points for 2.75× more RAM

📐 1.7B REBELLION

Qwen3-1.7B (1.2GB) outscores three 7-14B models. Latest architecture + small size > old architecture + big size.

🥅 Qwen3-1.7B (1.2GB)

66.8

🏅 Mistral-7B (5GB)

60.6

🏅 Llama-3.1-8B (5.5GB)

61.0

🏆 DeepSeek-R1-14B (9.5GB)

59.8

→ 1.7B beats 7B, 8B, and 14B models

🏟 WHAT IS THIS?

World's first 5-axis benchmark for small language models (≤10B active params). SHIFT measures what matters for edge: not just intelligence, but honesty, speed, and efficiency.

📊 SHIFT FRAMEWORK

Size — Model footprint
Honesty — Hallucination, calibration, refusal, self-correction
Intelligence — Reasoning, math, coding, 7 languages, metacognition
Fast — Tokens/sec, TTFA
Thrift — Peak VRAM/RAM

🏆 WCS — WORLDCUP SCORE

WCS = √(SHIFT × PIR_norm)
The official ranking metric. Geometric mean of quality (SHIFT) and efficiency (PIR). Both must be high to score well.

🥊 PIR FORMULA

PIR = (I × H × F) ÷ (S × T) · PIR_norm = log₁₀(PIR) / log₁₀(max) × 100
Efficiency rating. Like boxing's P4P: how much punch per pound of hardware.

⚖ FOOTBALL LEAGUE TIERS

🥅 League One (<2GB) — Raspberry Pi
⚽ La Liga (2-4GB) — Smartphone
🏅 Premier League (4-8GB) — Laptop
🏆 Champions League (8-16GB) — PC

🌍 7 LANGUAGES

🇬🇧 EN · 🇰🇷 KO · 🇸🇦 AR · 🇧🇷 PT · 🇹🇷 TR · 🇧🇩 BN · 🇹🇭 TH
2.7B+ speakers. Sentiment, idioms, translation, culture.

🏅 UNION EVAL

Same 20 cross-benchmark questions given to frontier SOTA models. Direct comparison with Claude, GPT-5, etc. Scores are not publicly disclosed.

SMOL AI WORLDCUP

Season 1 · v1.3 · 125Q SHIFT + 19Q Union · 18 Models · 12 Makers · 7 Languages · WCS Ranking · Apache 2.0 · 2026

Developed by Ginigen.ai

Small but Mighty AI

SMOL AI WORLDCUPSize · Honesty · Intelligence · Fast · Thrift

🏟 INTELLIGENCE vs RESOURCE — WHO PUNCHES UP?

🥅 LEAGUE CHAMPIONS — SHIFT RADAR

⚡ SPEED EFFICIENCY — tok/s PER GB

🏟 SMOL vs SOTA — SCATTER MAP

🥊 "4B BEATS 8B"

📐 1.7B REBELLION

🏭 MoE = EDGE AI FUTURE

📊 MoE vs Dense EFFICIENCY

🧠 THINKING: DOUBLE-EDGED SWORD

⚡ THINKING SPEED PENALTY

🪤 HALLUCINATION TRAP — THE MOST DRAMATIC METRIC

⚡ SPEED RANKING — tok/s (measured via HF Inference)

🏆 OVERALL CHAMPION (WCS #1)

⚡ EFFICIENCY KING (PIR #1)

💰 BEST VALUE

🧠 SMARTEST (Honesty King)

📱 BEST FOR SMARTPHONE

🏎️ SPEED DEMON

🖥️ BEST FOR PC (SOTA Closest)