Cuộc chiến giá AI 2026: Xiaomi giảm 99%, DeepSeek giảm 75%

Sáng nay 27/5/2026, Xiaomi chính thức áp dụng mức giá mới cho dòng MiMo-v2.5 — giảm tới 99% so với giá cũ, không phân biệt độ dài input, và áp dụng vĩnh viễn. Đây là đòn giáng thứ hai vào mặt bằng giá AI toàn cầu chỉ trong vòng một tháng, sau khi DeepSeek giảm 75% giá API hồi cuối tháng 4.

Bảng giá thực tế (xác minh từ trang chính thức)

Dưới đây là giá cache miss (input thường, không dùng cache) tính theo USD / 1M tokens — mức giá phổ biến nhất khi gọi API thực tế:

Provider	Model	Input	Output
Xiaomi	MiMo-v2-flash	$0.10	$0.30
DeepSeek	V4 Flash	$0.14	$0.28
Xiaomi	MiMo-v2.5	$0.40	$2.00
DeepSeek	V4 Pro (75% off)	$0.435	$0.87
Anthropic	Haiku 4.5	$1.00	$5.00
Xiaomi	MiMo-v2.5-pro	$1.00	$3.00
Anthropic	Sonnet 4.6	$3.00	$15.00
Anthropic	Opus 4.6	$5.00	$25.00

Nguồn: DeepSeek API Docs, Xiaomi MiMo Pricing, Anthropic Pricing — truy cập 27/5/2026.

Ba điều đáng chú ý

1. MiMo-v2-flash rẻ nhất thị trường — nhưng không phải lúc nào cũng vậy

Với $0.10 input và $0.30 output, MiMo-v2-flash chính thức là model rẻ nhất trong phân khúc “có reasoning”. Tuy nhiên nếu workload của bạn thiên về output nhiều (code generation, viết bài dài), DeepSeek V4 Flash vẫn rẻ hơn do output chỉ $0.28/M.

✅ Chọn MiMo-v2-flash nếu: input nhiều hơn output (RAG, phân tích tài liệu dài) ✅ Chọn DeepSeek V4 Flash nếu: output chiếm tỉ trọng lớn (sinh code, viết nội dung)

2. Phân khúc “tầm trung” đang bị bỏ trống

Giữa mức $0.10-0.40 của Trung Quốc và $3-5 của Anthropic là một khoảng trống khổng lồ. OpenAI GPT-4.1 ở mức $2/$8 vẫn đắt gấp 5-20 lần so với các lựa chọn từ châu Á, trong khi chất lượng thực tế ngày càng thu hẹp.

Trên Artificial Analysis, một người dùng HN ghi nhận MiMo-v2.5-pro chỉ kém Opus vỏn vẹn 3 điểm về chất lượng, nhưng rẻ hơn 100 lần về giá.

✅ Điều này có nghĩa là: Nếu bạn không bị ràng buộc bởi compliance (quốc phòng, tài chính nhạy cảm), việc trả $15-25/M output cho Opus ngày càng khó biện minh.

3. Cache hit đang trở thành vũ khí bí mật

Cả DeepSeek và Xiaomi đều đẩy mạnh cache hit pricing:

DeepSeek V4 Flash cache hit: $0.0028/M input (rẻ hơn 50 lần so với cache miss)
Xiaomi MiMo-v2-flash cache hit: $0.01/M input (rẻ hơn 10 lần)

Nếu bạn thiết kế system prompt ổn định và reuse context thông minh, chi phí thực tế có thể giảm thêm 10-50x so với giá niêm yết.

Ai thực sự được lợi?

Người dùng cuối — chắc chắn rồi

Một developer trên HN chia sẻ: “Hàng giờ trò chuyện với DeepSeek V4 Flash tốn có vài xu.” Với MiMo-v2-flash, con số đó còn thấp hơn. Các SaaS startup nhỏ giờ có thể tích hợp AI chất lượng cao với chi phí dưới $10/tháng cho hàng trăm ngàn request.

Các công ty Trung Quốc đang chơi “cuộc chơi dài hạn”

Không giống OpenAI/Anthropic cần recoup hàng tỉ USD đầu tư, Xiaomi và DeepSeek có thể chấp nhận margin âm trong ngắn hạn để chiếm thị phần. Xiaomi thậm chí còn tặng 100 nghìn tỉ token miễn phí trong chương trình Orbit Creator (đã kết thúc sớm vì hết token trước hạn).

Các công ty Mỹ — áp lực chưa từng có

Microsoft và Uber gần đây công khai nói “AI quá đắt”. Trong khi đó, giá từ Trung Quốc tiếp tục lao dốc. Nếu Anthropic không giảm giá Opus/Sonnet trong vài tháng tới, họ sẽ mất toàn bộ phân khúc developer không bị ràng buộc compliance.

Góc nhìn kỹ thuật: Làm sao họ giảm được nhiều vậy?

Xiaomi tiết lộ một số chi tiết trong thông báo giá:

SWA (Sliding Window Attention) với SGLang HiCache: giảm lượng data transfer của KV Cache giữa các tầng lưu trữ (GPU, CPU, SSD) xuống còn 1/7 so với trước
Token cache tăng gần 5 lần, cải thiện cache hit rate đáng kể
Tối ưu expert parallelism và input length bucketing

Nói cách khác: họ không “đốt tiền” — họ thực sự tối ưu được inference engine để giảm chi phí thật.

Nên dùng gì hôm nay?

Nhu cầu	Đề xuất	Chi phí ước tính
Chatbot đơn giản, RAG	MiMo-v2-flash	~$0.20 / 1M tokens (cả input+output)
Code generation	DeepSeek V4 Flash	~$0.42 / 1M tokens
Tác vụ phức tạp (agent, reasoning)	DeepSeek V4 Pro / MiMo-v2.5-pro	~$1-3 / 1M tokens
Cần compliance US/EU	Anthropic Sonnet 4.6	~$18 / 1M tokens

Cuộc chiến giá AI mới chỉ bắt đầu. Câu hỏi không còn là “AI có rẻ đi không?” mà là “bao giờ AI miễn phí?”

Số liệu trong bài được xác minh từ trang pricing chính thức của từng provider vào ngày 27/5/2026. Tham khảo thêm thảo luận trên Hacker News.