Model topic

Embedding 与 Rerank API 服务怎么选

Embedding 和 Rerank 常用于 RAG 检索系统。成本不仅来自生成模型，还来自文档分块、批量嵌入、重排请求和重复索引。

EmbeddingRerank检索RAG

服务清单

可继续核对的服务

11 个条目 · 更新 2026-05-10

阿里云百炼 Model Studio

适合需要 Qwen、DashScope 或阿里云账户体系的团队。费用项较多，接入前应分项核对。

按量计费免费额度预付资源

接口: DashScope API / OpenAI 兼容模式
核验: 2026-05-10
风险: 中等

Google Gemini API

适合直接接入 Gemini。需要特别关注免费层、付费层和 Google Cloud 账单边界。

按量计费免费额度企业定制

接口: 官方 Gemini API / Google AI Studio
核验: 2026-05-10
风险: 中等

Google Cloud Vertex AI

与 Gemini Developer API 不同，Vertex AI 更偏企业云场景。价格和数据边界需要按项目与区域核对。

按量计费批量计费预置资源

接口: Google Cloud API / Model Garden
核验: 2026-05-10
风险: 较低

Perplexity API

适合需要搜索增强能力的应用。费用不只来自模型 token，也可能来自搜索请求。

按量计费请求费用token 计费

接口: 官方 Perplexity API / 搜索增强接口
核验: 2026-05-10
风险: 中等

Cohere API

适合重视 Rerank、Embedding 和企业检索的团队。成本估算时要按端点分别计算。

按量计费免费试用企业定制

接口: 官方 Cohere API / Chat API
核验: 2026-05-10
风险: 较低

Hugging Face Inference Providers

适合试用开源模型和多供应方推理。需要分清 Routed by Hugging Face 与自带供应方 Key 两种方式。

按量计费免费额度自带供应方 Key

接口: Inference Providers / 自定义 Provider Key
核验: 2026-05-10
风险: 中等

DeepInfra

适合需要 OpenAI 兼容入口和较多开源模型选择的开发者。

按量计费企业定制

接口: OpenAI 兼容接口 / Dedicated endpoints
核验: 2026-05-10
风险: 中等

Mistral AI La Plateforme

适合直接使用 Mistral 模型，尤其是对欧洲供应方和部署区域有要求的团队。

按量计费套餐订阅企业定制

接口: 官方 Mistral API / OpenAI 兼容需查看当前文档
核验: 2026-05-10
风险: 较低

Novita AI

覆盖 LLM、图像、视频等多种 API，计费单位差异较大，适合逐项核验后使用。

按量计费按 token按图片或视频

接口: OpenAI 兼容接口 / Model API
核验: 2026-05-10
风险: 中等

火山方舟

适合需要国内云厂商模型服务和模型接入点的团队。账单应按模型服务与上层应用分别核对。

按量计费预付模型单元资源包

接口: 火山方舟 API / 模型接入点
核验: 2026-05-10
风险: 中等

百度千帆

适合需要百度云和文心生态的团队。费用项与资源包规则需要在当前文档中逐项核对。

按量计费免费额度预付 tokens 包

接口: 千帆 API / 模型服务
核验: 2026-05-10
风险: 中等

使用前重点核对

确认向量维度和模型版本
估算文档分块和批量嵌入成本
核对 Rerank 每次请求的文档数量限制
确认文档数据是否会被保存或训练使用

Embedding 与 Rerank API 常见问题

这些服务是否一定支持当前模型版本？

不一定。模型版本、区域、账户权限和免费层都可能变化，使用前请打开服务方当前文档和控制台核对。

能否只看这里的列表做决定？

不建议。本站列表用于缩小范围，真正接入前还需要测试请求、费用字段、限额、隐私政策和服务条款。