Model topic

Embedding 与 Rerank API 服务怎么选

Embedding 和 Rerank 常用于 RAG 检索系统。成本不仅来自生成模型,还来自文档分块、批量嵌入、重排请求和重复索引。

EmbeddingRerank检索RAG

服务清单

可继续核对的服务

11 个条目 · 更新 2026-05-10

适合需要 Qwen、DashScope 或阿里云账户体系的团队。费用项较多,接入前应分项核对。

按量计费免费额度预付资源
接口
DashScope API / OpenAI 兼容模式
核验
2026-05-10
风险
中等

适合直接接入 Gemini。需要特别关注免费层、付费层和 Google Cloud 账单边界。

按量计费免费额度企业定制
接口
官方 Gemini API / Google AI Studio
核验
2026-05-10
风险
中等

与 Gemini Developer API 不同,Vertex AI 更偏企业云场景。价格和数据边界需要按项目与区域核对。

按量计费批量计费预置资源
接口
Google Cloud API / Model Garden
核验
2026-05-10
风险
较低

适合需要搜索增强能力的应用。费用不只来自模型 token,也可能来自搜索请求。

按量计费请求费用token 计费
接口
官方 Perplexity API / 搜索增强接口
核验
2026-05-10
风险
中等

适合重视 Rerank、Embedding 和企业检索的团队。成本估算时要按端点分别计算。

按量计费免费试用企业定制
接口
官方 Cohere API / Chat API
核验
2026-05-10
风险
较低

适合试用开源模型和多供应方推理。需要分清 Routed by Hugging Face 与自带供应方 Key 两种方式。

按量计费免费额度自带供应方 Key
接口
Inference Providers / 自定义 Provider Key
核验
2026-05-10
风险
中等

适合需要 OpenAI 兼容入口和较多开源模型选择的开发者。

按量计费企业定制
接口
OpenAI 兼容接口 / Dedicated endpoints
核验
2026-05-10
风险
中等

适合直接使用 Mistral 模型,尤其是对欧洲供应方和部署区域有要求的团队。

按量计费套餐订阅企业定制
接口
官方 Mistral API / OpenAI 兼容需查看当前文档
核验
2026-05-10
风险
较低

覆盖 LLM、图像、视频等多种 API,计费单位差异较大,适合逐项核验后使用。

按量计费按 token按图片或视频
接口
OpenAI 兼容接口 / Model API
核验
2026-05-10
风险
中等

适合需要国内云厂商模型服务和模型接入点的团队。账单应按模型服务与上层应用分别核对。

按量计费预付模型单元资源包
接口
火山方舟 API / 模型接入点
核验
2026-05-10
风险
中等

适合需要百度云和文心生态的团队。费用项与资源包规则需要在当前文档中逐项核对。

按量计费免费额度预付 tokens 包
接口
千帆 API / 模型服务
核验
2026-05-10
风险
中等

使用前重点核对

  • 确认向量维度和模型版本
  • 估算文档分块和批量嵌入成本
  • 核对 Rerank 每次请求的文档数量限制
  • 确认文档数据是否会被保存或训练使用

Embedding 与 Rerank API 常见问题

这些服务是否一定支持当前模型版本?

不一定。模型版本、区域、账户权限和免费层都可能变化,使用前请打开服务方当前文档和控制台核对。

能否只看这里的列表做决定?

不建议。本站列表用于缩小范围,真正接入前还需要测试请求、费用字段、限额、隐私政策和服务条款。