Shopify-to-Medusa：渐进式迁移的第一阶段实现

越来越多的电商团队正在重新审视与 Shopify 的关系。当业务规模还小的时候，Shopify 是一个高效的起点；但当业务长到一定体量，平台的天花板就开始变得清晰可见。我们近期帮助客户完成了从 Shopify 到自主后台的第一阶段迁移。

为什么要迁移

推动迁移的原因无非是以下三点：

定制能力受限。 Shopify 的插件体系和 API 覆盖了绝大多数标准场景，但一旦业务逻辑出现差异化需求——例如自定义的定价规则、复杂的会员体系、非标的履约流程——就会持续撞墙。开发资源大量消耗在"绕过平台限制"上，而不是"实现业务价值"上。

成本随规模线性放大。 Shopify 的费率结构在早期几乎感知不到，但当 GMV 增长到一定量级，平台抽成和 Plus 套餐的固定成本叠加在一起，压力就会变得显著。更关键的是，这部分成本与你自己的技术投入无关，你无法通过优化来降低它。

数据不在自己手里。 用户行为数据、订单历史、商品数据，实际上都存在 Shopify 的数据库里。你可以通过 API 访问，但你无法控制数据的存储方式、查询效率，也无法在平台之外做自由的数据分析和建模。用户资产本质上归平台所有。

为什么从数据同步层开始

面对这些痛点，最直觉的反应是"重写"——把所有功能从头搭一套，然后切换。这个思路在技术上是可行的，但在工程和业务上风险极高：开发周期漫长、上线那一刻是全量切换、出问题没有退路。

我们选择的是渐进式迁移：保持 Shopify 继续运行，同时在旁边逐步建立自主可控的能力，模块替换，阶段验证，随时可回滚。

渐进式迁移的前提是数据对齐。在替换任何业务模块之前，你必须先让自有数据库里的数据和 Shopify 保持同步。否则，任何一个被替换的模块都会因为数据缺失或不一致而出错。

第一阶段的核心目标，就是建立这个数据同步层：在完全不影响 Shopify 现有业务运行的前提下，将商品、订单、用户三类核心数据实时镜像到自有数据库，为后续的模块替换打好地基。

实现思路

整套同步层由五个模块构成，每个模块解决一个明确的问题。

模块一：Webhook 接收层——快进快出，不做多余的事

问题是什么。 Shopify 在数据发生变更时会主动推送 Webhook 事件，但它有一个严格的要求：接收方必须在 5 秒内返回 200 响应，否则 Shopify 会认为推送失败并触发重试。如果在 Webhook Handler 里直接执行业务逻辑——查库、转换数据格式、写入目标数据库——5 秒根本不够用，而且一旦下游出现任何异常，整个接收链路就会中断。

怎么设计的。 我们让 Webhook Handler 只做三件事：验证请求合法性（HMAC 签名校验，确认推送来自 Shopify 而非伪造请求）、将原始 payload 持久化到数据库、将事件投入 BullMQ 消息队列。完成这三步，立即返回 200。整个过程通常在几十毫秒内完成，远低于 5 秒的限制。

为什么这么选择。 这个设计的核心原则是"接收"和"处理"分离。接收层只负责把数据安全地接进来，处理层负责把数据变成有意义的结果。两者之间用队列解耦，任何一侧出问题都不会影响另一侧。Webhook 推送有多快，我们就能以多快的速度响应；业务处理有多复杂，Worker 层自己消化，不影响接收的稳定性。

模块二：主动拉取 + 被动推送——两种机制互补，覆盖彼此的盲区

问题是什么。 依赖 Webhook 作为唯一数据来源有一个根本性的风险：Webhook 是"有推才有"的被动机制。如果某条推送因为网络抖动丢失了，如果 Shopify 某段时间内推送服务出现异常，如果我们的接收服务在某个时间窗口内重启——这些情况下，数据就会出现空洞，而你无法感知。

库存数据尤其敏感。它的变更频率高、实时性要求强，但 Webhook 的漏推在压力场景下并不罕见。

怎么设计的。 在 Webhook 接收层之外，我们增加了一个定时主动拉取的库存快照服务：按固定间隔通过 Shopify API 拉取全量或增量的库存数据，写入数据库，作为 Webhook 实时推送的兜底和校验。两个机制共同维护同一份数据：Webhook 负责近实时的增量更新，快照负责周期性的全量对齐。

为什么这么选择。 没有任何单一机制是完全可靠的。Webhook 确保实时性，快照确保准确性。两者结合，才能在生产环境中真正信任数据的一致性。

模块三：Worker 异步处理——业务逻辑的真正执行者

问题是什么。 数据进了队列之后，谁来处理？处理的过程可能涉及数据格式转换、字段映射、写入自有数据库、触发下游逻辑。这些操作耗时不定，也可能因为各种原因失败。如果这些逻辑混在 Webhook Handler 里，任何一次失败都会影响接收稳定性。

怎么设计的。 Worker 服务独立运行，从 BullMQ 队列消费消息，执行实际的业务处理逻辑。我们按事件类型做了队列隔离：商品变更、订单变更、用户变更各有独立的队列和对应的 Worker。这样一来，即使某类事件的处理逻辑出现问题，只影响对应队列，不会传染到其他数据类型。

为什么这么选择。 解耦的价值在这里体现得很直接：Webhook 层和 Worker 层可以独立扩展、独立部署、独立排查。当订单量激增时，可以单独为订单 Worker 增加并发数，而不需要动商品或用户的处理逻辑。当某个 Worker 出现 bug 需要修复时，修复和重新部署不影响 Webhook 的持续接收。

模块四：重试 + 死信队列——失败不丢，异常有兜底

问题是什么。 Worker 处理消息时会失败。原因五花八门：下游数据库临时不可用、第三方 API 超时、数据格式边界情况、代码 bug。如何对待失败，直接决定了这套系统在生产环境中的可信度。

怎么设计的。 失败后，消息不会立即丢弃，而是进入重试流程。我们采用指数退避策略：第一次失败等待几秒后重试，此后每次重试的等待时间倍增，避免在下游服务压力大时持续轰炸。当重试次数达到上限后，消息进入死信队列（DLQ）。

DLQ 不是终点，是暂存区。进入 DLQ 的消息会触发告警通知，让团队知道有消息需要人工介入。工程师可以查看原始 payload 和失败原因，修复问题后将消息重新投递到正常队列处理。

为什么这么选择。 重试解决的是瞬时故障，DLQ 解决的是系统性问题。

模块五：状态机管理 + 消息重放——可观测，可恢复

问题是什么。 队列系统天然是"黑盒"——消息进去，处理完出来，中间发生了什么很难追踪。当生产环境出现问题时，"某批消息是否已处理"、"哪些失败了"、"失败的原因是什么"——这些问题如果无法快速回答，故障排查就会陷入混乱。

怎么设计的。 每条消息在数据库中有一条对应的状态记录，贯穿完整的生命周期：pending（已接收待处理）→ processing（正在处理）→ done（处理成功）/ failed（处理失败，记录原因）。状态由 Worker 在处理过程中实时更新。

消息重放机制建立在这个状态基础上：当需要重新处理某批消息时——例如修复了一个处理逻辑的 bug，需要对历史数据重跑——可以按条件筛选出对应状态的消息记录，重新投入队列处理，而不影响已成功处理的消息。

为什么这么选择。 可观测性是生产系统的基础能力，不是锦上添花。当故障发生时，能在几分钟内定位到"哪些消息失败了、原因是什么、影响了哪些数据"，和需要几个小时翻日志盲目排查，是两种完全不同的工程体验。状态机让系统的每一步都有迹可循；重放机制让故障恢复变得精确可控，而不是靠全量重跑碰运气。

小结

这五个模块组合在一起，解决的是同一个根本问题：在不触动 Shopify 现有业务的前提下，建立一个可靠、可观测、可恢复的数据同步基础。

这是渐进式迁移的地基。地基稳了，后续每个业务模块的替换才有信心逐步推进。