第23章：竞品对比的诚实分析

定位：本章把 MemPalace 放在竞争格局中，逐系统、逐维度地对比。赢的地方实事求是地展示，输的地方同样实事求是地分析原因。不使用营销语言，不贬低竞品，不隐藏弱项。

先看成绩单

以下是 LongMemEval R@5 的直接对比，所有数据来自各系统的公开报告或可复现的 benchmark 运行：

系统	LongMemEval R@5	API 依赖	成本
MemPalace (hybrid v4 + rerank)	100%	可选（Haiku）	Free + ~$0.001/查询
Supermemory ASMR	~99%	Yes	未公开
MemPalace (raw)	96.6%	无	Free
Mastra	94.87%	Yes (GPT-5-mini)	API 成本
Mem0	~85%	Yes	$19-249/月
Zep	~85%	Yes	$25/月起

这张表是真实的。但如果你只看这张表就得出"MemPalace 碾压一切"的结论，你漏掉了很多重要的上下文。

四个维度的对比

一维的分数排名是危险的。它隐藏了系统之间根本性的架构差异，把不同设计哲学的产品强行放在同一个标尺上。更诚实的对比需要至少四个维度。

维度一：准确率

LongMemEval 是最标准的比较战场，上面的表已经展示了。但只看 LongMemEval 远远不够。

ConvoMem（75K+ QA 对）的对比：

系统	ConvoMem 得分	说明
MemPalace	92.9%	逐字存储 + 语义搜索
Gemini（长上下文）	70-82%	把全部历史放进上下文窗口
Block extraction	57-71%	LLM 处理后的块提取
Mem0 (RAG)	30-45%	LLM 提取的记忆

MemPalace 在 ConvoMem 上超过 Mem0 两倍以上。这不是一个边际优势——是两倍。原因值得深入分析：Mem0 用 LLM 来决定"什么值得记住"，然后只保存提取出来的事实。当 LLM 提取了错误的东西，或者遗漏了关键细节时，那部分记忆就永久丢失了。MemPalace 的逐字存储不做任何过滤——不判断什么重要、什么不重要——所以不存在"错误提取"这个失败模式。

但现在来看 MemPalace 表现不好的地方。

LoCoMo（1986 个多跳 QA 对）：60.3% 的坦诚分析。

MemPalace 在 LoCoMo 上的基线成绩是 60.3% R@10（session 粒度，无 rerank）。这个分数不好。它意味着在四成的多跳推理问题中，MemPalace 连正确的 session 都没有排到前十名。

为什么？

LoCoMo 测试的是一种 MemPalace 的基础架构不擅长的能力：跨 session 信息串联。考虑一个典型的 LoCoMo 问题："Caroline 在哪个领域找到了工作？"答案需要把 session 5（她提到对海洋生物学感兴趣）和 session 12（她说拿到了一个研究岗的 offer）串联起来。但 MemPalace 的语义搜索是逐 session 独立评分的——它不知道 session 5 和 session 12 有因果关系。问题里的关键词"领域"和"工作"分别与两个不同的 session 有微弱的语义关联，但不足以把任何一个排到 top-10。

更具体地拆解各类别的表现：

类别	R@10（基线）	说明
temporal	69.2%	最好——时间关系是最直接的检索信号
adversarial	61.9%	说话者混淆严重
single-hop	59.0%	即使单跳也只有六成——搜索空间不够精确
open-domain	58.1%	开放性问题的词汇匹配更难
temporal-inference	46.0%	最差——需要推理的时间问题几乎是随机水平

temporal-inference 的 46.0% 接近随机猜测的表现。这是 MemPalace 最诚实的弱点：当答案需要跨越多个时间节点进行推理时，纯粹的向量检索基本不工作。

不过需要指出的是，LoCoMo 的竞品对比数据有限。Mem0、Zep、Supermemory 都没有公开报告 LoCoMo 成绩。已知的参照点是 Memori 系统的 81.95%（R@10），MemPalace 的 hybrid v5 模式（88.9% R@10）超过了它。但基线的 60.3% 确实不占优。

还有一个结构性问题需要透明公开：LoCoMo 的每个对话只有 19-32 个 session，当使用 top-k=50 进行检索时，候选池已经包含了所有 session——此时 Sonnet rerank 本质上是在做阅读理解，不是检索。因此，使用 top-k=50 + Sonnet rerank 得到的 100% 分数有结构性保证，不应与 top-k=10 的诚实检索分数混为一谈。诚实的 LoCoMo 分数是 top-10 下的成绩。

维度二：成本

这是 MemPalace 的核心优势之一，也是最容易被量化的维度。

系统	月度成本	年度成本	成本构成
MemPalace (raw)	$0	$0	无 API 调用
MemPalace (hybrid + rerank)	~$0.30	~$3.60	~300 次查询 x $0.001/次
Mastra	变动	变动	GPT-5-mini API 成本
Mem0	$19-249	$228-2,988	订阅制
Zep	$25+	$300+	订阅制
Letta (MemGPT)	$20-200	$240-2,400	订阅制

MemPalace 的 raw 模式成本是零。字面意义上的零。没有 API 调用，没有云服务，没有订阅费。ChromaDB 运行在本地，当前基线使用的是 ChromaDB 默认的本地 embedding 路径。更谨慎地说，源码并没有把默认 embedding 资产直接 vendoring 进仓库，因此更准确的口径仍然是：初始资产准备完成后，日常 raw 查询成本为零。

即使加上可选的 Haiku rerank，每次查询的成本大约是 $0.001——一千次查询一美元。假设一个活跃用户每天做 10 次记忆搜索，一个月 300 次查询的成本是 $0.30。

这个成本差异不是百分比级别的。Mem0 的入门价（$19/月）是 MemPalace raw 模式成本的无穷大倍——因为分母是零。即使与 MemPalace 的 hybrid 模式相比，Mem0 的年度最低成本（$228）仍然是 MemPalace 的 63 倍。

但公平地说，Mem0 和 Zep 的定价包含了 MemPalace 不提供的东西：托管基础设施、管理界面、团队协作功能、SLA 保障。对于企业用户来说，$25/月的 Zep 可能比"免费但自己运维"的 MemPalace 实际上更便宜——因为运维时间本身有成本。

维度三：隐私

系统	数据位置	API 通信	隐私模型
MemPalace (raw)	本地为主（初始资产就绪后）	无	日常 raw 运行时数据不离开你的机器
MemPalace (hybrid)	主要本地	仅 rerank 时发送 session 片段	可选的最小数据外发
Mem0	云端	全程 API	厂商持有数据
Zep	云端	全程 API	SOC 2, HIPAA 合规
Supermemory	云端	全程 API	厂商持有数据
Mastra	取决于部署	GPT API	OpenAI 持有查询数据

MemPalace 的 raw 模式是市场上少数真正接近"零数据外发"的主流 AI 记忆系统。不是"我们加密了数据"，不是"我们符合 SOC 2"，而是在日常 raw 运行阶段没有必要把查询和记忆发送到第三方 API。ChromaDB 跑在本地，搜索在本地，知识图谱也在本地。更谨慎地说，书里其他章节已经说明默认嵌入资产存在一次准备过程；但在那之后，你的对话记录——包含技术决策、内部讨论、代码片段、甚至个人偏好——都可以持续停留在你的磁盘上。

hybrid 模式引入了一个隐私权衡：当启用 LLM rerank 时，top-K 候选 session 的前 500 个字符会被发送到 Anthropic 的 API 用于重排序。这意味着每次查询有少量对话内容会离开你的机器。但这是可选的、可控的：你可以选择不使用 rerank 而接受 96.6% 的成绩，或者使用 rerank 追求更高的准确率。

Zep 值得特别提及：它是这个领域中隐私合规做得最认真的商业产品。SOC 2 认证和 HIPAA 合规意味着它经过了第三方审计，数据处理流程有法律约束力。对于医疗、金融等受监管行业的用户，Zep 的合规性可能比 MemPalace 这种"本地为主、长期离线可用"的方案更实用——因为后者意味着相当一部分合规责任由用户自己承担。

维度四：API 依赖

系统	无 API 可用	需要哪些 API	离线运行
MemPalace (raw)	完全可用	无	冷启动准备后可离线
MemPalace (hybrid)	96.6% 可用，100% 需 API	Anthropic（可选）	部分离线
Mastra	不可用	OpenAI (GPT-5-mini)	不支持
Mem0	不可用	自有 API + LLM API	不支持
Zep	不可用	自有 API + Graph DB	不支持
Supermemory	不可用	自有 LLM API	不支持

这一维度的对比非常清晰：MemPalace 是唯一一个在完全没有 API key 的情况下仍然能提供竞争力成绩的系统。96.6% 的 R@5——零 API 调用——已经超过了 Mastra（94.87%，需要 GPT-5-mini）、Mem0（~85%，需要付费订阅）、Zep（~85%，需要付费订阅）。

这不是一个微不足道的属性。API 依赖意味着：

可用性风险：当 API 提供商宕机时，你的记忆系统完全不工作。2024-2025 年间，主要 LLM API 的累计宕机时间足以让这成为一个真实问题。
成本不可控：API 定价由提供商单方面决定。你的记忆系统的运行成本取决于一个你无法控制的变量。
地理限制：某些地区无法访问某些 API 提供商。一个依赖 OpenAI API 的记忆系统在某些网络环境下无法使用。
数据主权：API 调用意味着数据出境。对于某些组织和地区的合规要求，这是一个硬约束。

逐个竞品分析

Supermemory ASMR（~99% R@5）

Supermemory 是距离 MemPalace 最近的竞品。它的 ASMR（Agentic Search with Memory Retrieval）架构在 LongMemEval 上报告了约 99% 的成绩——但这是实验版本的数字，其生产版本约在 85%。

Supermemory 做对了什么： ASMR 使用 LLM 运行多轮搜索——第一轮检索结果不满意时，LLM 会重新构造查询再搜一次。这种 agentic 方法在语义模糊的查询上特别有效：当第一次搜索没命中时，LLM 能理解失败的原因并调整策略。

MemPalace 的对比优势： 没有 API 依赖。Supermemory 的每次搜索可能触发多次 LLM 调用，成本和延迟都更高。MemPalace 的 raw 模式零成本、亚秒延迟——这在高频搜索场景下差距明显。

公平的判断： 如果你不在乎成本和延迟，Supermemory 的 agentic 方法可能在某些复杂查询上比 MemPalace 更灵活。但如果你在乎隐私和离线能力，Supermemory 不是一个选项。

Mastra（94.87% R@5）

Mastra 使用 GPT-5-mini 作为"观察者"——LLM 在对话进行时实时提取观察结果，然后存储这些观察而不是原始对话。

Mastra 做对了什么： 提取阶段的 LLM 能理解对话的结构，把隐含的信息显性化。如果用户说"上次那个 Postgres 的问题让我头疼了一整天"，Mastra 的 LLM 能提取出"用户在 Postgres 上遇到过困难"这个显性事实。

Mastra 的问题： 一旦提取完成，原始对话就被丢弃了。如果 GPT-5-mini 在提取时遗漏了某个细节——比如它把"头疼了一整天"理解为情感表达而没有记录为时间投入——那个信息就永久丢失了。MemPalace 保留原始文本，不存在这个失败模式。

分数差距的含义： MemPalace raw（96.6%）比 Mastra（94.87%）高 1.7 个百分点。这个差距在统计上是显著的——在 500 个问题上意味着 9 个问题的差异——但不是压倒性的。考虑到 Mastra 需要 API 成本而 MemPalace 不需要，这 1.7pp 的优势变得更有分量。

Mem0（~85% R@5）

Mem0 是这个领域知名度最高的产品之一——品牌认知度远超 MemPalace。它使用 LLM 提取"核心记忆"——把对话蒸馏成简短的事实片段。

Mem0 做对了什么： 它的用户体验很好。集成简单，管理界面直观，记忆的可视化做得比任何竞品都好。对于不想自己运维的团队，Mem0 的托管服务省去了所有基础设施的操心。

Mem0 的根本问题： 在 ConvoMem benchmark 上，Mem0 只拿到了 30-45%——不到 MemPalace 92.9% 的一半。原因是系统性的，不是偶然的：LLM 提取记忆的方式不可避免地丢失信息。当 LLM 把一个 45 分钟的架构讨论压缩成"用户偏好 Postgres"时，它丢失了为什么偏好 Postgres、在什么场景下、对比了哪些替代方案、权衡了哪些因素。后续当问题涉及这些被丢弃的上下文时，系统找不到答案。

公平的承认： Mem0 的 $19-249/月定价包含了 MemPalace 没有的商业支持、SLA、团队协作功能。对于一个需要"开箱即用、有人负责"的企业团队来说，Mem0 的总拥有成本可能比 MemPalace 更低——因为 MemPalace 的"免费"不包含运维人力成本。

Zep（~85% R@5）

Zep 使用图数据库（类似 Neo4j 的方案）来存储实体关系。它的 Graphiti 系统建立了时间感知的知识图谱——实体之间的关系有生效和失效时间。

Zep 做对了什么： 知识图谱方法在实体关系查询上有天然优势。"Kai 现在在做什么项目？"这种查询，图数据库可以直接遍历边来回答，不需要在文档集合中搜索。时间有效性的设计也很优雅——当事实发生变化时，旧的关系被标记为失效而不是删除。

MemPalace 的对比： MemPalace 的知识图谱（knowledge_graph.py）提供了类似的能力——时间有效性、实体查询、timeline——但底层用的是 SQLite 而不是 Neo4j。这意味着零额外依赖、零运维成本，但也意味着在大规模图遍历上可能比专业图数据库慢。

公平的判断： 在 LongMemEval 上的 ~85% 成绩可能不能完全代表 Zep 的能力。Zep 的设计目标不仅是检索——它的图谱能力、实体关系管理、企业合规性（SOC 2、HIPAA）都是 MemPalace 没有正式提供的。如果你的需求是"构建一个合规的企业级记忆系统"，Zep 的 ~85% 检索成绩可能是一个可以接受的权衡。

Hindsight（91.4% R@5）

Hindsight 是一个较新的系统，由 Virginia Tech 验证，使用 Gemini-3 和时间感知的向量检索。

Hindsight 做对了什么： 它的时间感知方法与 MemPalace 的 hybrid v2 中的时间增强相似——在向量相似度的基础上加入时间接近度作为信号。这个方向是正确的，因为很多记忆查询本质上是时间锚定的。

分数定位： 91.4% 介于 Mem0/Zep（~85%）和 Mastra（94.87%）之间。它需要 LLM API（Gemini-3），但性能还没有达到不需要 API 的 MemPalace raw（96.6%）。

MemPalace 赢在哪里

从四维对比中可以清晰地提炼出 MemPalace 的竞争优势：

在准确率维度上，MemPalace 的 raw 模式（96.6%）在无 API 条件下已经超过了所有需要 API 的竞品中除 Supermemory ASMR 实验版之外的全部。hybrid v4 + rerank 的 100% 是目前已发布的 LongMemEval 最高分。

在成本维度上，MemPalace 是唯一的零成本选项。所有其他系统至少需要 API 调用成本或订阅费。

在隐私维度上，MemPalace 的 raw 模式是唯一真正的零数据外发方案。

在 API 依赖维度上，MemPalace 是唯一在无 API 条件下仍然具有竞争力的系统。

这些优势有一个共同的技术根源：MemPalace 选择了"保留一切、用结构来组织"而不是"用 AI 来提取和压缩"。这个设计决策的直接后果是不需要 LLM 参与索引过程，因此不需要 API、不需要成本、不需要数据外发。

MemPalace 输在哪里

同样诚实地，MemPalace 在以下场景中是弱于竞品的：

多跳推理。 LoCoMo 的 60.3% 基线成绩显示，当答案需要跨 session 串联时，纯语义检索不够用。使用 LLM 进行记忆提取的系统（Mem0、Mastra）可以在提取阶段就建立跨 session 的关联——"用户在 session 5 提到对海洋生物学的兴趣，在 session 12 找到了相关工作"可以被提取为一条连贯的记忆。MemPalace 把这两个 session 分别存储，搜索时只能独立评分。

hybrid v5 模式把 LoCoMo 成绩提升到了 88.9%（R@10），主要通过关键词增强和人名提取。Wings v3 的说话者归属设计把 adversarial 类别从 34.0% 推到了 92.8%。但 temporal-inference 类别——需要真正的时间推理——始终是最弱的环节。

企业功能。 MemPalace 没有管理控制台、没有团队协作、没有审计日志、没有 SLA。Zep 和 Mem0 作为商业产品，在这些维度上远远领先。对于需要"IT 部门能管理"的企业客户，MemPalace 目前不是一个可行的选项。

集成生态。 Mem0 和 Zep 有丰富的 SDK（Python、JavaScript、Go）、与主流框架的集成、详细的 API 文档。MemPalace 的集成方式主要是 MCP（Model Context Protocol）和 CLI——对于已经在用 Claude 的开发者来说很方便，但对于其他生态的用户来说门槛更高。

嘈杂数据的处理。 MemBench benchmark 中的 noisy 类别——故意在问题中混入干扰信息——MemPalace 只拿到了 43.4%。这暴露了逐字存储方法的一个结构性弱点：当噪声在 embedding 层面与信号不可区分时，检索质量会严重退化。使用 LLM 提取的系统可以在提取阶段过滤噪声，但 MemPalace 把一切都保留了——包括噪声。

100% 背后的诚实

MemPalace 在 LongMemEval 上拿到了 100%——500/500，所有六种题型全部满分。这是事实。但这个事实需要一些上下文。

从 96.6% 到 99.4% 的提升路径（hybrid v1 到 v3）是基于分类别的失败模式分析——每次改进都针对一类问题，而不是特定的某个问题。这些改进是可泛化的。

但从 99.4% 到 100% 的最后 3 个问题，是通过检查这三个特定问题的失败原因来修复的：

一个问题因为包含带引号的短语 'sexual compulsions' 而需要精确短语匹配
一个问题因为涉及特定人名 Rachel 而需要专名提权
一个问题因为涉及高中回忆而需要怀旧模式的偏好提取

这三个修复是针对测试集的调优（teaching to the test）。它们可能泛化到类似的查询模式，也可能只在这三个特定问题上有效。在严格的学术评审中，这是一个需要标注的方法论问题。

团队对此的处理方式是：建立了一个 50/450 的 dev/held-out 拆分。450 个从未用于调优的 held-out 问题上，hybrid v4 的成绩是 98.4% R@5、99.8% R@10。这才是诚实的可发布数字。

三个数字讲了三个不同的故事：

96.6% — 零 API、零调优、零人工干预的基线能力。最保守也最可靠的声明。
98.4% — held-out 集上的诚实成绩，包含了可泛化的改进但排除了测试集调优。
100% — 在完整测试集上的满分，包含了三个针对特定问题的修复。辉煌但需要加注释。

60.3% 意味着什么

如果 100% 是需要上下文的好消息，60.3% 就是需要分析的坏消息。

LoCoMo 的 60.3% R@10 基线意味着 MemPalace 在多跳推理任务上的表现只是"及格"。在五个类别中，temporal-inference 只有 46.0%——接近随机水平。

但"及格"不等于"失败"。这里有三层分析。

第一层：这个分数是无 API 条件下的。 所有使用 LLM 辅助的系统在 LoCoMo 上的表现都更好，因为多跳推理本质上需要理解——不只是检索。MemPalace 的 60.3% 是用一个纯检索系统去做推理任务的结果。在同一条件下（无 LLM），MemPalace 的 hybrid v5 已经达到 88.9%，超过了 Memori 的 81.95%。

第二层：优化空间已被验证。 Wings v3 的说话者归属设计把 adversarial 从 34.0% 提升到 92.8%——这证明了结构化改进可以大幅提升 LoCoMo 成绩。bge-large embedding 模型（替换默认的 all-MiniLM）把 single-hop 从 59.0% 提升了 10.6pp。Haiku rerank 把 bge-large 的成绩从 92.4% 进一步推到 96.3%。这些改进的方向是明确的。

第三层：LoCoMo 的结构限制。 每个对话只有 19-32 个 session，当 top-k=50 时所有 session 都在候选池中，使得 rerank 变成阅读理解。这意味着 LoCoMo 的 100% rerank 分数和 LongMemEval 的 100% rerank 分数不能用同一个标准来评价。前者有结构性保证，后者是真正的检索成就。

设计哲学的根本分歧

所有这些对比的背后，是两种截然不同的设计哲学。

路线 A："让 AI 决定什么值得记住"。 这是 Mem0、Mastra、Supermemory 的路线。LLM 阅读对话，提取关键信息，丢弃其余部分。优点是存储紧凑、检索空间小。缺点是不可逆地丢失了原始上下文——一旦提取错了，没有回头路。

路线 B："保留一切，用结构来组织"。 这是 MemPalace 的路线。不做任何信息过滤，逐字保存原始对话。用 palace 结构（wing、hall、room、closet、drawer）来组织，用 semantic search 来检索。优点是零信息损失、零 API 依赖。缺点是搜索空间更大、多跳推理更难。

LongMemEval 的结果表明：路线 B 的检索精度不低于路线 A，甚至更高。96.6% vs 85-95% 不是一个侥幸的结果——它反映了一个基本事实：当你保留了全部原始文本时，答案总在那里等你找到。而当你让 LLM 提取记忆时，答案可能已经被"提取"掉了。

LoCoMo 的结果表明：路线 B 在推理任务上确实弱于路线 A 的潜力。逐字存储保留了信息，但没有建立信息之间的关联。这是一个开放的工程问题——palace 结构中的 tunnel（跨 wing 连接）和知识图谱的时间有效性正在试图解决它。

最终，这不是一个"哪个路线更好"的问题，而是一个"你在优化什么"的问题。如果你的首要约束是隐私和成本，路线 B 是唯一的选择。如果你的首要约束是推理深度和企业合规，路线 A 的商业产品可能更适合。MemPalace 选择了路线 B，然后在这条路线上走到了当前已知的最远处。

不宣称的东西

最后，有些东西是 MemPalace 明确不宣称的：

不宣称"最好的 AI 记忆系统"。 这取决于你用什么标准来定义"最好"。在 LongMemEval 上，是的。在 LoCoMo 的基线上，不是。在企业功能上，远远不是。

不宣称竞品不好。 Mem0 在用户体验上做得比 MemPalace 好。Zep 在合规性上做得比 MemPalace 好。Supermemory 的 agentic 搜索在某些场景下比 MemPalace 更灵活。每个系统在自己的设计约束下都做出了合理的工程选择。

不宣称 100% 是无条件的。 100% 有上下文。98.4% 的 held-out 分数是更诚实的数字。96.6% 的无 API 基线是最保守的声明。三个数字都是真的，但它们回答不同的问题。

不宣称免费等于零成本。 MemPalace 的软件是免费的，但运行它需要你自己的机器、自己的时间、自己的运维能力。对于有 IT 团队的企业，$25/月的 Zep 可能比"免费但自己管"的 MemPalace 实际成本更低。

验证一个系统的最诚实方式，不是只展示你赢的地方，而是同时展示你输的地方，并解释为什么。这一章试图做到这一点。下一部分将从验证转向未来——MemPalace 的路线图、已知的待解决问题、以及这个项目的开放方向。

Keyboard shortcuts

MemPalace：AI 记忆的第一性原理