如何高效加载和查询数千个文档到向量存储中？

MJ提示词大全2年前 (2023)发布残剑@葫芦娃AI

4.8K 0 0

如何高效加载和查询数千个文档到向量存储中？

一、背景介绍

在网络上，我找不到一个好的实例来说明如何加载数千个相似文档到向量存储中并进行查询。虽然有很多人上传了少量文档的示例，但却没有涉及到数千个文档的情况。我计划使用PostgreSQL上的pgvectors作为我的主要向量存储，主要是因为它的灵活性和我对它的熟悉程度。如果有其他更高效的应用程序（例如weaviate、chromadb、in-memory等），我可以考虑将集合从PostgreSQL复制过来。

二、入职准备

在开始大规模向量化数千个文档之前，有哪些事情我需要注意呢？是否需要元数据？向量数据库的结构是否需要考虑？

三、查询问题

假设我有谷歌过去10年的10-Q和10-K表格（即50个文档），如果我提出一个宽泛的问题，比如“谷歌的净利润是多少？”，系统将返回前k个结果，然后将其输入到GPT中。但是，我期望对于这个问题会有50+个答案。那么，我该如何让系统提示查询过于宽泛，要求我指定一个时间段？或者让系统自动理解查询过于宽泛，并返回最新的净利润数据，例如：“谷歌报告的截至2023年第一季度的最新净利润为x%（$ym）”。显然，这就是元数据的用处，我需要将“公司名称”、“季度”和“年份”等关键信息存储为元数据项。