Dify+Notion本地化打造专属知识库

devtools/2025/3/27 12:53:39/

创建知识库并上传文档大致分为以下步骤:

通过上传本地文件、导入在线数据或创建一个空的知识库。

1 导入文本数据

轻点 Dify 平台顶部导航中 “知识库” → “创建知识库”

可上传本地文件、导入在线数据两种方式上传文档至知识库内。

1.1 上传本地文件

拖拽或选中文件进行上传,支持批量上传,同时上传的文件数量限制取决于订阅计划:

本地上传文档文件的限制:

  • 单文档上传大小限制≤ 15MB
  • 不同 SaaS 版订阅计划限定批量上传个数、文档上传总数、向量存储空间

1.2 导入在线数据

支持导入以下两种在线数据:

1.2.1 从 Notion 导入数据

Dify知识库支持从 Notion 导入,并支持后续的数据自动同步。点击“去绑定”:

① 授权验证
  • 点击 同步自 Notion 内容-- 去绑定,根据提示完成授权验证。
  • 也可:进入 设置 – 数据来源 – 添加数据源 中点击 Notion 来源 绑定 ,完成授权验证

完成 internal 类型集成后,点击“绑定”即可:

② 导入 Notion 数据

需要将想要同步的文章关联到对应的 Integrations 中

  • 在对应的工作空间下,打开一篇想要同步的文章
  • 点击右上角的菜单项,选择「Connects」,在里面选择刚刚我们创建的 Integrations「Dify DataSource」

确认:

同步:

回到创建知识库的页面,点击同步自 Notion 内容,选择需要的授权页面进行导入:

③ 分段和清洗

选择知识库的分段设置索引方式保存并处理。等 Dify 自动处理数据。Dify:

  • 不仅可导入 Notion 的普通类型页面
  • 也支持导入并汇总保存 database 类型下的页面属性

暂不支持导入图片和文件,表格类数据会被转换为文本展示。

预览 Notion 页的分段结果

④ 同步 Notion 数据

如你的 Notion 内容有更新,可以在知识库的 文档列表页中点击对应内容页的 同步 按钮进行数据同步。同步文档涉及嵌入过程,因此将消耗嵌入模型的 Tokens。

同步 Notion 内容

⑤ 社区版Notion internal集成配置

Notion分:

  • 内部集成(internal integration)
  • 外部集成(public integration)

两种方式,两种集成方式区别Notion 官方文档。先创建集成。默认,所有集成都以内部集成开始;内部集成将与你选择的工作区相关联,因此你需要是工作区所有者才能创建集成。

类型默认内部Internal,选择关联的空间,输入集成名称并上传 logo 后,点击“保存”,集成创建成功:

点击“配置集成设置”:

创建集成后,按需在 Capabilities 选项卡下更新其设置,并在 Secrets 下点击 “Show” 按钮然后复制 Secrets:

复制后回到 Dify 源代码下,在 .env 文件里配置相关环境变量:

NOTION_INTEGRATION_TYPE = internal or NOTION_INTEGRATION_TYPE = public
NOTION_INTERNAL_SECRET=you-internal-secret

修改好后,执行以下命令并重启容器:

docker-compose down
docker-compose up -d

再次访问知识库并选中「同步自 Notion 内容」时就可以看到咱们已经集成成功。

本文已收录在Github,关注我,紧跟本系列专栏文章,咱们下篇再续!

  • 🚀 魔都架构师 | 全网30W+技术追随者
  • 🔧 大厂分布式系统/数据中台实战专家
  • 🏆 主导交易系统亿级流量调优 & 车联网平台架构
  • 🧠 AIGC应用开发先行者 | 区块链落地实践者
  • 🌍 以技术驱动创新,我们的征途是改变世界!
  • 👉 实战干货:编程严选网

本文由博客一文多发平台 OpenWrite 发布!


http://www.ppmy.cn/devtools/159846.html

相关文章

CPP集群聊天服务器开发实践(七):Github上传项目

github链接:GitHub - arduino-ctrl/ClusterServer: 基于jsonmuduomysqlnginxredis的集群服务器与客户端通信源码 步骤如下: 1. github新建代码仓库,复制url 2. git clone https://github.com/arduino-ctrl/ClusterServer.git 3. 将项目文件…

4090单卡挑战DeepSeek r1 671b:尝试量化后的心得的分享

引言: 最近,DeepSeek-R1在完全开源的背景下,与OpenAI的O1推理模型展开了激烈竞争,引发了广泛关注。为了让更多本地用户能够运行DeepSeek,我们成功将R1 671B参数模型从720GB压缩至131GB,减少了80%&#xff…

PyCharm结合DeepSeek-R1

PyCharm结合DeepSeek-R1,打造专属 AI 编程助手 在程序员的日常工作中,提高编程效率、快速解决代码问题是重中之重。今天给大家分享一个强强联合的组合 ——PyCharm 插件 Continue 与 DeepSeek-R1,它们能帮你打造出强大的个人 AI 编程助手。 …

小鹏自动驾驶 xnet 技术细节

小鹏汽车的XNet技术是其自动驾驶系统XPILOT的核心感知架构之一,主要应用于XPILOT 4.0及更高版本。XNet的设计目标是实现更高效的多传感器融合、动态环境建模以及实时决策能力。以下是XNet技术的关键细节和特点: 1. 多传感器融合与数据统一 多模态输入&am…

面试题之Vuex,sessionStorage,localStorage的区别

Vuex、localStorage 和 sessionStorage 都是用于存储数据的技术,但它们在存储范围、存储方式、应用场景等方面存在显著区别。以下是它们的详细对比: 1. 存储范围 Vuex: 是 Vue.js 的状态管理库,用于存储全局状态。 数据存储在内…

FFmpeg源码:av_strlcpy函数分析

一、引言 在C/C编程中经常会用到strcpy这个字符串复制函数。strcpy是C/C中的一个标准函数,可以把含有\0结束符的字符串复制到另一个地址空间。但是strcpy不会检查目标数组dst的大小是否足以容纳源字符串src,如果目标数组太小,将会导致缓冲区…

基于Spring Boot+Vue的宠物服务管理系统(源码+文档)

项目简介 宠物服务管理系统实现了以下功能: 基于Spring BootVue的宠物服务管理系统的主要使用者分为用户管理模块,由于系统运行在互联网络中,一些游客或者病毒恶意进行注册,产生大量的垃圾用户信息,管理员可以对这些…

【Python pro】基础语法元素

第一部分 数据类型 1.基本类型 数字、字符串、布尔 1.1 数字 int 整型 6float 浮点型 6.0complex 复数 34j1.2 字符串 str 字符串 1.组成:数字、字母、空格、其他字符等 2.表达:" "或者’ ’ "python 123 #$"1.3 布尔 bool 布…