基于语义距离的专利相似性检索方法

  • 打印
  • 收藏
收藏成功


打开文本图片集

摘 要:随着知识产权申请需求不断攀升,传统专利审查方法在海量文本处理与精确语义匹配方面面临着挑战。现有的基于深度学习的专利相似性检索方法存在信息量多、复杂语义匹配不精确的问题。构建了大规模专利数据集,提出了一种基于混合编码架构的专利相似性分析模型。首先,模型通过交叉编码器生成高置信度的伪标签,弥补了专利标注句子对数据的不足;其次,采用双编码器架构对文本进行并行化独立编码,并生成语义向量,以实现高效检索;最后,将伪标签与人工标注数据相结合进行协同训练,有效提升了模型对专利中复杂技术描述的适应性。(剩余110字)

monitor
客服机器人