nav emailalert searchbtn searchbox tablepage yinyongbenwen piczone journalimg journalInfo journalinfonormal searchdiv searchzone qikanlogo popupnotification paper paperNew
2026, 03, v.42 57-60+65
基于分词矩阵和自然语言处理技术的文本模糊匹配查重方法
基金项目(Foundation): 创建国家级新型电力系统人工智能开放创新平台的关键技术研究及应用项目(T0022012453)
邮箱(Email):
DOI:
发布时间: 2026-03-20
出版时间: 2026-03-20
移动端阅读
摘要:

为了提升文本查重水平,提出基于分词矩阵和自然语言处理技术的文本模糊匹配查重方法。所提出的方法利用自然语言处理技术中的N-gram模型对文本进行分词处理后,利用自然语言处理技术中的one-hot模型对文本自然语言进行数字化转换,计算文本词汇权重,得到文本关键词;以文本关键词为基础,构造文本矩阵,利用分词矩阵对文本进行模糊匹配查重。实验结果表明:所提出的方法对文本分词精度较高,分词切词速度较快;可有效提取文本关键词,并有效对文本进行模糊匹配查重,具备较为显著的应用效果。

Abstract:

In order to improve the level of text duplicate checking technology, a text fuzzy matching duplicate checking method based on word segmentation matrix and natural language processing technology is proposed. The proposed method uses the N-gram model of natural language processing technology to segment the text, uses the one-hot model of natural language processing technology to digitally transform the text natural language, and calculates the weight of the text vocabulary to get the text keywords. Based on text keywords, a text matrix is constructed, and the word segmentation matrix is used to perform fuzzy matching duplicate checking for the text. The experimental results show that the proposed method has high accuracy in text segmentation and the segmentation speed is fast. It can effectively extract text keywords and perform fuzzy matching duplicate checking for the text, which has significant application effects.

参考文献

[1] 王其清,李存斌,高昇宇.基于自然语言处理和互信息的电力物联网技术协同创新研究[J].华北电力大学学报(自然科学版),2021,48(3):72-80.

[2] 唐林川,邓思宇,吴彦学,等.基于pHash分块局部探测的海量图像查重算法[J].计算机应用,2019,39(9):2789-2794.

[3] 董星彤,陈士宏,陈淑鑫.自然语言处理文本查重优化算法设计[J].科学技术与工程,2022,22(3):1091-1097.

[4] 郭九霞.基于自然语言处理的空管系统危险源文本分类方法研究[J].安全与环境学报,2022,22(2):819-825.

[5] 谢兆贤,叶淑祯,黄沈权.一种综合性论文查重评估方法[J].计算机应用研究,2019,36(9):2726-2729.

[6] 金福子,刘仕宇.基于犹豫直觉模糊语言信息的多边匹配决策方法[J].数学的实践与认识,2020,50(19):9-18.

[7] 赵京胜,宋梦雪,高祥,等.自然语言处理中的文本表示研究[J].软件学报,2022,33(1):102-128.

[8] 刘振华,苏立伟,苏华权.自然语言处理技术下电网敏感客户画像多特征提取方法[J].电网与清洁能源,2021,37(6):60-67.

[9] 陈玮,卢佳伟.基于特征矩阵优化与数据降维的文本聚类算法[J].数据采集与处理,2021,36(3):587-594.

[10] 黄建一,李建江,王铮,等.基于上下文相似度矩阵的Single-Pass短文本聚类[J].计算机科学,2019,46(4):50-56.

[11] 霍欢,刘亮.一种在矩阵空间中识别文本蕴涵的动态交互网络[J].计算机应用研究,2019,36(10):2965-2970.

[12] 李昆仑,翟利娜,赵佳耀,等.融合信任关系与评论文本的矩阵分解推荐算法[J].小型微型计算机系统,2021,42(2):285-290.

[13] 张笛,孙涛,耿成轩,等.基于TODIM的直觉模糊双边公平满意匹配方法[J].控制与决策,2019,34(6):1338-1344.

[14] 吴曦,俞能海,张卫明.一种基于BloomFilter的改进型加密文本模糊搜索机制研究[J].控制与决策,2019,34(1):97-104.

[15] 王文川,朱全银,孙纪舟,等.基于语义匹配的多标签多层级中文专利分类[J].微电子学与计算机,2022,39(4):91-99.

基本信息:

中图分类号:TP391.1

引用信息:

[1]李强,赵峰,庄莉,等.基于分词矩阵和自然语言处理技术的文本模糊匹配查重方法[J].微型电脑应用,2026,42(03):57-60+65.

基金信息:

创建国家级新型电力系统人工智能开放创新平台的关键技术研究及应用项目(T0022012453)

发布时间:

2026-03-20

出版时间:

2026-03-20

检 索 高级检索

引用

GB/T 7714-2015 格式引文
MLA格式引文
APA格式引文