| 11 | 0 | 111 |
| 下载次数 | 被引频次 | 阅读次数 |
用户画像特征的提取主要是对特征词汇进行识别。由于特征词汇存在多重语义情况,容易出现特征提取结果偏差,导致用户画像特征提取结果的查准率不高。因此,提出一种基于自回归预训练语言模型的用户画像特征提取方法。选取基本特征,计算用户画像的显式特征,并进行聚类占比分析。根据关系矩阵挖掘隐式特征,完善用户画像特征。构建预训练语言模型,生成关键词预训练任务,添加自回归训练进行关键词的放缩训练,完成多重语义分类识别训练。标准化处理特征关键词,可视化处理提取结果,即可完成用户画像特征的提取。通过实验对4895名用户进行不同类型特征关键词的提取,提取结果的查准率显著提高,最高值达到0.88,平均值达到0.83,验证了所提出的方法的查准率符合实践要求。
Abstract:The user profile feature extraction mainly involves the recognition of feature words. Due to the multiple semantic situations of feature words, it is easy to encounter the problem of feature extraction result deviation, resulting in a low accuracy rate of user profile feature extraction results. Therefore, a user profile feature extraction method based on autoregressive pre-trained language model is proposed. Basic feature is selected, explicit feature of user profile is calculated, and clustering proportion analysis is performed. Implicit feature based on the relationship matrix is mined to improve user profile feature. A pre-trained language model is built, keyword pre-training tasks are generated, autoregressive training for keyword scaling training is added, and multiple semantic classification recognition training is completed. By standardizing the processing of feature keywords and visualizing the extraction results, the extraction of user profile feature can be completed. Through experiments, different types of feature keywords are extracted from 4895 users. The accuracy rate of the extraction results is significantly improved, with a maximum value of 0.88 and an average value of 0.83. This verifies that the accuracy rate of the proposed method meets the practical requirements.
[1] 刘振华,苏立伟,苏华权.自然语言处理技术下电网敏感客户画像多特征提取方法[J].电网与清洁能源,2021,37(6):60-67.
[2] 汪林,蒙祖强,杨丽娜.基于多级多尺度特征提取的CNN-BiLSTM模型的中文情感分析[J].计算机科学,2023,50(5):248-254.
[3] 徐翰文,张闯,陈苏婷.基于视觉显著性的图像特征提取算法[J].计算机应用,2022,42(S2):72-78.
[4] 苗宇,金醒男,杜永萍.基于Multi-Aspect的融合网络用户画像生成方法[J].计算机技术与发展,2022,32(8):20-25.
[5] 王红斌,王勇,罗林欢,等.基于数据特征提取与自适应k-means聚类算法的用户用电画像[J].电工技术,2021(17):31-33.
[6] 洪于亮,许宁,秦焕美,等.基于用户画像的大型冬季户外活动客流需求特征挖掘:以哈尔滨和长春国际滑冰雪马拉松为例[J].科学技术与工程,2023,23(10):4400-4407.
[7] 杨阳,余维杰.融合弹幕内容特征与行为特征的用户画像研究:以B站教学类视频为例[J].情报科学,2022,40(12):161-169.
[8] 王帅,纪雪梅.基于在线健康社区用户画像的情感表达特征研究[J].情报理论与实践,2022,45(6):179-187.
[9] 曾炜,苏腾,王晖,等.鹏程·盘古:大规模自回归中文预训练语言模型及应用[J].中兴通讯技术,2022,28(2):33-43.
[10] 岳增营,叶霞,刘睿珩.基于语言模型的预训练技术研究综述[J].中文信息学报,2021,35(9):15-29.
[11] 潘列,曾诚,张海丰,等.结合广义自回归预训练语言模型与循环卷积神经网络的文本情感分析方法[J].计算机应用,2022,42(4):1108-1115.
[12] 李荣.基于预训练语言模型和双向门控循环单元的文本情感分析[J].数字技术与应用,2023,41(3):52-54.
[13] 卢美情,申妍燕.一种基于孪生网络预训练语言模型的文本匹配方法研究[J].集成技术,2023,12(2):53-63.
[14] 张潇霄,王煊,王磊,等.基于预训练语言模型的管制信息抽取方法[J].指挥控制与仿真,2023,45(2):107-111.
[15] 乔露.基于序列到序列预训练语言模型的楹联自动生成算法[J].微型电脑应用,2022,38(12):42-44.
基本信息:
中图分类号:TP391.1
引用信息:
[1]韦国惠,王缉芬,王圣竹,等.基于自回归预训练语言模型的用户画像特征提取[J].微型电脑应用,2026,42(03):293-297.
2026-03-20
2026-03-20