nav emailalert searchbtn searchbox tablepage yinyongbenwen piczone journalimg journalInfo journalinfonormal searchdiv searchzone qikanlogo popupnotification paper paperNew
2021, 06, v.37 174-177
基于机器学习的UGC数据分析模型及应用实践
基金项目(Foundation):
邮箱(Email):
DOI:
发布时间: 2021-06-20
出版时间: 2021-06-20
移动端阅读
摘要:

基于UGC的在线评论是一种用户在虚拟电商平台上浏览商品后产生的行为数据。对这些评论数据进行文本情感分析,不仅给消费者提供参考,还可以帮助商家改进服务质量。通过爬取携程网的民宿房源数据及评论,通过Word2vec主题聚类分出主题中心词并确定主题属性字典,结合朴素贝叶斯分类算法进行情感分析,分析了由于实际场景中产品评分与真实评价不一致而导致产生了用户评分虚高的问题,并通过数据可视化方法展示了其因果关系。

Abstract:

Online comments based on UGC are the behavioral data that are generated by users browsing products on the virtual e-commerce platforms. Performing text sentiment analysis on these comments data not only provides useful references for consumers, but also helps business owners to improve their service quality. In this paper, by crawling Ctrip's Homestay listing data and comments, we use Word2 vec theme clustering to separate the theme central words and determine the theme attribute dictionary, combine with the naive Bayesian classification algorithm for sentiment analysis, analysis of product ratings and user actual comments in real scenes. The inconsistency of real evaluations has led to the problem of falsely high user ratings, and the causal relationship has been demonstrated through the data visualization methods.

参考文献

[1] Rayna T,Striukova L.Involving Consumers:The Role of Digital Technologies in Promoting ‘prosumption’ and user innovation[J].Journal of the Knowledge Economy,2021,12(1):218-237.

[2] Cho J.Crawling the web:Discovery and Maintenance of Large-scale Web Data[D].LA:Stanford University,2001.

[3] Thomas,J S.Methods of Social Research[M].Orlando:Harcourt College Publishers,.2001 :296-297.

[4] 李晴.Robots协议与互联网竞争规治[D].北京:清华大学,2015.

[5] 郭锋锋.基于python的网络爬虫研究[J].佳木斯大学学报(自然科学版),2020,38(2):62-65.

[6] 李子森.基于电信DPI数据的电商用户行为分析[D].北京:北京邮电大学,2017.

[7] Poursepanj H,Weissbock J,Inkpen D,et al.System description for Sem Eval 2013 Task 2 Sentiment Analysis in Twitter[J].Atlanta,Georgia,USA,2013:380-383.

[8] 李晓鹏.文本表示算法的研究与应用[D].北京:北京邮电大学,2016.

[9] 汪静,罗浪,王德强.基于word2Vec的中文短文本分类问题研究[J].计算机系统应用,2018,27(5):209-215.

[10] 唐明,朱磊,邹显春.基于 Word2vec 的一种文档向量表示[J].计算机科学,2016,43(6):214-217.

[11] Mikolov T,Chen K,Corrado G,et al.Efficient Estimation of Word Representations in Vector Space[J].Computer Science,2013:1-12.

[12] 雷朔,刘旭敏,徐维祥,等.基于词向量特征扩展的中文短文本分类研究[J].计算机应用与软件,2018,35(8):269-274.

[13] 朱磊.基于 word2vec词向量的文本分类研究[D].重庆:西南大学,2017:9

[14] 平晓丽.基于MLNs的中文微博情绪分类及其时序变化研究[D].石家庄:河北科技大学,2015:10.

[15] 李艺伟.基于深度学习的要素级情感分析算法研究[D].北京:北京邮电大学,2019.

基本信息:

中图分类号:TP391.1;TP181

引用信息:

[1]王涛,周艺雯.基于机器学习的UGC数据分析模型及应用实践[J].微型电脑应用,2021,37(06):174-177.

发布时间:

2021-06-20

出版时间:

2021-06-20

检 索 高级检索

引用

GB/T 7714-2015 格式引文
MLA格式引文
APA格式引文