数据挖掘的网购点评是真是假?

来源| 36大数据

当你在网上购买商品时,有成千上万的类似商品。哪些因素会影响你购买某个产品?商品评论一定是重要的参考。一般我们会一直看历史销量和用户评论,然后下单。

在近期双11和双12的网购节中,无数网友打着各种电商网站的促销旗号开启了buy buy购买模式。然而,当你在网上购买商品时,有成千上万的类似商品。哪些因素会影响你购买某个产品?商品评论一定是重要的参考。一般我们会一直看历史销量和用户评论,然后下单。

但是,你一定听说过,买不如卖,刷榜刷评论在网上总是很泛滥。可能你看到的评论都是卖家自己刷的。事实上,很多精明的淘宝卖家会在双十一等网购高峰期销售“爆款”,“一票就撤”,这是虚假评论的温床。有时候我们在购买商品的时候,经常会发现很多看似夸张的评论,比如某女士鞋子上的评论:

“超好看的鞋子,随便穿的话会有女神的感觉,站一天都不会累。下次再来买吧,赶紧换个新的!”

“有史以来最满意的鞋,我妈说是真皮的,卖家态度很好。送货超级快,卖家很老实,是一次特别满意的购物!”

几十万的“真情实感”赞就这样刷下来了,我怕很多顾客被洗脑:这款产品销量高,评论好,就买这款吧!结果网上爆款买回家变成了废品。我们买家绝对是信息弱势,不知道卖家给出的描述是真是假,很难阻止人刷好评。那么,我们如何识别单个注释呢?这里介绍一种借助文本挖掘模型破解的方法。

首先解决数据来源的问题,你可以从网站,也就是爬虫,批量下载这些评论。目前有两种方法,一种是编程,可以用python、java等编程语言编写爬虫程序;还有一种就是使用成熟的爬虫软件,可以使用界面操作来抓取。我决定使用免费的gooseeker软件。这个软件是火狐浏览器的一个插件,避免了很多网站难以动态分析的问题。借助浏览器的功能,只要在浏览器中看到的元素都可以方便地下载。软件提供了详细的教程和用户社区,可以指导用户一步一步地设置同类型网页的抓取内容、抓取路线、连续动作和重复抓取,每个人都可以自己学习和使用。

笔者最终抓取了四款同类型鞋的点评数据,包括会员名称、商品描述、购买日期、购买型号、点评日期、点评文字等。,* * *统计了5000多条数据。我们特意挑选了有刷单倾向的产品。可以看到很多评论日期连续,会员名字相似,买家等级低。人眼识别后,刷评论占30%左右。我们打算使用这些数据来建立一个单一评论识别模型,然后我们可以使用这里获得的规则来识别其他鞋类产品的单一评论。

SAS Enterprise Miner 13.2是知名的数据挖掘工具,可以对大规模数据进行分析,并根据分析结果建立精确的预测和描述模型,所以被我们选用,但其他软件也是同样的分析思路。

我们把之前得到的5000条评论分成两部分,70%作为训练样本,30%作为验证样本。首先,使用文本分析来分解训练样本中的评论。拆词时,可以选择忽略缺乏实际意义的代词、感叹号、介词和连词,忽略数字和标点符号。上述分词过程相当于将非结构化数据转化为结构化数据。以前的一段文字现在可以用几列来表示,每一列代表一个单词。如果该单词出现在文本中,则该列的值为1,否则为0。

目前还不能直接建模。从上图中我们可以发现,很多词只出现在少数文章中,我们可以使用文本过滤节点来去除词频低的词。

在文本过滤器中,可以设置最小文档数,指定排除小于文档数的词条,也可以排除出现频率高但意义不大的词,如“就”、“这个”、“是”、“你”。此外,我们还可以处理同义词。我们可以手动添加同义词或将它们导入外部同义词库中。比如“温暖”和“温情”是同义词,“好看”和“漂亮”可以互相替代...

还可以在软件中查看单词之间的链接关系:

接下来,我们可以使用文本规则生成器节点进行建模,并找出哪些短语组合与刷牙直接相关:

我们将训练样本中的真实评论设为0(蓝色),虚假好评设为1(红色)。从上图可以看出,提到“暖”这个词(包括同义词“暖”),评论大概是真的;而那些说“鞋子很时尚”“做工很精细,会再买”而不提是否保暖的,大多是虚假的赞美。

说到这里,你可能会好奇:为什么“温暖”这样一个普通的词会成为评论真假的试金石?

我们不妨回忆一下自己作为一个普通买家的购物经历:收到商品并试用后,我们通常只会简单描述一下自己的使用感受,这是一定的。而水军却从来没有真正收到过货,更别说试穿了。为了完成业务指标,我们不得不根据卖家提供的商品描述,从质量、物流、服务态度甚至搭配等方面强调商品本身的特点。从我们做过的案例来看,“温暖”自然属于个人体验,而“皮质”和“做工”恐怕不是普通买家最想反馈的性质。

那么这种模式的整体效果如何呢?我们可以用累积推广指数来评价:

我们也留下了30%的验证样本,现在他们可以出现来验证结果。请看上图粉色曲线:如果用这个模型给评论打分,会按照疑似虚假评论的概率(“1”)进行排名,当取前5%的评论时,提升3倍;我们知道虚假评论约占总数的30%,也就是说前5%的评论有90%是刷的,证明我们的模型捕捉刷评论相当准确。

最后,我们还得为卖家说句公道话:淘宝恶性竞争严重,根本不刷好评的店铺恐怕不多。也不能说刷评论的店根本就开不起来。90%刷的货真的很震撼,10%刷的店大概质量还可以。这进一步说明了我们模型的作用:判断商品刷单比例比逐个判断评论是否虚假更实际。

现在的网络水军也在不断进化,写出来的评论越来越真诚,越来越误导人。用肉眼分辨既浪费时间又容易混淆。但虚假评论可以推陈出新,我们的模型可以随时跟进“学习”。如果将文中的方法进行扩展,可以形成一个抓取评论-文本分析-建模-判断虚假评论比例的标准流程,无疑是相当实用的。

结束