中国餐饮消费需求大数据研究方法大的
民生舆情 2021-09-14 08:46 字号: 大 中 小
2015中国餐饮消费需求大数据研究方法-大众点评提供
一手“打印”创业创新的社会氛围 一、取和分析 本次研究的方法论是智能语义分析处理方法,简单来说,就是通过信息分类、聚类和情感判断来实现对语义的分析。 具体分析方法:爬虫技术-信息归类算法-情感判断算法 1、爬虫技术: 由于我们需要快速地把大众点评上聚集着的大量评论抓取下来,因此,会采用络爬虫技术来实现快速抓取。络爬虫技术是一个自动下载页的程序,它根据既定的抓取目标,有选择的访问页与相关的链接,获取所需要的信息。 2、信息归类算法: 对于所抓取的信息,我们需要对其进一步梳理:因为原始评论一般都比较长且复杂,需要根据语义,对原始评论语句进行分类整理。信息归类算法是通过确定好的分析结构框架,对原始评论进行切分,再对切分好的语义单元进行归类。 3、情感判断算法: 对归类好的语句,我们还需要了解到其语义是正或负面,也因此,需要使用情感判断算法对具体语义单元进行判别。 情感判断(正面负面意见划分):是NRP学科里的一个领域。情感判断目的是判断一篇文章或一段话是正面或负面,此算法以统计学为主,结合数学、计算机、语言学和人工智能等领域的知识,通过对足够量(一般在几千万条)语句的学习,建立一个情感判断机制。 建立判断机制后,只要输入新特征(新的句子),此机制即可进行自行判断,把此句子进行切分,切分成为几个语句单元,与之前学习好的样本进行匹配:此机制会将语句单元变成一千万维的向量,与之前学习过的语句特征向量进行匹配。然后输出针对此句子匹配后的正负概率值,通过这个值的判断,就可以分出正面评价和负面评价。 备注: 1. 本次研究所抓取的数据源皆是从大众点评平台公开呈现的消费者原始评论,对于点评根据内部算法所得出的结构化数据(如口味、服务、环境)的评分未抓取。 2. 本次研究所有的技术处理方式和分析模型的解释权均为零点餐e通所有
合肥哪医院治疗男科好西安男科医院哪家好
可以快速缓解肩颈痛的健身操
-
-
借助现阶段利好政策万宁将打造高端滨海度假
借助现阶段利好政策 万宁将打造高端滨海度假旅游基地借助现...
2020-08-13 | 民生舆情
-
-
埃梅里厄齐尔除了助攻还得进球欧联杯我要轮
埃梅里:厄齐尔除了助攻还得进球 欧联杯我要轮换埃梅里赛后...
2020-07-04 | 民生舆情
-
-
詹皇抠门那是詹韦秀恩爱NBA最抠门其实是搭配
詹皇抠门?那是詹韦秀恩爱 NBA最抠门其实是他邦纳 北...
2020-06-02 | 民生舆情
-
-
取关门主角松口表态想续约难道他真的长大了搭配
取关门主角松口表态想续约!难道他真的长大了考神最终会续...
2020-05-31 | 民生舆情
-
-
张世敏到我区调研社区建设
张世敏到我区调研社区建设8月30日,副市长张世敏到我区调研...
2019-07-16 | 民生舆情
-
-
港口区假日旅游市场繁荣
港口区假日旅游市场繁荣4月29日至5月1日,港口区天气晴好,...
2019-07-16 | 民生舆情