可视化分析平台基于Airbnb开源的Superset定制。而Superset是轻量级的Business Intelligence平台,界面简洁,操作直观。用户可以自行创建可视化图表,在平台上进行不同复杂度的可视化分析。这里将以口碑分析的业务使用场景为主线进行介绍,兼顾界面操作指南。
定制版Superset应用指南系列文档:使用Superset
认识Superset主界面
登陆可视化分析平台后,我们来到【欢迎】页面,这里包括前往各项功能的导航和列表,其中的看板是日常分析最常用的功能。
各部分UI功能的说明:
- 站点LOGO:如在其他页面,点击可以返回欢迎页面
- 功能菜单:点击菜单可以到达功能页面,如看板列表、图表列表
- 设置菜单:包括用户信息,界面语言选择等系统功能
- 最近区:最近查看、编辑、新建的可视化图表、看板,便于继续之前开始的分析
- 看板区:收藏和自己创建的看板列表,点击【VIEW ALL】还可以查看到其他用户发布(Publish)的看板。看板是Superset可视化的核心功能。
- 继续向下滚动页面可以继续看到查询区和图表区,交互方式和看板区相似
Superset的交互相对比较符合直觉,进入后用户可以自行尝试和探索。接下来不再详细进行界面操作的介绍,让我们聚集应用场景。
业务场景 - 特征评分
特征评分指标树拥有数百个指标,分 T0 -> T3 共4个层级,涵盖从安全到智能网联系统方方面面的评价。可以进行比较车型间、车型版本间的相对优劣势,观察产品评价演变、发现产品改进建议等业务分析。
特征评分指标和评分的基础数据来源:抓取汽车口碑数据后,应用深度学习技术开发的模型能够判定一个口碑段落涉及了哪些我们关心的指标,以及车主对这些指标的评价是正面、负面还是中性的。由于指标众多模型难以避免会给出一些错误分析,研究员需根据经验结合其他数据对分析结果进行解读。
例如,“屏幕分辨率也好,而且导航实时在线,实时更新,流量免费。“这段话就提到了四个我们关心的指标,而评价是正面的。模型即可以帮助我们得到如下的基础数据:
- 车型A 口碑IDX11 导航地图升级便利性 +1
- 车型A 口碑IDX11 实时路况更新 +1
- 车型A 口碑IDX11 显示屏分辨率 +1
- 车型A 口碑IDX11 车机流量费用 +1
指标和评分的统计方法:
- 每一项指标的评分,从低到高,由 -1 到 +1 重新标度到 1 到 7 分
- T0到T2指标的评分均由其下的T3指标评分按照一定权重计算得来,而权重由指标在口碑段落集(可以理解为句子)出现的频度给出。举例来说“T1_安全”由”T1_安全_一般性“(一般性提到安全,或更低层级指标没有覆盖的情形)、”T2_人员安全预防_一般性“, “对行人的保护程度“计算得出。
- 样本量有“段落数”(n_phrase)和“口碑数”(n_wom)两种口径,指标的计算以段落数为基础
可视化分析平台上已经对核心车型的口碑进行了统计分析,形成了一系列数据集,下面我们来看一下如何在可视化分析平台使用这些分析结果。
场景1 : 比较车型间相对优劣势
T1级别指标即我们日常最常提到的安全、舒适等,一般被视为品牌特征在产品级别上的体现,是产品分析。就像“开宝马坐奔驰”,在T1层级将体现为宝马车型在操控和动力等方面评分更高,而奔驰同级竞品则可能在内饰和舒适等方面评分更高。这里假设我们要比较一下某车型和长安CS75 PLUS两个车型。
STEP 1: 在【看板(Dashboard)】列表中搜索T1,打开看板【分车型分年度T1->T2评分】,即可开始进行不同车型的比较。默认条件比较的的是某车型和长安CS75,我们可以发现两者在各方面比较相近。
STEP 2: 更改筛选器选择,删除长安CS75,选择长安CS75 PLUS。可视化显示长安CS75 PLUS在用户口碑评分中多项得分更高。
STEP 3: 继续更改筛选器选择,聚集T1_操控。看板下方的柱图显示,两个车型在越野性这方面表现差不多,但用户对长安CS75 PLUS的转向和行驶操控性评价更佳。
如果我们希望保存这个看板到自己的账户。可以按照如下步骤进行:
- 在菜单中选择【保存 > 另存为(勾选同时保存图表】平台将复制一份看板
- 如果平台没能成功复制筛选选项,可能会造成看板过大,不能加载成功。请一分钟后刷新页面,继续等待图表加载完成
- 更新筛选器到希望使用的选项
- 在菜单中选择【保存 > 覆盖(不勾选同时保存图表)】
我们发现指标还混有错误分析出来的新能源特性评分,希望一并修订图表,可以按照如下步骤进行:
- 点击图表菜单查看图表,在图表编辑页面中删除新能源特性指标
- 保存并跳转到看板,即可看到看板已经更新到希望的状态
点击看板菜单下载到图片,可以下载整个看板为图片文件
点击图表菜单我们还可以下载csv文件,csv文件可被Excel打开(定制后的Superset已经修正了中文乱码问题)。
界面中的 … 省略号菜单图标,图表筛选图标均提供了一些便利功能,用户可通过自行尝试点击操作来了解。
场景2 : 寻找特征评分相关的口碑素材
在研究中,我们经常会需要从口碑找到一些和研究主题相关的用户评价文本。假设我们正在研究某款车型的内饰感官品质,哪用户说感官品质都在说什么内容呢?
STEP 1: 了解用户主要都在评价哪些方面。用关键词“评分词云图”搜索看板,并筛选关注的车型和评分指标。可以发现该车型在T2_内饰感官品质下正面提及率最高的是座椅面料材质。
需要注意的是:
- 词云图中的词汇是指标名称而不是用户实际使用的词汇,但更便于理解用户在说什么
- 词云图指标的大小由指标提及率决定,正向指提及率计算均使用评价正面的样本
- 点击下载CSV可获取提及率
STEP 2: 定位相关样本。用关键词“示例样本“搜索看板,可结合以上信息筛选出想要的样本,并利用CSV下载功能保存结果。