欢迎访问:亚马逊Kindle电子书的数据化商业分析_科技生活_生活服务_自居生活网
  • 微信客服微信客服
  • 微信公众号微信公众号

亚马逊Kindle电子书的数据化商业分析

收藏  分享
网友发布网友发布

亚马逊Kindle电子书的数据化商业分析

Amazon是全球范围内最大的跨境电商平台,在该平台上发售的书籍有三种类型:平装本、精装本和Kindle电子书。近些年来,Kindle电子书逐渐成为Amazon最畅销的书籍类型。相关资料显示,2010年7月起,Amazon的电子书销量已经超过了精装书;2011年11月,Amazon电子书的销量超过了平装本。也许是因为Kindle作为书籍的载体非常便于人们进行阅读且相比于实体书籍电子书更加经济便携,越来越多的人选择购买电子书。

而在Amazon平台上,小说是所有书籍的重要组成部分(包含平装本、精装本和Kindle电子书,还有有声读物Audiobook),根据相关统计,印刷版书籍中小说占据了28%,而在电子书内则占据了69%,因此我们选择Amazon平台上的书籍的小说类别作为此次的商业分析对象。

为了使数据具有普遍性、参考性与代表性,我们参考了在2009年至2013年美国拥有平板等电子阅读器的成年人所占比例,发现在2013年以后,在美国已经有超过1/3的成年人拥有平板类电子阅读器,形成了一个规模庞大的用户群体,因此我们选择了2017年1月至2018年7月Amazon平台上小说的购买数据(包括平装本、精装本和Kindle电子书)。

试图探寻哪些变量会影响小说电子书的销售,在此过程中我们会对回归结果的自序列相关性和异方差性进行检测,通过改进计算方法提升回归有效性。

在这里以Stephen King的《Firestarter: A Novel》为例:

https://www.amazon.com/gp/product/B018ER7KK8?storeType=ebooks&pf_rd_p=166a5bf6-19bb-4a9c-a928-24da9d375df0&pf_rd_r=7EG3CCPK1PWV026JG8AN&pd_rd_wg=OAOZP&pd_rd_i=B018ER7KK8&ref_=dbs_f_def_rwt_wigo_cp_recs_wigo_1&pd_rd_w=mdfYa&pd_rd_r=ed5164fd-47c9-42f3-a821-a0d365a8edd6

ASIN:B018ER7KK8 代表书籍的编号

Publication date:January 1, 2016 出版日期就是发售日期

Best Sellers Rank:#30,431 in Kindle Store,在这里为了方便分析我们选择在书籍的大类内的总体排名

Customer Reviews:4.7 客户综合评价

在分析过程中我们还需要历史的排名数据,而在网页中只会显示当前排名,所以我们借助Amazon第三方插件Helium 10来获取历史所有数据,安装运行Helium 10以后该页面会显示该书籍在指定时间范围内的价格和排名波动,然后再利用爬虫或第三方采集器进行数据爬取。

我们首先以一年为分割线,分别看一下平装本书籍与其Kindle电子书的上架时间差异,以此来判断Amazon书籍发售是否存在策略。

在平装本书籍发售后一年以内发售电子书的书籍很多是在前120天就将电子书上架,120天以后随着时间的推移发售电子书的频率越来越小。

1025天以前,随着平装本发售时间越长,电子书发售数量减少,看上去比较符合我们的认知。可是,在1025天(大约3年)以后,大量Kindle电子书在5个月内集中发售,这显著说明Amazon在发售电子书时是存在策略的,个人分析有以下两种原因:①亚马逊通过数据分析与数据挖掘发现:在发现发售平装本3年以后发售电子书,可以有效增加整体销量;②有些书籍3年版权到期了才可以发售电子书(可能性不大)。

目前已知Amazon共有6种书籍发售顺序,分别为:

H-K-P,H-P-K,K-H-P,K-P-H,P-H-K,P-K-H(H:Hardcover,K:Kindle,P:Paperback),这里我们选择K-H-P的发售方案举例,其余方案操作方法完全一致。

自序列相关性:总体回归模型的随机误差项之间存在相关关系。

使用差分法后的数学模型1:???????=?_1 ????????+?_2 ?(????????????)+?_3 ?????????+?_4 ??????????+?_5 ????_????+?

使用差分法后的数学模型2:???????=?_1 ????????+?_2 ?????+?_3 ??????+?_4 ?????????+?_5 ??????????+?

将上表内容从左到右、由上至下编号为[[1,2,3],[4,5,6]]

将上表内容从左到右、由上至下编号为[[1,2,3],[4,5,6]]

如果我们抓取Amazon平台上的一类商品,并抓取前19000个链接的平均评分,并进行累计平均数的计算便可以得出上表。

商品链接越往后靠,越有可能刚上架,没有评论被当作0分,会拉低整体平均评分。

那么奇怪的是为什么前面的平均评分会有急剧的上升和下降呢?

我们抓取这类商品,并抓取前500个链接的平均评分,并做了累计平均评分的可视化。

折现出现急剧的上升和下降是因为在Amazon搜索前列的商品有很多是通过运营者的大量刷单和虚假评论刷上去的,但从长期来看,平台会根据该商品的综合表现给到一个搜索排序。

这就是Review和Rank关系不确定的原因。

标签: 书籍 书的 分析

上一篇:森海塞尔

下一篇:sony

 
更多>最新的资讯
推荐图文
推荐生活服务
点击排行