拓端tecdat|R语言平滑算法LOESS局部加权回归、三次样条、变化点检测拟合电视节目《白宫风云》在线收视率

技术拓端tecdat|R语言平滑算法LOESS局部加权回归、三次样条、变化点检测拟合电视节目《白宫风云》在线收视率 拓端tecdat|R语言平滑算法LOESS局部加权回归、三次样条、变化点检测拟合电视节

End tecdat|R语言平滑算法黄土局部加权回归、三次样条、变点检测拟合电视节目《白宫风云》在线收视率。

原文链接:http://tecdat.cn/p=24067

原文出处:拓端数据部落公众号

这个例子是基于电视节目的在线收视率。我们将从获取数据开始。

#加载包。

packages – c(‘gplot2 ‘,’ MASS ‘,’ reshpe ‘,’ sp lens ‘,

XML’)

分析系列是阿伦索尔金的《白宫风云》。

if(!fle . EIS(fie))

#解析HTML内容。

html – htmlPrse(lissi=17ectn=a ‘)

#按id选择表格。

tml – pahppl(html,//tal[@d=’Tle’]'[1]

#转换为数据集。

da – reHTML(hml)

#第一条数据线。

主管(da)

#保存本地副本。

write.csv(ata[,-3],fle)

#读取本地副本。

daa – red.sv(fie)

#检查结果。

字符串(dat)

Mean是每集的平均得分,所以我们有一个参数,Count是每集的票数,所以我们有一个样本量。使用标准误差方程,我们将计算每个分数的“误差幅度”。请注意,有几集收视率很高,所以收视率分布不正常。

#计算季节。

daa$saon – 1 (daX – 1)%/”

#特殊情况。

$ sasn[其中(dta$sesn 7)] – c(7,NA)

#因子变量

daa$saon – fator(aa$sesn)

我们对数据采取的最后一步是添加季节编号,这样我们以后就可以在绘图上区分它们。除了两个特例(上一季有23集,一个节目是电影特辑),《白宫风云》每一季都有22集。我们用余数除以22来计算季节,修复特殊情况,并将变量分解为绘图用途。

#计算季节。

asaon – 1 (aX – 1)%/”

#特殊情况。

dts ASON[wich(dts ASN 7)]-c(7,A)

#因子变量

dtseson – fctor(dasasn)

最后,使用95%和99%的置信区间来可视化不确定性。

qlot(dta=dat,x=X,y=mu,clr=sasn,gem=’pont ‘)

genge(es(yin=u – 1.96*se,ymx=u 1.96*se),alpa=.5)

golie(as(yin=-2.58 * se,yax=2.58 * e),apa=.5)

这个数字对于每一季的平均收视率会更有用,这可以很容易地通过ddply()函数检索到。最小集和最大集也是计算出来的,这样就可以画出每个季节的水平线段。由于我们将上一个图形保存为ggplot2对象,添加线条只需要对附加图形元素进行编码并将其添加到保存的元素中。

#计算季度平均值。

men – dply(daa,(easn),summrs,

ma=平均值),

xmi=in(X,

xmx=ma(X)

#将平均值添加到绘图中。

g go_eme(daa=eas,

as(xmin,max,=mean,en=man))

变化点检测算法

如果您的目标是找到系列中的突然变化,请使用变化点检测算法。

  1. # PELT算法计算变化点。
  2. p – tmean(atamu, ‘PELT’)
  3. # 提取结果。
  4. xmin – c(0, max[-legh(xmax)])
  5. # 绘图。
  6. gem_segnt(dat = eg)

平滑算法:LOESS(局部加权回归)和三次样条

现在让我们平滑这个系列。基本图都将使用相同的数据,我们将在其上叠加一条通过不同方法计算的趋势线。

  1. # 绘图
  2. plot(data
  3. x = X,
  4. y = mu,
  5. alpa = I0.5),
  6. gom = line”)

平滑数据的最简单方法是使用局部多项式,我们将其应用于每个季节的分数,然后应用于它们的去趋势值。更复杂的平滑方法使用splines。它仅用于最后一个图中。

  1. # 每一季的LOESS平滑
  2. LOESS(se = FALSE) +
  3. goln(y = tmu,neyp= dhe”+
  4. as(colo = sason)
  1. # 对去趋势的数值进行LOESS平滑处理
  2. smooth(se = FALSE) +
  3. eoin(es =memu)), itype = “) +
  1. # 立方样条
  2. g +
  3. smooth( “m”, ns(x, 8)

三次样条提供的信息与我们从变化点检测中了解到的情况几乎相同:该系列有三个时期,是由于观众收视率的一次下降。

  1. # 三次样条和变化点
  2. gmoth(method = ~ ns(x, 8))

最受欢迎的见解

1.R语言多元Logistic逻辑回归 应用案例

2.面板平滑转移回归(PSTR)分析案例实现

3.matlab中的偏最小二乘回归(PLSR)和主成分回归(PCR)

4.R语言泊松Poisson回归模型分析案例

5.R语言混合效应逻辑回归Logistic模型分析肺癌

6.r语言中对LASSO回归,Ridge岭回归和Elastic Net模型实现

7.R语言逻辑回归、Naive Bayes贝叶斯、决策树、随机森林算法预测心脏病

8.python用线性回归预测股票价格

9.R语言用逻辑回归、决策树和随机森林对信贷数据集进行分类预测

▍关注我们
【大数据部落】第三方数据服务提供商,提供全面的统计分析与数据挖掘咨询服务,为客户定制个性化的数据解决方案与行业报告等。
▍咨询链接:http://y0.cn/teradat
▍联系邮箱:3025393450@qq.com

内容来源网络,如有侵权,联系删除,本文地址:https://www.230890.com/zhan/52947.html

(0)

相关推荐

  • 乐观锁和悲观锁

    技术乐观锁和悲观锁 乐观锁和悲观锁悲观锁:具有强烈的独占和排他特性。它指的是对数据被外界(包括本系统当前的其他事务,以及来自外部系统的事务处理)修改持保守态度。因此,在整个数据处理过程中,将数据处于锁定

    礼包 2021年12月15日
  • loudy,alound lound 的区别

    技术loudy,alound lound 的区别alound 、lound 为错误单词loudy,正确应为loud 、aloud ,二者区别如下: 一、表达意思不同
    1、loud:adj. 大声来的,高声的;源不断的;

    生活 2021年10月24日
  • 基于scopedsession实现线程安全

    技术基于scopedsession实现线程安全 基于scoped_session实现线程安全一、基于scoped_session实现线程安全
    from sqlalchemy.orm import ses

    礼包 2021年11月7日
  • 如何理解Python库

    技术如何理解Python库这篇文章主要讲解了“如何理解Python库”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“如何理解Python库”吧!1. Typer你可能并不怎

    攻略 2021年10月20日
  • vue如何获取dom元素

    技术vue如何获取dom元素这篇文章将为大家详细讲解有关vue如何获取dom元素,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。 vue获取dom元素的方法:

    攻略 2021年10月27日
  • docker中Dockerfile如何自定义mycentos

    技术docker中Dockerfile如何自定义mycentos这篇文章主要为大家展示了“docker中Dockerfile如何自定义mycentos”,内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大

    攻略 2021年11月15日