文章目录:
相关系数r的计算公式是ρXY=Cov(X,Y)/√[D(X)]√[D(Y)]。
公式描述:公式中Cov(X,Y)为X,Y的协方差,D(X)、D(Y)分别为X、Y的方差。
公式。
若Y=a+bX,则有:
令E(X) =μ,D(X) =σ。
则E(Y) = bμ+a,D(Y) = bσ。
E(XY) = E(aX + bX) = aμ+b(σ+μ)。
Cov(X,Y) = E(XY)−E(X)E(Y) = bσ。
缺点
需要指出的是,相关系数有一个明显的缺点,即它接近于1的程度与数据组数n相关,这容易给人一种假象。因为,当n较小时,相关系数的波动较大,对有些样本相关系数的绝对值易接近于1。
当n较大时,相关系数的绝对值容易偏小。特别是当n=2时,相关系数的绝对值总为1。因此在样本容量n较小时,我们仅凭相关系数较大就判定变量x与y之间有密切的线性关系是不妥当的。
1、相关系数和假设校验概述相关系数和假设检验是数理统计中的基本概念和统计工具,对于机器学习模型的设定和优化策略有很大帮助。
1.1 相关系数
相关系数是反映两变量间线性相关性关系的統计指标,是一种反映变量之间相关关系密切程度的统计指标,在现实中一般用于对于两组数据的拟合和相似程度进行定量化分析,第用的般是皮尔逊相关系数( pearson),MLlib中默认的相关系数求法也是皮尔逊相关系数法,另还支持斯皮尔曼等级相关系数( spearman)。皮尔逊相关系的值是一个1≤ρxy≤1的数,用以判定两个变量变化是同向还是反向,以便观察这两个变量是呈现正相关还是负相关,甚至为0时的”相互独立”,其数学公式为:
即两变量的协方差除以其标准差,极大程度上规避了单用协方差无法体现相关性的劣势。
斯皮尔曼等级相关系数的公式如下:
该相关系数没有皮尔逊那么严格。
皮尔逊相关系数代表随着数据量的増加,两组数据的差别将増大,而斯皮尔曼相关系数更注重两组数据的拟合程度,即两组数据随着数据量的増加而増长曲线不变。
1.2 假设校验
假设检验是一种依据一定假设条件计算样本某种并判断是否符合总体规律,或判断两个样本之间是否存在独立性的统计学理论。假设检验的基本思想是小概率反证法思想,小概率思想认为小概率事件在一次实验中基本不可能发生,因此在假设检验中,我们通常先假定一个假设Ho,然后选择它的相反项为螽择假设H1,通常以α=005作为小概率事件的界定线,称之为显著性水平,通过我们的样本数据计算出一个概率值p,如果p≤0.05,那么认为H0是会发生的,也就是说H0的发生是小概率事件,也就是认为当p ≤ 0.05时,否定原假设H0
常用的假设检验法有T检验,z检验,卡方检验和F检验。
卡方检验的一种常用的假设检验方法, Spark MLlib目前支持皮尔逊卡方检测,包括“适配度检定”( Goodness of fit)和“独立性检定"( independence)。其中适配度检定是指样本的发生次数(实际值)分配是否服从母体的次数分配(期望),独立性检定偏向于两类变量之间的关系是否居于相关性。
适配度检定举例:全世界上千万人统计人类出生时男孩和女孩的几率是一样的,某医院对2022年100名新生婴儿的性别做了统计,男孩56个,女孩44个,以此判定这个样本是否符合母体的分配规律。
独立性检定举例:性别和习惯用左右手是否有关。
2、调用方式2.1 相关系数
依据我们输入的类型不同,则其对应的输出类型也不同,如果我们输入的是两个 JavaRDD<double>,则输出的是 double的值,这个值便是相关性系数;如果我们输入的是 RDD<Vector>(需通过 JavaRDD<Vector>.rdd()进行转换),则输出的结果是一个相关系数矩阵。相关系数矩阵是计算各列相关系数而生成的一个矩阵,相关系数矩阵第第列生成的值就是原数据中第列和第列生成的相关系数。API是 Statistics(org. apache. spark. mllib. stat. Statistics)的corr()方法。
生成pearson相关系数:
//输入的seriesX,seriesY是两组JavaRDD<Double>类型的数据,代表两个不同的变量//输出的类型是doubleStatistics.corr(seriesX, seriesY,”pearson”);生成spearman相关系数://输入的seriesX,seriesY是两组JavaRDD<Double>类型的数据,代表两个不同的变量//输出的类型是doubleStatistics.corr(seriesX, seriesY,”spearman”);生成pearson相关系数矩阵和spearman相关系数矩阵://输入的类型为RDD<Vector>Statistics.corr(data,”pearson”);Statistics.corr(data,” spearman”);2.2 假设检验
做适配度检定和独立性检定时,需要输入的参数关型不同,适配度检定要求输入的是 Vector.独立性检定要求输入的是Matrix。调用的API是 Statistics.chiSqTest();
配度检定:这里依旧引用上例,新生婴儿的性别是否符合母体规律,(样本为2022年100名新生妥儿的性别做了统计,男孩56个,女孩44个)
Vector v = Vectors.dense(new double[]{56,44});ChiSqTestResult result = Statistics.chiSqTest(v);独立性检定
原始数据表达:
//这里要注意矩阵是按列优先填充的,故数据要以列的形式写入
Matrix matrix = Matrixs.dense(2,2,new double[]{43.0,9.0,44.0,4.0});Statistics.chiSqTest(matrix);3、 Spark中的实践应用3.1 相关系数的应用
原始文件内容:(文件名为: correlations txt,存放在 src/main/resources),第一列是凝血酶浓度(单位升),第二列是凝血时间(秒),下面探究这两者之间的相性如何?
1.1 14
1.2 13
1.0 15
0.9 15
1.2 13
1.1 14
0.9 16
0.9 15
1.0 14
0.9 16
1.1 15
0.9 16
1.0 15
1.1 14
0.8 17
相关系数代码实现:
Sparkconf conf = new SparkConf().setMaster("local").setAppName("Correlations");JavasparkContext jsc = new JavaSparkContext(conf);JavaRDD<String> lines = jsc.textFile("src/main/resources/correlations.txt");//将源文件读取进来的第一列作为第一个变量JavaRDD<Double> seriesX =lines.map(x ->x split(" ")).map(x->Double.parseDouble(x[0]));//将源文件读取进来的第二列作为第二个变量JavaRDD<Double> seriesY =lines.map(x ->x split(" ")).map(x->Double.parseDouble(x[1]));//调用Statistics包下的corr()即可得到皮尔逊相关系数double corr = Statistics.corr(seriesX,seriesY,"pearson");//结果是-0.907,表名两个变量呈现负相关趋势,即一方增高一方降低System.out.println(corr);//获取斯皮尔相关系数double corr2 = Statistics.corr(seriesX,seriesY,"spearman");//结果是-0.894System.out.println(corr);相关系数矩代码实现:
Sparkconf conf = new SparkConf().setMaster("local").setAppName("Correlations");JavasparkContext jsc = new JavaSparkContext(conf);JavaRDD<String> lines = jsc.textFile("src/main/resources/correlations.txt");JavaRDD<Vector> data =lines.map(x->x split(" ")).map(x ->Vectors. dense(Double. parseDouble(x[0]), Double. parseDouble(x[1])));//将JavaRDD转化为RDDRDD<Vector> data2 = data.rdd();//调用Statistics包下的corr()得到皮尔逊相关系数矩阵Matrix corr = Statistics.corr(data2,"pearson");//结果是//1.0 -0.9069678578088085//-0.9069678578088085 1.0/获取斯皮尔曼相关系数矩阵Matrix corr = Statistics.corr(data2,"spearman");//结果是://1.0 -0.8942857152857139// -0.8942857152857139 1.03.2 假设检验的应用
3.2.1 适合度检验
背景:只要是质量合格的骰子掷出1~6的几率就应该是相同的,现在有一枚骰子掷出600次,统计出1~6的次数如下:90,85,123,91,86,125,判定该骰子是否有质
原假设Ho:骰子没有问题
显著性水平:a=0.05
代码实现:(如果做适配度检验, Statistics. chiSqTest(v)需要输入的是一个向量)
Sparkconf conf = new SparkConf().setMaster("local").setAppName("GoodnessOfFit");JavasparkContext jsc = new JavaSparkContext(conf);//做适配度检定是需要的参数是一个VectorVector v = Vectors. dense(new double[] {90, 85, 123, 91, 86, 125});ChiSqTestResult result = Statistics.chiSqTest(v);System.out.println(result);结果显示:
Chi squared test summary:
method: pearson
degrees of freedom = 5
statistic = 17.56
pvalue=0.0035515235818343554
每一个值的输出含义:
method:使用的方法,用的是皮尔逊卡方检验法
degrees of freedom:自由度,一般为样本个数减1
statistic:检验统计量,一个用来决定是否可以拒绝原假设的证据,该值越大表示可以绝句原假设的理由越充分
pValue:根据显著性检验方法得到的一个概率p值,该值<=0.05为显著,通常这个值小于等于0.05,便认为有充足理由可以拒绝原假设
这里的pValue = 0.00355 <= 0.05,则拒绝原假设,说明该骰子有问题。
3.2.2 独立性检定
显著性水平:α = 0.05
代码实现:(如果做独立性检验, Statistics. chiSqTest()需要输入的是一个矩阵)
Matrix m = Matrixs.dense(2,2,new double[]{43.0,9.0,44.0,4.0});//做独立性检验时需要的参数为MatrixSystem.out.println(Statistics.chiSqTest(m));结果为:Chi squared test summary:method: pearsondegrees of freedom = 1statistic = 1.7774150400145103pvalue=0.1824670652605519里 pvalue=0.182>0.05,表明可以接受原假设,即说明性别和惯用左右手没有关系。
相关系数定义式为:若Y=a+bX,则有:令E(X) = μ,D(X) = σ,则E(Y) = bμ + a,D(Y) = bσ,E(XY) = E(aX + bX) = aμ + b(σ + μ),Cov(X,Y) = E(XY) ? E(X)E(Y) = bσ。
相关系数是最早由统计学家卡尔·皮尔逊设计的统计指标,是研究变量之间线性相关程度的量,一般用字母r表示。由于研究对象的不同,相关系数有多种定义方式,较为常用的是皮尔逊相关系数。相关系数定义式为:若Y=a+bX,则有:令E(X) = μ,D(X) = σ,则E(Y) = bμ + a,D(Y) = bσ,E(XY) = E(aX + bX) = aμ + b(σ + μ),Cov(X,Y) = E(XY) ? E(X)E(Y) = bσ。
相关表和相关图可反映两个变量之间的相互关系及其相关方向,但无法确切地表明两个变量之间相关的程度。相关系数是用以反映变量之间相关关系密切程度的统计指标。相关系数是按积差方法计算,同样以两变量与各自平均值的离差为基础,通过两个离差相乘来反映两变量之间相关程度;着重研究线性的单相关系数。需要说明的是,皮尔逊相关系数并不是唯一的相关系数,但是最常见的相关系数。
依据相关现象之间的不同特征,其统计指标的名称有所不同。如将反映两变量间线性相关关系的统计指标称为相关系数(相关系数的平方称为判定系数);将反映两变量间曲线相关关系的统计指标称为非线性相关系数、非线性判定系数;将反映多元线性相关关系的统计指标称为复相关系数、复判定系数等。
相关关系是一种非确定性的关系,相关系数是研究变量之间线性相关程度的量。需要指出的是,相关系数有一个明显的缺点,即它接近于1的程度与数据组数n相关,这容易给人一种假象。因为,当n较小时,相关系数的波动较大,对有些样本相关系数的绝对值易接近于1﹔当n较大时,相关系数的绝对值容易偏小。特别是当n=2时,相关系数的绝对值总为1。因此在样本容量n较小时,我们仅凭相关系数较大就判定变量x与y之间有密切的线性关系是不妥当的。
预制直埋式保温管与土壤(回填砂)之间的单位长度摩擦力F:
F=μ×(0.5×π×σv+G-0.25×G2×ρ×g)
F单位长度摩擦力(N/m)
μ摩擦系数
D外护管外径(m)
σv管道中心线处土壤应力(Pa)
G包括介质在内的预制直埋式保温管单位长度自重(N/m)
ρ土密度(kg/m3)
g重力加速度(m/s2)
当预制直埋式保温管中心线位于地下水位以上时的土壤应力
σv=ρ×g×H
H预制直埋式保温管中心线覆土深度(m)
预制直埋式保温管工作温度时,管道由安装温度与运行温度的温度变化,管道位移为零时的轴向力Fz,和摩擦力通过一段长度Lf后,轴向力Fz=Fm。
Fm=F×Lf
Fz=Fm=F×Lf
Lf=Fz/F
Lf预制直埋式保温管摩擦长度(m),理解为自由段。
计算出摩擦长度Lf,通过温差ΔT和线胀系数,计算出自由端部的弯头的位移量ΔL。
ΔL=α×ΔT×Lf=α×(T?-T?)×Lf
预制直埋式保温弯头在预制直埋式保温管直埋敷设热网中,就是一个补偿元件,弯头除了要求正火热煨外,还要有弹性臂,就是直管段,预制直埋式保温弯头在热网运行时,减少弯头第一道焊口的剪切力,通过弹性臂,弯头第一道焊口的剪切力过渡到拉压应力,保障预制直埋式保温管管网使用寿命大于30年,热网不爆管!
这也是预制直埋式保温管无补偿直埋敷设对预制直埋式保温弯头的基本要求!
预制直埋式保温管无补偿直埋敷设分冷态无补偿直埋敷设,一次性补偿器无补偿直埋敷设,预热无补偿直埋敷设三种。
在ΔT≤80℃时,采取冷态无补偿直埋敷设,这样热网投资最低。
原理是土壤摩擦力限制预制直埋式保温管热网运行时轴向热应力产生的位移,端部自由段靠预制直埋式保温弯头吸收一个摩擦段的位移量。
当ΔT≥80℃时,不释放部分位移来降低轴向热应力,轴向热应力大于工作钢管的许用应力[σ],工作钢管会屈服变形,热网会产生爆管,解决办法是提前释放一部分位移或运行中释放一部分位移,降低轴向热应力。
第一个解决方法是供水管道在一定距离加装一个一次性补偿器,做临时井,运行一段时间,观察一次性补偿器的伸缩,补偿器在收缩到设计位置时,焊死一次性补偿器,补偿器做防腐保温,回填,临时井作废,这样轴向热应力降低一半,轴向热应力在许用应力[σ]以内运行,热网不会爆管,其中不用加固定支架,由土壤摩擦力建立驻点,这样不影响施工进度,热网投资增加在3%以内,热网预期寿命50年,不爆管,50年内热网运维费用为零。
第二个解决方案,是预制直埋式保温管无补偿直埋敷设,使用管道提前预热回填的方式,提前预热轴向热应力和应变,也是同样的道理,把回填温度设计到预热温度Ty,预热温度确定:Ty=(T?-T?)/2+T?;管网提前释放一半的轴向热应力,运行时的轴向压应力和停热时的轴向拉应力,都在许用应力[σ]范围以内,热网运行安全,热网投资比冷态无补偿直埋敷设要高3%~5%,热网寿命可达到50年的预期寿命,50年内热网不爆管,运维费用为零。
这三种方式的预制直埋式保温管无补偿直埋敷设的先决条件就是ΔT,还有施工条件限制,最好的无补偿直埋敷设选择,首选冷态无补偿直埋敷设,其次是一次性补偿器无补偿直埋敷设,最后是预热无补偿直埋敷设。
比有补偿直埋敷设,节约投资25%!
我们没有办法改变一些事情,但是我们的改变自己的心态,处于哪个年龄都有危机,主要看我们自己,要有好的心态,积极向上,不断的充电,不断的提升自己,多锻炼,去做自己想做的事情,因为人活这一辈子不容易,我们的抓紧时间好好活着,把每一天都当作新的开始。人生实苦,唯有自渡,他人爱莫能助。尤其是处于即将中年的我们,原本自以为处在十字路口的自己,听到现实句句诛心却字字属实而无奈。那么多次,可因为放心不下体弱多病的我,拒绝了远走高飞的时机,而今不知不觉已近不惑之年了。每每回忆起那些场景,顿感庆幸又亏欠于他太多,多得无法形容。
相关系数的强弱仅仅看系数的大小是不够的。一般来说,取绝对值后,0-0.09为没有相关性,0.3-弱,0.1-0.3为弱相关,0.3-0.5为中等相关,0.5-1.0为强相关。但是,往往你还需要做显著性差异检验,即t-test,来检验两组数据是否显著相关,这在SPSS里面会自动为你计算的。样本书越是大,需要达到显著性相关的相关系数就会越小。所以这关系到你的样本大小,如果你的样本很大,比如说超过300,往往分析出来的相关系数比较低,比如0.2,因为你样本量的增大造成了差异的增大,但显著性检验却认为这是极其显著的相关。一般来说,我们判断强弱主要看显著性,而非相关系数本身。但你在撰写论文时需要同时报告这两个统计数据。
以上是【计算相关系数的公式,相关系数ρxy公式】,想了解更多相关内容,请访问
作为老牌一站式企业服务平台,我们(www.wjx66.cn)提供工商注册、财务服务、社保服务、商标服务、各类创业套餐等早期创业公司需要的泛法律服务。
联系在线客服或者提交需求,即可办理相关业务,或咨询24小时人工客服电话 15578329440 / 13768976670
10年金质服务 专业可见
15578329440 / 13768976670
服务时间:9:00-18:00