什么是拟合指数?
拟合是计量经济学的研究领域。所谓拟合指数,简单来说就是所选变量与被解释变量的相关性。
股票\基金拟合指数:
指数基金是一种拟合目标指数,跟踪目标指数变化,实现与市场同步增长的基金品种。指数基金的投资采用拟合目标指数收益率的投资策略,以多元化的方式投资于目标指数的成份股,使股票组合收益率拟合目标指数所代表的资本市场平均收益率。
操作简单,透明度高。
从理论上讲,指数基金的操作方法很简单,只要你根据指数中每种证券的比例买入相应比例的证券并长期持有。
其次,指数基金便宜。由于指数基金采用持有策略,不需要频繁换股,交易成本远低于主动管理型基金。
此外,指数基金的表现透明度很高。投资者看到指数基金跟踪的目标基准指数涨了,就知道自己的指数基金今天净值能涨多少了。所以很多看得清大势,看不清个股的机构投资者和部分个人投资者,更倾向于投资指数基金,没必要有“赚了指数不赚钱”的担心。
有效规避非系统性风险
与其他基金相比,指数基金的优势在于可以有效规避非系统性风险,因此指数基金广泛分散投资,任何一只股票的波动都不会影响指数基金的整体表现,从而分散风险。另一方面,由于指数基金所盯住的指数一般都有较长的跟踪历史,因此指数基金的风险在一定程度上是可以预测的。
因此,长期来看,指数基金的投资业绩优于其他基金。2006年,市场上指数基金以125.87%的年均累计净值增长率成为最赚钱的基金品种。这类基金不会在某些证券或行业投入太多资金。一般会保持全额投资,没有市场炒作。
关键因素拟合指数投资法的实证研究
指数化投资(Indexing investment)是一种试图完全复制某一证券价格指数或根据编制证券价格指数的原理构建投资组合的证券投资。以这种方式投资的基金称为指数基金,其收益水平目标是标的指数的变动幅度。自20世纪90年代以来,美国华尔街大多数股票基金经理的业绩都低于同期大盘指数。这样,以复制市场指数走势为核心思想的指数基金在全球范围内迅速发展,对证券投资的传统思维形成了巨大的冲击和挑战。在美国,指数基金越来越受欢迎,因为其回报超过同类基金的65~80%。在流入同一基金市场的新增资金中,流入指数基金的比例从1994的2%上升到1999的31%。1999年末,美国指数基金总额达到3380亿美元,占美国股票基金总额的8.37%。美国最大的指数基金和最大的* * *共同基金Vanguards S & amp;P 500管理6543.8+005亿美元。
指数化投资在中国的出现比较晚,主要是因为中国的证券市场还比较年轻,还在探索和发展中。中国的投资者群体还不成熟,缺乏科学的投资理念,对市场行为的监管还不完善。庄家炒作等非市场行为对股指影响很大。由于这些原因的影响,中国的股票指数经常偏离市场,不能反映市场的真实情况。
就指数化投资方法而言,市场上常见的方法是完全复制某一证券价格指数,或者根据编制证券价格指数的原理构建投资组合。这种传统的指数化投资方式比较被动,在市场正常运行时可以起到很好的作用,但当一些样本股上涨或下跌异常快时,就会失去进一步获利的机会,及时止损。为了弥补这一不足,各种替代方法应运而生。
Francesco Corielli和Massimiliano Marcellino(2002)认为跟踪指数是指数的复制品,包含的股票远少于指数,跟踪误差不包含非经常性成分。他们采用动态因子提取法建立指数替代投资组合,并用蒙特卡洛经验指数和欧元STOXX50指数进行了验证。验证结果令人鼓舞,备选组合基本完成跟踪曲线[7]。吴崇峰(2000)对上证30指数从1998年7月8日到1999年3月29日的样本股进行了分析,得出了上证30指数被6只股票的组合所替代的结论[6]。
从以上研究中我们发现,指数化投资法并不一定要按照证券价格指数的编制原理来构建投资组合,而是可以通过构建备选投资组合来跟踪指数。在此基础上,作者提出了关键因素拟合指数化投资法,认为股票指数是按照编制股票价格指数的原理,由其样本股组成的,其走势反映了这些样本股的* * *交互作用,但并不是每个样本股对指数的贡献都是相同的。股指中有关键因素,这些关键因素对股指的影响体现在它们所代表的样本股的表现上。同样,不是每个关键因素对它的贡献都是一样的。关键因素中有最具代表性的关键样本股,正是这些最具代表性的关键样本股对股指起着决定性的作用。只要抓住了他们,就抓住了股指。换句话说,只要我们投资这些关键因素的组合,我们就会投资股指。此外,同一关键因子中具有代表性的关键样本股可以替换,可以在不影响投资组合指数化的情况下,使股指投资更加灵活,在一定程度上弥补了传统方法的不足。
接下来我们将以上证50指数为研究对象,对关键因素指数化投资方法进行实证研究。论文结构如下:首先进行研究设计,确定研究程序、模型、样本和数据;然后,对数据进行因子分析,提取上证50指数的关键因子。在此基础上,我们将根据关键因素构建的投资组合与实际上证50指数进行相关性检验和回归分析,对该方法进行验证。最后得出结论。
研究设计
一、研究项目和模型设计
第一步,找出影响上证50指数走势的关键因素。
基于上证50指数成份股的日收益率,我们进行了因子分析,提取了n * * *个反映上证50指数走势的相同因子,代表了影响上证50指数走势的n个关键因素。多因素模型的构建如下:
index 50 = a 1 * f 1+A2 * F2+……+An * Fn+ε
其中:Index50为上证50指数;Fn是第n个* * *余因子;An是第n * * *个同因子对上证50指数的贡献率;ε是残差。
找出这N个关键因素后,再进一步找出这N个关键* * *相同因素所代表的样本股。对应关系如下:
F1~a1(股票11)+a2(股票12)+……
F2~b1(股票21)+b2(股票22)+……
…………………………………
fn ~ n 1(stock n 1)+N2(stock N2)+……
其中:Fn是第n个* * *余因子;股票是同一因子代表的样本股;甲,乙...n是样本股对同一要素的贡献率,即要素负荷。
通过观察同一个因子的因子负荷,可以分析判断每个同一个因子所反映的关键因子,并做出相应的解释。
第二步,证明我们找到的N个关键因素是否真的能反映上证50指数的走势。我们用最具代表性的样本股构建投资组合Portfolio50,并与上证50指数50进行比较,验证Portfolio50是否等价于指数50。
为此,我们找出这n个关键因素中最具代表性的I个样本股,按照其方差贡献占总方差的比例作为权重来构造投资组合,如下:
组合50 = w 1 *股票1+w2 *股票2+……+wi *股票1
其中:Portfolio50是构建的投资组合的日收益率;STOCKi是参与构建投资组合的第I只最具代表性的样本股的日收益率;Wi是第一个样品股票的重量。
计算投资组合50的日收益率和上证50指数50的日收益率。通过相关性检验后,对Portfolio50和Index50进行线性回归分析。回归模型的构建如下:
Portfolio50=a+b*(Index50)+ε
其中:Portfolio50是构建的投资组合的日收益率;Index50是上证50指数的日收益率;a是常数项;b是回归系数;ε是残差。
如果模型得到验证,A趋近于0,B趋近于1,那么Portfolio50≈Index50,即Portfolio50等价于Index50,说明我们找到的关键因素能够真实反映上证50指数的走势,Portfolio50可以代替上证50指数进行指数化投资。
二、模型变量计算
上证50指数成份股每日收益率以相对收益率计算。在配股、送股和现金分红的情况下,按以下公式计算:
其中:rit为I类股票的T日收益率;Pt和Pt-1分别是T和t-1上的收盘价;c是基于t-1的T日每股现金分红;As是以t-1日的每股配股比例为基准;s是t-1上的每股对应价格;Ad是t-1上每股送股的比例。
上证50指数的日收益率指数50也是用相对收益率计算的,公式如下:
其中:Rt为上证50指数T日收益率;Pt和Pt-1分别是上证50指数T日和t-1日的收盘价。
第三,研究样本选择
本研究所需的上证50指数收盘价、成份股收盘价、现金分红等原始交易数据来源于上海万国股市评估咨询有限公司制作的“大智慧证券信息平台V5.00”
在因子分析过程中,样本数据期为2002年2月3日至2004年3月3日,每只样本股票包含309条数据记录。因各种原因临时中止造成的缺失值,采用相邻数据平均法填补。
考虑到部分新上市公司样本股上市日期过短,样本数据数量不充分,业绩容易出现异常波动,公司各方面运行机制不够完善,为防止少数数据干扰检验,排除样本股,在关键因素确立后,根据专业知识分别判断其属性。剔除5只样本股,分别是:白云机场(600004)、华夏银行(600015)、南方航空(600029)、中信证券(600030)、长江电力(600900)。
综上,因子分析样本股共包含45只上证50指数样本股,每只包含309条日收益记录。有309组,13905条日退记录。
在相关性检验和回归分析过程中,上证50指数自2004年6月2日正式发布,指数代码为000016,基准日为2003年6月365438+2月0日。到目前为止,数据量太少,不能直接用它来计算。但为了上证50的顺利推出,上交所从65438+2003年10月2日发布了上证50板块概念指数993265。其编制方法和走势与上证50基本相同,只是采用的基数不同。这里我们用上证50概念指数993265的数据代替上证50指数000016的数据进行计算。计算时间跨度为2003年7月22日至2004年3月12日。同样,缺失值的处理方法采用相邻数据平均填充的方法,* * *统计155组数据。
因素分析
表1 KMO统计量和巴特利特球面检验表
凯泽-迈耶-奥尔金抽样充分性度量。.958
巴特利特球形度试验约。卡方检验9857.426
df 990
签名。.000
首先,我们使用KMO统计量和Bartlett的球面检验来确定样本数据是否满足因子分析的前提条件。可以看出,表中检验变量间偏相关的KMO统计量为0.958,接近1,说明变量间的相关程度没有太大差异,数据非常适合进行因子分析。同时,Bartlett的球面假设检验的结果也是被拒绝的,它很强地识别了变量之间的相关性,说明样本股的日收益率之间存在* * *相同的信息,满足提取* * *相同因子的前提条件。见表1。
本文采用的因子提取方法是主成分分析法。考虑到* * *恒等因子的可解释性,在提取因子的过程中采用正交旋转,具体旋转方法为方差最大化正交旋转。按照提取的主成分* * *累计贡献率在85%以上的标准,从一个* * *中提取20个* * *相同的因子。信息提取充分性测试表(略)告诉我们,根据上诉* * *同因子提取标准,样本股的信息提取基本充分。
表2 ***用同一因素解释的差异百分比表
因子f 1 F2 F3 F4 F5 F6 F7 F8 F9 f 10
方差百分比42.311 6.849 4.540 3.208 2.395 2.856 2.367 2.133 2.035 1.844
累计% 42.311 49.160 53.700 56.908 59.764 62.158 64.525 66.658 68.693 70.537
因子f 11 f 12 f 13 f 14 f 15 f 16 f 17 f 18 f 19 F20
方差百分比1.728 1.674 1.553 1.491.410 1.324 1.286 1.261.261.201
累计% 72.265 73.939 75.491 76.982 78.392 79.716 81.002 82.263 83.464 84.618
我们以同一因子解释的方差百分比(表2)作为因子对指数贡献的权重,对应的多因子模型如下:
index 50 = 0.4231 * f 1+0.0685 * F2+0.0454 * F3+0.0321 * F4+0.0286 * F5+0.0239 * F6+0.0237 * F7+0.0213 * F8+0.0204 * F9+0.0184 * f 654
经过方差最大的正交旋转,提出因子与变量之间因子负荷大于0.4的变量,然后根据同一样本股对同一因子的贡献取一个相对较大的值。我们得到下面的20只样本股的列表,主要用同一个因子表示,如表3所示。
表4 ***同一因子代表的样本股列表
F1 600028中国石化F5 600664哈药集团
600808马钢股份600038哈飞股份
600688上海石化F6 600839四川长虹
600019宝山钢铁600033福建高速公路
600026中海发展600008股本
600569安钢F7 600591上航
600050中国联通600221海南航空
600036招商银行F8 600795国电电力
600350山东基建600011华能国际
600649原水股份600642深能股份
600000浦发银行F9 600643爱建股份
F2 600602广电电子F10 600887伊利股票
600832东方明珠600597光明乳业
600637广电资讯F11 600016民生银行
600100清华同方F12 600811东方集团
600171上海贝岭F13 600652艾石股份
600601方正科技F14 600006东风汽车
F3 600609金杯汽车F15 600812华北制药
600805大岳投资F16 600705北亚集团
600104上海汽车F17 600895张江高科
F4 600717天津港F18 600863内蒙古华电
600018上海港集装箱F19 600098广州控股
600009上海机场F20 -
每个* * *相同因子与样本股因子负荷的对应关系如下:
f 1 ~ 0.84(600028)+0.84(600808)+0.83(600688)+0.82(600019)+0.65(600026)+0.61(600569)+0.61(600050)+0.55(60000
F2 ~ 0.88(600602)+0.86(600832)+0.85(600637)+0.78(600100)+0.69(600171)+0.49(600601)
F3 ~ 0.81(600609)+0.75(600805)+0.63(600104)
F4 ~ 0.76(600717)+0.67(600018)+0.46(600009)
F5~0.88(600664)+0.85(600038)
F6 ~ 0.66(600839)+0.49(600033)+0.46(600008)
F7 ~ 0.72(600591)+0.67(600221)
F8 ~ 0.56(600795)+0.55(600011)+0.52(600642)
F9~0.83(600643)
f 10 ~ 0.75(600887)+0.40(600597)
f 11 ~ 0.80(600016)
f 12 ~ 0.81(600811)
F13~0.81(600652)
F14~0.97(600006)
F15~0.80(600812)
F16~0.77(600705)
F17~0.78(600895)
F18~0.75(600863)
F19~0.52(600098)
F20~ -
观察* * *同因子代表的样本股列表与因子负荷的对应关系,可以分析判断每个* * *同因子所反映的关键因子如下:
F1对应的样本股有:600028中国石化、600808马钢股份、600688上海石化、600019宝钢股份、600026中海发展、600569安阳钢铁、600050中国联通、600036招商银行、600350山东基建等。这些都是知名的大盘蓝筹股,经营业绩优秀,净资产收益率高,包括几只银行股,可以说是大盘中的大盘股,蓝筹中的蓝筹股。我们可以将因子F1定义为“大盘深蓝股”。
F2对应的样本股有:600602广电电子、600832东方明珠、600637广电信息、600100清华同方、600171上海贝岭、600601方正科技。这些股票是高科技行业的杰出代表,主要从事计算机。
F3对应的样本股有:600609金杯汽车、600805大岳投资、600104上海汽车,属于典型的汽车股。随着近几年汽车行业的崛起,业绩呈现稳定增长,我们可以将因子F3定义为“汽车蓝筹”。
与F4对应的样本股有:600717天津港、60018上海港集装箱、600009上海机场,与陆、海、空港口物流运输密切相关。我们可以将F4因素定义为“港口物流股”。
F5对应的样本股有:600664哈药集团、600038哈飞股份,地域色彩明显,触摸到东北老工业基地发展的脉搏。我们可以将因素F5定义为“东北老工业股”。
F6对应的样本股为:600839四川长虹、600033福建高速、600008股本,其中600033福建高速、600008股本主要从事公益事业和基础设施。我们可以将F6因子定义为“基本公益股”。但600839四川长虹主营业务为电视机、空调等家电,业绩突出。被划入这一类,可以看作是统计以外的原因造成的例外。
对应F7的样本股有:600591上航,600221海航,两只国内航空运输行业的优质股票。我们可以将F7因子定义为“航空运输股”。
F8对应的样本股有:600795国电电力,600011华能国际,600642深能股份,明显代表电能。我们可以将因子F8定义为“电能份额”。
F9对应的样本股为:600643爱建,为沪市50只成份股中的非银金融股。我们可以将因子F9定义为“非银行金融股”。
F10对应的样本股为:600887伊利、600597光明乳业,均为乳制品龙头。乳制品的消费与普通人的日常生活息息相关,其表现也从一定角度反映了普通人生活的富裕程度。我们可以将因子F10定义为“乳制品消费股”。
F11对应的样本股有:600016民生银行,银行股。F12对应的样本股为:600811东方集团,综合性股票,涉足金融、电商、建材、通信等领域。F13对应的样本股为:600652爱石股份,主营计算机硬件和网络设备。F14对应的样本股有:600006东风汽车,汽车行业股。F15对应的样本股为:600812华北制药,医药化工产品生产和销售。F16对应的样本股为:600705北亚集团,主营运输、物流、贸易。F17对应的样本股有:600895张江高科,地产股。F18对应的样本股为:600863内蒙古华电,主营动态发电和供热。F19对应的样本股为:600098广州控股,从事能源、物流、基建等综合性股票。这些因素所代表的股票具有很强的针对性。虽然有些股票可以归因于上述因素,但从统计的角度来看,它们应该单独列出,以确保原始信息的完整反映。F20对应的样本股的因子负荷都小于0.4,说明其可解释性很小,反映的样本股比较分散,从专业角度没有分析价值,所以排除。
至于白云机场(600004)、华夏银行(600015)、南方航空(600029)、中信证券(600030)、长江电力(600900)这5只因上市时间较短而被否的股票,可以用我们的专业知识进行分类,在以后的分析中进行验证。白云机场(600004)主营机场物流,可归为F4;华夏银行(600015)是银行股,可归类为f 11;南航(600029)主营航空运输,可归为F7;中信证券(600030)为非银金融股,可归为F9,长江电力(600900)主营电力能源,可归为F8。
综上所述,通过对上证50指数成份股日收益率数据的因子分析,我们从F1到F19中提取出了具有实际意义的19 * * *相同因子,它们代表了影响上证50指数走势的19关键因子。多因素模型的构建如下:
index 50 = 0.4231 * f 1+0.0685 * F2+0.0454 * F3+0.0321 * F4+0.0286 * F5+0.0239 * F6+0.0237 * F7+0.0213 * F8+0.0204 * F9+0.0184 * f 654
相关检验和回归分析
我们将从因子分析中提取的19只具有代表性的样本股组合起来构建投资组合Portfolio50,每只样本股的权重等于累计百分比中每个* * *因子所解释的方差的百分比。例如,因子F1的权重等于(42.311/83.464 = 0.5069)。考虑到F1因子代表的股票数量较多,权重比例较大,选取前四只股票,每只股票的权重为F1因子权重的四分之一,共有22只样本股。
投资组合的构成如下:
portfolio 50 = 0.1267 *(600028)+(600808)+(600688)+(600019))+0.0821 *(600602)+0.0544 *(600609)+0.0384 *(600717)+0.0342
Portfolio50与Index50的相关性检验表(略)显示,在0.01的置信水平下,Portfolio50与Index50的相关系数为0.943,说明Portfolio50与Index50高度相关。
表4回归模型和测试结果表
模型平方和。
1回归0 . 025 1 . 025 1238 . 863 . 000
残差. 003 153 .000
总计. 028 154
表5回归系数和检验结果表
模型非标准化系数标准化系数。相关
b标准。误差β零阶部分
1(常数)7.235E-04 .000 2.004 .047
index 50 1 . 021 . 029 . 943 35 . 197 . 000 . 943 . 943。
从回归模型和检验结果(表4)可以看出,回归模型具有明显的统计意义。从回归系数和检验结果(表5)可以看出,回归模型的系数b具有明显的统计意义,b的值为1.021。虽然常数项的检验没有统计学意义,但是无关紧要。对于常识,我们通常把它保留在方程中,取值为0.0007235。
基于此,我们可以建立如下回归模型:
组合50 = 0.0007235+1.021 *(指数50)
其中:常数项a=0.0007235,非常接近0,回归系数b=1.021,也接近1。所以我们可以认为Portfolio50≈Index50。
最后,我们对回归模型拟合的有效性进行评估和分析(流程略)。从拟合模型的拟合优度简报和德宾-沃森统计量可知,确定系数R2为0.89,调整后的确定系数R2为0.889,说明模型的拟合效果显著。德宾-沃森统计量是1.786,数值在2左右。可以看出残差之间没有明显的相关性。为了进一步分析模型的正态性,即残差ε是否服从正态分布,我们做了残差分布直方图和正态PP图(见图1和图2)。可以看出,该模型的残差基本服从正态分布。
图1残差分布直方图图2残差的正态PP图。
结论
根据以上实证研究,我们得出以下结论:
1.在65438+2002年2月3日至65438+2004年3月8日期间,上证50指数50只样本股的收益受19关键因素的影响。这些19关键因素中最具代表性的是600028中国石化、600602广电电子等22只样本股。从另一个角度看,这22只样本股的整体走势基本反映了上证50指数50只样本股的走势。
2.影响上证50指数的关键因素具有很强的板块效应。企业性质、主营业务、区域特征、经营业绩相同或相似的股票走势高度相关,可归为同一关键因素。然而,与此同时,个股的表现同样出色。几乎每个部门都有独特的表现。由于管理、资本运作等诸多原因,这些特立独行的股票走出了自己的特色,成为市场不可或缺的亮点,为指数做出了重要贡献。
3.从个股对上证50指数关键因子的影响来看,如果一个关键因子所代表的样本股数量少,就说明这些样本股更具代表性。相反,如果一个关键因素所代表的样本股数量较多,则说明这些样本股具有可替代性,也就是说,如果需要调整投资组合,可以在代表大部分样本股的因素中进行调整,不会影响投资组合的代表性。
4.如果要指数化上证50指数,不需要投资全部50只样本股,只需要投资最能代表19关键因素的22只重点样本股即可。投资组合如下:投资组合50 = 0.1267 *(600028)+(600808)+(600688)+(600019))+0.0821 *(600602)+(600664)+0.0287 *(600839)+0.0284 *(6005994)检验结果表明,这22只具有代表性的重点样本股构建的组合Portfolio50的收益率基本反映了上证50指数的Index50的收益率,它们的风险处于同一水平,即可以用组合Portfolio50代替上证50指数进行指数化投资。此外,由于同一关键因素所代表的股票具有可替代性,因此投资组合Portfolio50的结构更加灵活,我们可以根据市场的具体情况调整投资组合Portfolio50,而不影响其在指数上的反映。
上述结论表明,我们从实证研究的角度验证了关键因素拟合指数投资法,即指数投资不必完全照搬股票指数,股票指数中存在关键因素。利用这些关键因素构建的投资组合可以拟合相应的股票指数进行指数化投资。该方法可适用于多种指标,操作灵活、主动。基金经理可以同时结合其他分析工具,根据市场的具体情况调整拟合的投资组合,从而达到最佳的投资业绩。