如何在量化投资中获取相关数据?

  |   2022年8月15日

下一步是购买或生成测试理论的数据。当然,我们总能买到几千个时间序列,也可以做实验、做调查来生成数据。不幸的是,可用的数据看上去从不是我们想测量的量,也不是我们想用它来测量的量。那些数据总是存在污染、噪声和错误,至少没有大量数据是完全合乎要求的。

数据质最涉及许多数量级。可用的证据显示,最熟知的价格序列几乎总是正确的,当它们不正确时,误差也很微小,例如只有小麦价格的1美分或者2美分。另一方面,对国民生产总值(GDP)的估算总是有错误,而误差值可能有几千万甚至几亿美元。

误差的范围很多是按百分比计算的,许多价格序列的误差可能在1%或者2%。另一方面,许多企业的业绩报表有约50%的误差。如果某公司的年度报告宣称每股收益是2.53美元,这意味着公司经营者根据可用数据、某些会计评审和假设,估计每股收益为2.53美元。不同的假设和判断会产生不同水平的每股收益估计值,例如,每股收益从1.25美元至3.75美元不等。

上文给出的例子给人这样一种不好的印象,即问题更客观。某一数据序列的误差大小在很大程度上取决于误差到底是什么意思。例如,如果国民生产总值没有计算地下经济、家计部门、休闲和经济总体中许多其他的部门,而同时它们又非常重要的话,那么报告的GDP可能会低估实际GDP水平约20%至40%。更糟糕的是,报告的GDP低估实际GDP的程度在时间和地点上几乎是不变的。例如,休闲越来越多地占据了我们的时间。如果这是真的,没有其他重要的抵消因素,那么报告的GDP就会越来越低估实际的GDP。另一方面,如果可以忽略上述的技术细节和许多其他技术细节,且关注GDP每季度的变化,那么我们可以假设误差率为1%,或者1%的一部分。

误差问题有的严重程度,取决于如何使用数据。一些预测一两年内商业票据的利率变化的人不用担心GDP中几十亿美元的误差。相反,许多基于统计技巧的短线追踪系统可能会因为每日价格序列中的微小误差而受到极大影响。

如果我们想要预测通用电气的价格,而不是《华尔街日报》中记录的价格,那么了解感兴趣的数据所包含的误差的程度和类型是很有用的。根据定义,只有两种类型的误差:系统误差和随机误差。系统误差包括数据中的偏向。换句话说,应该被取样的人口并未被取样。例如,由于许多投资方面的原因,有关个人或者家庭的收人分布的信息会有用处。但这类数据最明显的一个来源——税收记录的价值却不确定。这些记录可能是有偏向性的。至少,只要纳税人说谎会有好处的,记录就是有偏向性。美国税务局尽一切所能来保证记录的准确性。但是只要是在一个敌对环境下,它能做的事情都会受到严格的限制。

随机误差是非系统误差以外的误差。例如,当输入数据时,存在按错键的可能性。5.01美元可能被输入为5.04美元或者5.02美元。如果误差的概率无法确定,那么误差就是随机的。如果数据误差很小而且是随机的,那么它们就不重要。更准确的说,我们很容易通过标准统计技巧米控制微小的随机误差。

当然,数据包含的系统误差的类型取决于数据的类型。误差的类型如此之多,以至于无法在此一一列出。尽管如此,大多数投资者只对定量时间序列感兴趣,而它们至少包括四种重要的系统误差。第一,数据源本身可能因许多原因而有误差。例如,数据可以完全是谎言,就像一些收入和经理人绩效数据。或者就像国民生产力数据那样,概念被错定了。生产力是指每工时的产出,只有我们知道如何测量它时,它才能引起我们足够的兴趣。我们可以测量一个钢铁厂或者发电厂的生产力,但是我们如何测量吗家银行或者一个经纪公司的生产力呢?考虑到每四个美国人中就有三个从事服务业,这明显是一个重要的技术问题。

第二,即使数据源是正确的,数据也可能会有记录、抄写错误。例如,电脑可能只能记录两位数的价格,而实际价格却是三位数。如果左边的数据被删除,价格166就变成了66。

第三,即使在严格意义上数据是正确的,它们也可能不完整。价格序列尤其容易受这一问题影响。更糟糕的是,可能只有相对熟练的使用者才能发现数据不完整。例如,专业用钢每桶价格不仅包括了每桶钢的价格,还包括所有的贴现、折扣和回扣,更不用提制造商其他的诸多特殊服务类型。许多价格序列不仅仅是一个数字。

第四,数据在记录的日期还不可用。例如,不利的收入报告经常推迟发布。同时,历史总结常常呈现修正的数据,而系统没有注意到数据已经被修正了。修正数据是指在报告发布后根据可用信息而修正的数据。许多宏观经济预测和索引有时在发布之后被多次修正。

有两种方法能找出数据误差。

第一,根据数据中的信息或者数据序列本身进行检查。没有基准线会无限地出人意料,它几乎总在我们的预计之内。一个序列中的每个基准线都有--定的特性,我们应该根据这些特性来检测数据。例如,大多数价格序列都用大于0的数字表示。对这些序列而言,任何不是数字的基准线,或者基准线低于0都是错误的。数据内部的关系也应检查。例如,在任意给定日,股票的最高价都应该大于等于它的最低价。当情况与之不符时,其中一个价格一定是错了,或者两个价格都错了。这样的关系可以具有任意的复杂性。

有许多特性数据不是必须具备,但可能存在。如果一个值并非不可能,只是不大可能,那么检查该值就很必要得了。因此,在任何序列中较大和较小的值都值得检查。我们还能检查数据之间的关系。例如,几组数据序列的散布式绘图常常揭示一些不寻常的地方,所以也值得检查。

第二,如果有观察,我们就能根据原始观察而检查数据。如果没有观察,总体来讲,除了最后一个观察以外,在时间序列数据中这种情况很显著,那么不管它们产生了什么历史痕迹,我们都要据此来检查数据。例如,1985年7月19日通用电气的收盘价格已经看不见了,纽约证券交易所的价格追踪记录本身就有误差,但是这是我们所能做的最好的。如果误差是独立的,观察多个记录就和看原.始数据一样好。另一方面,如果误差是相关的,例如《华尔街日报》简单地将证券交易所的记录抄过来,观察多个记录不会增加任何信息。事实上,每复制一次数据,就会增加一层的误差。因此,不管在哪种程度上,检查错误都应该回到最早的数据源。

不论我们有多仔细地追踪数据、改正数据,数据中仍然会存在错误。剩余偏差和误差率是指更正后数据中仍存在的错误的比重。除非我们已知剩余偏差和误差率,否则试图从数据中得出结论是危险的。一种估计剩余偏差的方法是,先从未更正的数据中抽取样本,将样本中每个基准线和原始观察,或者至少和可用的最佳记录相比较。估计完成后,它就能指示出我们是该舍弃数据、进一步清理数据,还是信任该数据。

偏差信息的一个重要来源是更正过程本身。所有的更正程序将自己的偏差引人数据中。例如,任何用于检查价格变化离群值的程序——它们检查所有较大的价格变化,不管变化是正是负——都保证较小的价格变化比一般的价格变化锆得更多。这个变化也许重要,也许不重要。它不大可能影响大多数的计量经济学方法,但是它可能影响许多技术系统。

尽管我们能购买或者生成数据,但好的数据不总是能通过这样的方式得到,至少不会在合理的代价之内获得。当发生这样的情况时,我们就必须放弃或者修正项目。修正项目的方法之一是使用替代数据序列——那些和我们真正感兴趣的序列相似的序列。在某种意义上,如果我们能得到这样的序列的话,几乎每个数据序列都是我们真正想得到的序列的替代品。例如,我们想得到一个小型投资者市场意见的每日调查,但是我们勉强接受了每周零星的购买、销售和卖空数据。从这个意义上讲,购买或者生成数据包含了想要什么、能做什么、花费如何之间的权衡。如果可接受的替代序列足够便宜,那么这个项目就具有高性价比。

由于研究者在他/她发现之前对自己能发现什么所知甚少,成本效益分析在此处帮助不大。尽管如此,我们必须做出重要的选择。考虑到失败的代价,除非有强有力的原因另觅方法,否则我们就要么审慎地购买或开发高质量的数据,要么就干脆不购买、不生成数据。

推荐阅读

相关文章

掌握成长股的选择技巧

掌握成长股的选择技巧投资者在选择成长股时要考虑下面几个因素。第一,企业要有成长动因。这种动因包括企业领导人、内部管理、技术以及产品等重大生产要素的更新和企业某种特有的重大优势等。第二,企业规模比较小。小规模企业对企业成长动因的反映比较强烈,市场、产量、资本等要素的上升空间大,所以成长条件比较优越.第三,行业具有成长性。

均线可以揭示下跌趋势

均线可以揭示下跌趋势技术特征在下跌的初中期,短期移动平均线向下跌破中长期移动平均线,形成的交叉叫死亡交叉,简称死叉。死叉表示股价可能即将下跌。如下图所示。

“靠而不交,方向延伸”指什么?它对股市发展演化有什么影响?

当股价处于明显的上攻阶段(或下跌阶段)中运行时,总是不断会出现股价拉一段回收一下(或打一段回收一下)的技术动作。这就像呼吸一样,一呼一吸,一攻一缓,是股价运行正常的表现。

贪婪是投资最大的敌人

人的欲望是无穷无尽,永远无法满足的,而市场中的机会总是稍纵即逝,心轻可以上天堂,心贪却可能一无所有。圈内的投资人总喜欢将《猎手捕火鸡》的寓言故事挂在嘴边,向那些缺乏经验的新晋投资者讲述,内容如下。一天,一位猎手早上去查看他的笼子,发现笼子里有12只火鸡。在他放下笼门之前,一只火鸡溜出了笼子。

2根均线金叉买入法则

2根均线金叉买入法则技术特征第一,在周线均线交易系统里,趋势明确上行,短期均线发生金叉。如下图所示。 第二,这2根均线一般选择3周均线和5周均线,周线金叉意味着上升的趋势已经确立。 第三,周线金叉是大级别行情到来的重要信号,此时需要积极参与,千万不要错过。

升势的MACD形态展示

MACD的趋势交易技术:在上升趋势中,MACD指标窗口的DIFF线会稳健地运行于0轴上方,所谓的稳健是指:员然个股可能因偶然性的波动使得DIFF线回落至0轴下方,但持续时问是较短的,随后.能够马上对其修复,再度回升并站稳于0轴之上。

KDJ指标的周线、月线交易要则与实例:海信电器(600060)

在现实交易当中,我们会发现短线交易是一种成本非常高的交易方法,除了技术指标本身的一些天然缺陷所导致的必然错误之外,损失的还有证券交易所扣除的大量手续费用及政府征收的印花税。有位朋友在年头好的时候,短线底利曾达到12万元,但是付出的各种费用就有7万元多。

头肩底(顶)反转突破形态

反转形态是指股价改变原有的运行趋势所形成的运动轨迹。它存在的前提是市场原先确有趋势出现,而在反转形态之后,趋势改变了原有的方向。反转形态具有如下几个明显的特点:第一,规模越大,新趋势的市场动作也将越大。反转形态的规模,包括空间和时间跨度,决定了随之而来的市场动作规模,也即形态的规模越大,新趋势的市场动作也将越大。

​股市中的反转信号形态V形底形态

股票市场当中经常会显现出来反转的走势,大部分的投资者碰见这样的状况损失都会非常的惨重,也有小部分的投资者,掌握了这个时机,然后从里面获得了非常不多的收益!  那他们到底是如何做的呢?下面就给大家分享一个关于股票市场当中的反转讯号,能够帮助大家及时的掌握股票市场上的反转,

均线双顶部形态的卖点

均线的顶部形态会出现在均线上涨一段时间之后的顶部区间。这类形态出现,标志着之前推升股价的多方力量逐渐减弱,股价上涨后遭遇到了较强的抛盘压力。未来股价将会结束上涨,开始进入下跌行情。这样的形态完成时,投资者应该尽快卖出手中的股票。均线的双顶形态是指行情上涨一段时间后遭遇阻力时,均线的形成连续两个最高价基本水平的顶部。

相关词条

零加刻度

什么是零加刻度?零加价或零上涨是一种证券交易,以与前一交易相同的价格运行,但价格高于不同价格的最后一笔交易。例如,如果连续的交易发生在 10 美元、10.01 美元和 10.01 美元,则后面的交易将被视为零加价或零上涨交易,因为它与前一交易的价格相同,但价格高于以不同价格进行的最后一笔交易。

经验丰富的问题

什么是经验丰富的问题? 经验丰富的发行是来自已建立证券的公司的额外证券发行,该公司的证券已经在 二级市场交易。经验丰富的发行也称为经验丰富的股票发行或 后续公开募股 (FPO)。蓝筹股公司发行的新股被认为是经验丰富的股票。在二级市场交易的未偿债券也被称为经验丰富的债券。

成长股定义

什么是成长股?成长股是指公司的任何股票,预计其增长率将大大高于市场平均增长率。这些股票一般不派息。这是因为成长型股票的发行人通常是希望将其积累的任何收益再投资以在短期内加速增长的公司。当投资者投资于成长型股票时,他们预计他们将在未来最终出售股票时通过资本收益来赚钱。

加速股票回购 (ASR) 定义

什么是加速股票回购 (ASR)?加速股票回购 (ASR) 是一种投资策略,上市公司依靠中介投资银行促进交易,从市场上迅速回购大量流通股。要发起这样的活动,公司必须首先向投资银行提供前期现金。然后它必须签订远期合同,这只是两方之间在未来日期购买或出售证券的协议。

反稀释条款定义

什么是反稀释条款?反稀释条款是可转换优先股和一些期权中的条款,以帮助保护投资者免受可能损失价值的投资。当新发行的股票以低于早期投资者购买同一股票的价格进入市场时,就会发生股权稀释。反稀释条款也称为反稀释条款、认购权、认购特权或优先购买权。了解反稀释条款反稀释条款起到缓冲作用,以保护投资者免受其股权头寸被稀释或价值降低。

广泛加权平均

什么是广义加权平均?基础广泛的加权平均数是一种反稀释条款,用于在公司进行额外发行时为现有优先股股东的利益。基础广泛的加权平均数涵盖了之前已发行和目前正在发行的所有股权。在二次发行时,公司将使用广泛加权平均计算将优先股的价值调整为新的加权平均价格。