百亿量化私募的数据中台:提炼存储痛点待解 算法平台急需“统一”

    来源: 互联网 作者:陈植 编

    摘要: 记者陈植上海报道随着量化投资策略持续兴起,百亿量化私募基金数量随之迭创新高。据私募排排网最新数据显示,截至7月底,百亿量化私募机构数量达到30家,创下历史新高。这背后,

      记者 陈植 上海报道

      随着量化投资策略持续兴起,百亿量化私募基金数量随之迭创新高。

      据私募排排网最新数据显示,截至7月底,百亿量化私募机构数量达到30家,创下历史新高。

      这背后,是量化私募产品投资策略也发生着明显变化。

      “在去年不少量化私募产品超额收益出现较大幅度回调后,如今pure alpha(纯阿尔法)策略正受到越来越多量化私募机构管理人的青睐。因为它可以有效规避股指下跌所带来的净值跌破1元净值压力,并创造较高的超额回报。”恒生电子(600570)数据运营中心产品运营专家黄琪向记者透露。目前pure alpha策略私募产品的超额收益来源,主要来自两大方面,一是量化私募通过算法模型率先发现某些股票市场错误定价,提前布局获取超额回报;二是通过大量股市波动历史规律分析,他们更精准地预判未来走势,从而获取超越市场平均水准的回报。

      在他看来,要实现pure alpha策略的高超额回报预期,量化私募机构需在数据、算法模型、交易执行方面持续加大投入,由此推高了量化投研数据使用要求。

      记者多方了解到,为了持续提升量化投研能力,越来越多大型量化私募机构正效仿券商与银行做法,构建自己的量化数据中台。

      思勰投资交易运营总监孙修远指出,通过建设量化数据中台实现业务数据化、数据资产化和投研智能化,从而打造数据驱动的量化资管体系,将是未来量化私募机构借助数据能力提升投资决策精准性的一大重要方向。

      他直言,要做好这项工作,绝非易事。一是众多量化私募机构均面临量化投研数据体量大、多源异构、数据质量低、自由度低等痛点,导致数据使用效率千差万别,二是如何通过数据清洗提炼分析,进一步完善自身算法投资模型,同样是一大挑战。

      在恒生聚源副总经理夏青看来,随着pure alpha等量化选股类策略资金容量越来越大,它对多因子选股策略的数据需求日益旺盛——包括个股基本面,市场情绪面、资金流动性、行情类、财务类、估值类等各类数据和财务指标,量化私募机构不但要求数据齐全,还要求实时更新推送与快速清洗提炼 (转化成他们需要的建模因子数据),这驱动金融数据服务商在提供数据服务同时,还需输出涵盖规模因子、动量因子、技术因子、波动因子等多元化因子库,为量化私募机构提供完善的投研数据服务、绩效归因分析和指数服务。

      他透露,恒生电子正致力于通过数据质量规则校验系统建设高质量的历史行情数据库,为量化投资机构打造集行情、资讯、因子数据的机构金融数据服务,并提供二次加工和统一便捷的对外服务,进一步满足他们对量化投研数据的各类需求。

      中泰证券(600918)科技研发部总经理何波指出,随着监管趋严令量化交易不再纯粹聚焦高频极速,除了低延时、AI等科技已被广泛用用,系统开源与云原生同样是值得量化交易投资机构深入探索的一大科技赋能方向,这也是量化交易走向规模化的必由之路。但要让量化交易迈入云原生之路,则需从统一的行业标准制定、完善的开源生态构建、合适的开发语言使用等各方面深入发展。

      百亿量化私募的数据中台“坎坷路”

      记者多方了解到,不同于传统投资交易,量化交易投资主要是将股市波动历史规律转化成数据,并依赖统计和编程完成数据分析和制定相应投资策略,且在执行前需先通过各类模拟测试验证其投资策略的有效性与业绩表现能否达到预期。

      因此,众多量化策略私募机构的一项重要工作,就是整天与各类金融数据打交道,由此催生三大量化投研数据需求,一是数据完备性,即尽可能掌握更多的金融数据,包括宏观经济、上市公司财务数据、股票行情数据,上市公司舆情数据等,二是数据务必准确,这是确保投资策略净值回撤状况可控的最大基础,三是足够快地获取各类数据,从而确保量化交易投资策略能快速响应市场变化。

      一位正在研发pure alpha策略私募产品的百亿量化私募机构投研总监向记者透露,目前他们最看中的是行情数据,但这类数据处理起来相当繁琐,因为数据量特别大且需要繁重的数据校对,以确保数据具有较高的准确性。

      “此外,令我们比较头疼的,还有盘后统计数据分析工作。它对优化量化投资算法模型起到关键作用,但我们时常遇到数据不够全面,导致复盘建模效果有时差强人意。”他指出。

      为了解决这些痛点,他所在的百亿量化私募机构正尝试搭建量化数据中台,包括底部数据层、因子发现层,策略开发层、策略跟踪层与产品层都能做到数据打通共享,从而全面还原各项量化投资模型的构建全过程与投资业绩好坏,作为他们不断优化pure alpha投资策略的重要依据。

      他指出,在量化数据中台构建过程,另一个令他们颇伤脑筋的问题,是如何搭建完善的算法平台,目前他们除了自主内部挖掘各类金融数据构建量化交易投资模型,还会引入外部算法模型提供商的某些独特投资策略。但在实际操作过程,他们发现多数算法模型提供商专注投资算法模型研发,忽视量化私募机构数据接口与风控模型的对接,导致不少外部算法投资模型“只能看不能用”;此外,当他们接入多家外部算法模型服务商后,还会发现自己缺乏统一平台进行管理,导致他们迟迟没能构建统一的运营评价体系判断孰优孰劣,令自身量化交易投资策略面临额外的投资风险。

      “我们正在尝试构建统一的算法平台,实现算法管理、算法设计、算法测试流程、算法上限流程、交易风控流程的统一,彻底解决上述痛点。”他指出。

      记者多方了解到,不少大型量化私募机构在构建量化数据中台过程,还会遇到数据存储难题——目前,绝大多数结构化数据可以通过数据库方式存储,但众多非结构化数据(包括高频海量的时序数据、研报、舆情等)却难以使用数据库方式存储。尽管越来越多量化私募机构尝试基于大数据预处理的数据湖技术——先使用NLP、机器学习等技术对非结构化数据进行清洗提炼分析,再通过预处理模块将它们纳入数据库存储,但收效未能达到预期。

      科技赋能解决方案成效几何

      面对量化私募机构的旺盛量化投研数据需求与使用痛点,券商与第三方金融数据服务商纷纷提供新型科技赋能解决方案。

      一位券商信息技术部负责人向记者透露,他们调研发现,在数据存储层面,数据格式很大程度决定了数据存储方式。因此他们正尝试对时序数据采取特殊优化的存储方式,比如列式存储或基于流处理、批处理的特殊存储方式,对海量结构化数据则采取高速文件集群或对象存储群技术进行存储,解决量化私募机构对量化投研数据存储的诸多痛点。

      在数据使用层面,数据内容则决定了数据使用方式与逻辑归类。因此他们在收集庞大量化投研数据同时,还会建立一个数据访问层,提供API、DB与各类形式文件接口,向量化私募机构提供全量的数据访问服务,协助他们将众多外部数据收集先实现业务数据化,再依托他们自身量化数据中台进行数据清理提炼,进而实现数据资产化,最终达到智能化使用量化投研数据的效果。

      “期间我们还协助他们优化统一的算法平台,尤其是算法服务商与券商的数据使用方式与数据接口实现统一,助力量化私募机构降低系统复杂度同时,令合规风控更有保障。”他指出。

      黄琪告诉记者,目前众多量化私募机构在提升量化投研能力与量化投资数据使用过程,还遇到三大痛点,一是数据多源头、体量大,结构格式分类大不相同,因此他们迫切希望能够更方便地开展多源头数据清洗处理分析;二是众多数据质量低且更新快,甚至很难发现(要么即便发现也很难纠正),令他们同样需要一整套数据质量校验体系,能够通过多维度比对判断哪些数据存在“偏颇”,迅速找到数据修复补齐路径以尽快提升数据质量;三是越来越多量化私募机构抱怨没有办法对数据开展二次加工,尤其是将有些具有投资决策参考价值的“中间指标”或“常用指标”前置到数据处理环节,从而给后端投研建模工作节省更多时间;甚至部分大型量化私募机构还希望能对数据做到便捷二次加工与离线计算,以及实时行情数据的低延时计算推送,方便投研团队与交易风控团队对行情变化做出更快的反应。

      在他看来,要解决这些数据使用痛点,金融数据服务商需在构建量化投研数据服务领域做好四件事,一是建立历史行情的数据底座并提高数据质量,二是开放历史行情的数据二次加工平台并提供数据加工能力,三是进一步对外开放服务,包括支持低码化封装的API接口,四是不断优化权限管理,支持量化私募机构按需申请数据使用权限与可视化工作等。

      黄琪直言,当前国内量化投研与量化投资对数据的服务要求之所以不断提高,是因为越来越多量化私募机构正在比拼与追逐更高的pure alpha。这无形间推动金融数据服务商必须提供更完善、省心、高性价比与标准化的量化投研数据服务,令量化投资领域的数据使用门槛不会跟随业绩目标“水涨船高”。

      (作者:陈植 编辑:曾芳)

    关键词:

    模型

    审核:yj115 编辑:yj127

    免责声明:

    1、凡本网注明“来源:***”的作品,均是转载自其他平台,本网赢家财富网 www.yjcf360.com 转载文章为个人学习、研究或者欣赏传播信息之目的,并不意味着赞同其观点或其内容的真实性已得到证实。全部作品仅代表作者本人的观点,不代表本网站赢家财富网的观点、看法及立场,文责作者自负。如因作品内容、版权和其他问题请与本站管理员联系,请在30日内进行,我们收到通知后会在3个工作日内及时进行处理。

    2.本网站刊载的各类文章、广告、访问者在本网站发表的观点,以链接形式推荐的其他网站内容,仅为提供更多信息供用户参考使用或为学习交流的方便(本网有权删除)。所提供的数据仅供参考,使用者务请核实,风险自负。

    版权属于赢家财富网,转载请注明出处
    查看更多
    • 内参
    • 股票
    • 赢家观点
    • 娱乐
    • 原创

    甘肃能化低开收上影十字星,近19日下跌5.57%

    甘肃能化目前低开,相比昨日微跌0.33%,目前自前期高点3.22,到现在3.05,已经下跌0.17元,下跌幅度5.57%,经历了19日。具体走势需要结合大盘、所属概念、个股消息,及赢...

    12月29日磷酸产业链情报

    1.12月29日磷酸产业链指数为124.3812月29日磷酸产业链指数为124.38,较昨日上升了0.08点,较周期内最高点249.96点(2021-10-07)下降了50.24%,

    徐翔妻子应莹:市场将在上证指数2882点底部确立下继续展开中级反弹行情

    徐翔妻子应莹发文称,11月全国规模以上工业企业利润连续4个月正增长,利润率好转,叠加产品去库存,提振市场对末来经济的信心。本周证监会表示将对违反限售股不得融劵等...

    节后重磅事件一览:中国12月财新制造业PMI公布;里奇蒙德联储主席巴尔金将发表…

    (原标题:节后重磅事件一览:中国12月财新制造业PMI公布;里奇蒙德联储主席巴尔金将发表讲话;超两万亿逆回购到期)1月2日至1月7日重磅财经事件一览:1、重要事件1月2日...

    早知道:2023年12月29号热点概念与题材前瞻

      上证指数目前处于短线反弹趋势中,依据赢家江恩价格工具得出:当前支撑位:2882.02点、2885.09点,当前阻力位:2986.18点、3018.56点,由赢家江恩时间周期工具展示得...

    早知道:2023年12月28号热点概念与题材前瞻荣耀新机型搭载卫星通信技术

      上证指数目前处于短线反弹趋势中,依据赢家江恩价格工具得出:当前支撑位:2882.02点、2885.09点,当前阻力位:2934.1点、3018.56点,由赢家江恩时间周期工具展示得...

    1元股票退市有哪些?什么情况下可能会被退市?

    股市有风险,但还是有很多人愿意投资股市,因为风险伴随着收益。有人说投资低价股有保障。真的是这样吗?股市是不可预测的,即使是1元的股票也会有退市,所以投资有风险...

    南北车股票跌停事件的经过,为什么南北车会跌停?

    2015年南北车股票跌停是股市的一个事件。在这场股灾中,股票合并后,南北车的股价持续下跌。