【深度学习】深度学习完全进阶笔记

本文最后更新于:2023年7月30日 晚上 23:21

深度学习完全进阶笔记

1 总体概览

基础模型种类和SOTA模型


1.1 机器学习

1.2 CNN

1.3 LSTM/GRU

1.4 Transformer

1.5 GNN

图神经网络(Graph Neural Networks)


GCN(Graph Convolutional Network)

GCN是一种基于图的神经网络,它通过在图的数据上进行卷积操作来学习节点之间的关系和特征。

其主要特点包括:

  1. 利用图结构进行卷积运算。GCN可以在图结构上直接进行卷积操作,充分利用节点之间的连接关系。
  2. 学习节点的表示。GCN可以学习每个节点的特征表示,通过聚合邻居节点的信息来更新每个节点的表示。
  3. 层次聚合节点信息。GCN通过多层图卷积网络层次聚合节点邻居的信息,学习节点的高阶连接信息。
  4. 可以处理不同规模和类型的图。GCN建模方式可以自然地扩展到不同规模和类型的图上。
  5. 应用广泛。GCN已在许多领域获得应用,如社交网络分析、知识图谱 completion、分子指纹学习等。

总的来说,GCN通过图卷积运算高效聚合节点邻居信息,可以有效学习图上的节点表示和结构知识,是图神经网络中重要的一类模型。


TGC(Temporal Graph Convolutional Network)

TGC 是 GCN 的一个时间图扩展版本。

TGC 的主要特点是:

  1. 可以处理动态时间图数据。TGC可以处理图结构随时间变化的动态图数据。
  2. 利用时间卷积网络。TGC利用Temporal Convolutional Network来捕获时间维度上的图模式。
  3. 学习时间依赖的节点表示。TGC可以学习每个时间步的节点表示,并建模节点表示在时间上的依赖关系。
  4. 添加时间注意力机制。TGC中可以加入时间注意力机制,让模型自动关注不同时间步的重要性。
  5. 应用包括预测链接形成、预测节点属性等。TGC可用于 Time-varying graph上的预测任务。
  6. 与GCN相比,TGC通过建模时间信息,可以更好地处理动态变化的图数据。

综上,TGC是GCN的重要扩展,可以处理时间变化的图,学习时间依赖的节点表示,在许多时间相关的图学习任务中展示了很好的效果。

TGC的提出和发展:

  1. 最初的TGC模型是在2017年由Pham等人在论文《Convolutional Neural Networks over Tree Structures for Programming Language Processing》中提出。
  2. 然后在2018年,Zhang等人在论文《GaAN: Gated Attention Networks for Learning on Large and Spatiotemporal Graphs》中提出了时空图注意力网络GaAN,这也是TGC模型的早期代表。
  3. 2019年,论文《Temporal Graph Convolutional Networks for Predicting Traffic Speed and Density》将TGC用于交通速度和密度预测。
  4. 2020年,Lei等人在论文《TGAT: Temporal Graph Attention Network for Traffic Forecasting》中提出了TGAT模型。
  5. 2021年,论文《Temporal Graph Networks for Deep Learning on Dynamic Graphs》对TGC模型做了系统总结。

综上,TGC模型最早于2017年被提出,经过几年的发展,已成为动态图学习的重要模型。主要的论文发表在ACL、IJCAI、AAAI等顶会上,是图神经网络和时序预测的重要研究方向。


1.6 强化学习

2 模式总结与SOTA汇总

2.1 模式总结

总结了一些深度学习模型构建范式


一种整体模式

2023.7.30

1 数据集选择
  • 选择高质量的数据
2 数据预处理
  • 数据清洗
  • 数据增强
3 基础模型 - 数据特征提取网络(编码器)
  • 基础特征提取模型

    有CNN、RNN、GNN、Transformer等

  • 拓展处理额外数据的模型所得到的嵌入(Embedding)

    如Texture Inversion等

  • 对模型进行微调的额外网络层

    如ControlNet、LoRA、LyCORIS、HyperNetwork、DreamBooth等

4 基础模型 - 特征映射网络(解码器)
  • 基础特征映射模型

  • 处理额外数据的模型所得到的嵌入(Embedding)

  • 对模型进行微调的额外网络层

5 强化训练模式
  • GAN
6 模型优化
  • 知识蒸馏
  • 半精度
  • 参数缩减
7 结果转化(opt.)

2.2 最新研究成果汇总(SOTA)

3 相关深度学习论文摘要

一些经典论文和最新前沿论文的摘要


FlashAttention:快速且内存高效的精确注意力机制与IO感知

FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness

FlashAttention:快速且内存高效的精确注意力机制与IO感知

发表时间:2023.07.24

在AIMiner上看 原文PDF 中文翻译PDF 打开文件夹

引言

关键点

方法

结果

结论

我的评价

⭐⭐⭐⭐⭐

相关工作


SummaryTitle

TitleInEnglish

TitleInChinese

发表时间:yyyy.mm.dd

在AIMiner上看 原文PDF 中文翻译PDF 打开文件夹

引言

关键点

方法

结果

结论

我的评价

⭐⭐⭐⭐⭐

相关工作


4 相关综述论文

相关深度学习的综述论文摘要。


Google Research:2022年Transformers变体架构综述

Efficient Transformers: A Survey

高效的Transformers: 综述

发表时间:2022.03.14

在AIMiner上看 原文PDF 中文翻译PDF 打开文件夹

知乎:Transformer 2022 最新综述 (Google Research)持续更新

引言

关键点

方法

结果

结论

我的评价

⭐⭐⭐⭐⭐

相关工作


复旦大学:2021年Transformers变体架构综述

A Survey of Transformers

Transformers综述

发表时间:2021.06.15

在AIMiner上看 原文PDF 中文翻译PDF 打开文件夹

知乎:A Survey of Transformer 一份Transformer综述

引言

关键点

方法

结果

结论

我的评价

⭐⭐⭐⭐⭐

相关工作


Google Research:2020年Transformers变体架构综述

Efficient Transformers: A Survey

高效的Transformers: 一项调查

发表时间:2020.09.16

在AIMiner上看 原文PDF 中文翻译PDF 打开文件夹

引言

关键点

方法

结果

结论

我的评价

⭐⭐⭐⭐⭐

相关工作


SummaryTitle

TitleInEnglish

TitleInChinese

发表时间:yyyy.mm.dd

在AIMiner上看 原文PDF 中文翻译PDF 打开文件夹

引言

关键点

方法

结果

结论

我的评价

⭐⭐⭐⭐⭐

相关工作


5 相关数据预处理方法

6 相关数学知识

7 相关金融知识

7.1 指标


收益率(Rate of Return)

定义:

收益率是用于衡量投资收益的指标,表示在一定时期内投资组合价值的变化率。

计算公式:

其中: - ROR - 收益率 - - 期末投资组合价值 - - 期初投资组合价值

举例:

投资者期初投资组合价值为100万元,一年后组合价值为110万元。该投资组合的年收益率为:

说明:
  • 收益率反映了资金在一定时期内的增长速度。
  • 可以计算不同时段的收益率来判断投资业绩。
  • 收益率是评价投资组合最基础的指标之一。
相关视频:

[bilibili] 量化策略绩效指标评估 |sortino|夏普比率|超额收益率|非系统性分析|系统性风险……


年化收益率(Annualized Rate of Return)

定义:

年化收益率(Annualized Rate of Return),也称为复利收益率,是投资组合在持有期内实现的平均收益率。它反映了资金在复利下的增长速度

计算公式:

其中: - - 年化收益率 - - 终值,投资在持有期结束时的价值
- - 初始投资额 - - 持有投资的时间(以年为单位)

举例:

投资者初次投资10万元购买某只股票,2年后该股票价值grew到15万元。该投资的年化收益率为:

说明:
  • 年化收益率反映复利效应下的投资收益增长率。
  • 年化收益率可用于比较不同时期长度的投资收益率。
  • 计算年化收益率时,需要注意计算期间的时间基准。
相关视频:

[bilibili] 量化策略绩效指标评估 |sortino|夏普比率|超额收益率|非系统性分析|系统性风险……


基准收益率(Benchmark Return)

定义:

基准收益率是用于评估投资组合表现的标准收益率。它代表了一个基准投资在特定时期内的收益率。

计算公式:

其中: - - 基准收益率 - - 基准在期末的价值 - - 基准在期初的价值

举例:

某基准指数在期初为1000点,期末上涨到1200点。该基准的收益率为:

说明:
  • 基准收益率反映了基准资产在特定时期内的表现。
  • 投资组合的收益率与基准收益率进行比较,可以判断投资业绩。
  • 选择适当的基准收益率对比是评价投资组合的关键。
相关视频:

超额收益率(Excess Return)

定义:

超额收益率是投资组合的实际收益率减去基准收益率后得到的差额。它反映了投资组合相对于基准的表现。

计算公式:

其中:

  • - 超额收益率
  • - 投资组合的收益率
  • - 基准收益率
举例:

某投资组合过去一年的收益率为18%,同期基准收益率为12%。该投资组合的超额收益率为:

说明:
  • 超额收益率度量了投资组合相对于基准的表现。

  • 正的超额收益率表示投资组合收益率高于基准收益率。

  • 超额收益率是评价投资管理能力的重要指标。

相关视频:

[bilibili] 量化策略绩效指标评估 |sortino|夏普比率|超额收益率|非系统性分析|系统性风险……


收益波动率(Return Volatility)

定义:

收益波动率是用于衡量投资收益风险的指标,表示投资收益率的波动或变化程度。

计算公式:

其中: - - 收益率标准差,代表收益波动率
- - 第i期的收益率 - - n期收益率的平均值 - n - 期数

举例:

过去一年中,投资组合的月收益率分别为2%、5%、-3%、4%、1%。该投资组合的收益波动率为:

说明:
  • 收益波动率越高,表明投资风险越大。

  • 合理的收益波动率取决于投资者的风险偏好。

  • 与基准收益率波动率对比可以判断投资风险程度。

相关视频:

[bilibili] 量化策略绩效指标评估 |sortino|夏普比率|超额收益率|非系统性分析|系统性风险……


夏普比率(Sharpe Ratio)

定义:

夏普比率(Sharpe Ratio)是一种金融指标,用于衡量投资组合或资产的风险调整收益率。

用于度量每承担一单位的风险所获得的超额报酬(相对无风险资产)。

计算公式:

其中:

  • 是投资组合或资产的预期收益率。
  • 是无风险利率,通常使用短期国债收益率来代表,因为它被认为是无风险投资的收益率。
  • 是投资组合或资产的标准差(收益波动率),代表其波动性(风险)。
举例:

假如国债的回报是4%,而您的投资组合预期回报是16%,您的投资组合的标准差(收益波动率)是6%。 那么用16%-4%可以得出12%(代表您超出无风险投资的回报),再用12%÷6%=2,代表投资者风险每增长1%,换来的是2%的多余收益。

说明:
  • 该比率是由美国经济学家威廉·夏普(William F. Sharpe)于1966年提出的,因而得名。
  • 夏普比率主要用于评估投资组合或资产的表现,考虑了投资的风险水平。它衡量的不仅仅是收益率的高低,还考虑了投资的波动性(风险)。夏普比率越高,表示每承担一单位的风险,可以获得更高的超额收益。
  • 夏普比率的数值越高,意味着每单位风险获得的超额收益越高,这被认为是更好的表现。因此,投资者可以利用夏普比率来比较不同投资组合或资产的表现,并选择那些风险调整收益率较高的投资。
  • 需要注意的是,夏普比率有其局限性,它假设收益率服从正态分布,而市场中的实际收益率可能不服从这种分布。此外,该指标只考虑了投资的波动性风险,而忽略了其他可能的风险因素。因此,在使用夏普比率时,投资者应该结合其他指标和风险管理方法来做出更全面的投资决策。
相关视频:

[bilibili] 量化策略绩效指标评估 |sortino|夏普比率|超额收益率|非系统性分析|系统性风险……


ChineseTitle(EnglishTitle)

定义:
计算公式:

其中:

举例:
说明:
相关视频:

7.2 一些金融深度学习idea


基于LSTM模型的智能选股策略

img
如图所示,LSTM选股策略构建包含下列步骤:
  • 获取数据 :A股所有股票。
  • 特征和标签提取 :计算7个因子作为样本特征;计算5日个股收益率,极值处理
  • 特征预处理 :进行缺失值处理;去掉特征异常的股票,比如某个特征值高于99.5%或低于0.5%的;标准化处理,去除特征量纲/数量级差异的影响。
  • 序列窗口滚动 :窗口大小设置为5,滚动切割。这里的意思是使用过去5天的因子数据作为输入。窗口大小可调整,在“序列窗口滚动”模块中进行。
  • 搭建LSTM模型 :构建两个隐含层的LSTM长短期记忆神经网络预测股票收益率(回归模型)。在可视化策略中表现为1个输入层;一个LSTM和一个全连接层作为隐藏层,每构建一层进行dropout断开一些神经元防止过拟合;最后一个全连接层作为输出层(输出维度调整为1)。
  • 模型训练与预测 :使用LSTM模型进行训练和预测;可以尝试多种激活函数,策略默认为tanh。
  • 策略回测 :利用2010到2016年数据进行训练,预测2016到2019年的股票表现。每日买入预测排名最靠前的30只股票,至少持有5日,同时淘汰排名靠后的股票。具体而言,预测排名越靠前,分配到的资金越多且最大资金占用比例不超过20%;初始5日平均分配资金,之后,尽量使用剩余资金(这里设置最多用等量的1.5倍)。
  • 模型评价 :查看模型回测结果。
LSTM模型的参数如下:
  • 输入数据:7个因子,使用了过去5天的因子数据,因此输入7*5的一个矩阵。

    img
  • LSTM层:激活函数采用tanh,recurrent激活函数采用hard_sigmoid。循环核初始化方法Orthogonal,权值使用glorot_uniform初始化方法,偏置向量使用Zeros初始化方法。

  • 全连接层:激活函数tanh。权重使用glorot_uniform初始化方法,偏置向量使用Zeros初始化方法。

  • 输出层:最后一个全连接层。需要选择“输出空间维度”为1,因为要得到个股的收益率预测结果,这是一个值。

    img
  • dropout:0.2。在不同隐藏层之间使用dropout可以让网络更耐用并且避免过拟合。

  • 训练次数率:epochs值为5,共训练5轮,以mae作为评估指标。

  • 优化器:RMSProp。

  • 损失函数:均方误差MSE。

PS:一些补充内容(来自Claude):

k 日收益率的计算方法如下:

其中:

  • - k日收益率
  • - 第t+k日的收盘价格
  • - 第t日的收盘价格

对于收益率的极值处理,可以采用如下方法:

  1. 计算收益率的平均值和标准差

  2. 对于高于的极大值,替换为

  3. 对于低于的极小值,替换为

这种替换法可以减小异常值对模型的影响,使得特征更稳定。也可以考虑使用winsor化方法来处理极值。

Winsor化方法

Winsor化是一种常见的处理极值的方法,主要步骤如下:

  1. 对样本数据进行排序

  2. 设定上下百分位截断点,例如上5%和下5%

  3. 将上5%的数据替换为95%分位数的值

  4. 将下5%的数据替换为5%分位数的值

  5. 中间90%的数据保持不变

这样通过截断极端值来减少异常数据的影响,使得特征分布更加稳定。

举个例子,对以下收益率数据进行Winsor化处理:

原数据:[-5%, 1%, 6%, -2%, 4%, 15%, 3%, 10%, -4%, 2%]

排序后:[15%, 10%, 6%, 4%, 3%, 2%, 2%, 1%, -2%, -4%, -5%]

设定上下5%分位数截断,则:

Winsor化后:[6%, 6%, 6%, 4%, 3%, 2%, 2%, 1%, -2%, -2%, -2%]

Winsor化的参数也可以根据实际情况进行调整,如10%或20%分位数截断等。这个方法可以有效控制异常值对模型的影响。

Summary:

⭐⭐⭐⭐

通过所有股票的未来可能的盈利率进行排序来选择购入股票,是一种不错的idea,可以进行多品种交易。

但是这种方法固定了持有时长,实际上要是变长持有或许会更好,但是更加复杂。

某种想法:

  • 对所有股票的5、10、15、30、60天盈利率(或者更加细粒度)进行预测,然后根据日均盈利率(或者其他更好描述每日涨幅的指标)的排名来进行选股,这样达到了一定的变长持有的效果。这样做可能需要训练多个模型,并行推理。

8 相关金融深度学习模型

整理一些相关的金融深度学习模型。


FinBERT-LSTM:基于深度学习的新闻情绪分析股价预测

FinBERT-LSTM: Deep Learning based stock price prediction using News Sentiment Analysis

FinBERT-LSTM:使用新闻情绪分析进行基于深度学习的股价预测

发表时间:2022.11.11

在AIMiner上看 原文PDF 中文翻译PDF 打开文件夹

引言

  1. 提出FinBERT-LSTM模型,该模型整合了FinBERT新闻文章情绪,通过分析短期市场信息更准确地预测股票价格。
  2. 使用NASDAQ-100指数股票数据和《纽约时报》新闻文章来训练模型,并通过平均绝对误差(MAE)、平均绝对百分比误差(MAPE)和准确性指标评估了MLP、LSTM、FinBERT-LSTM模型的性能。

关键点

FinBERT-LSTM模型,该模型整合了新闻文章情绪,通过分析短期市场信息更准确地预测股票价格。

方法

引入FinBERT和LSTM,用10天数据预测第11天

结果

FinBERT-LSTM 模型在股票价格预测方面表现优异,相较于传统的 LSTM 模型,FinBERT-LSTM 模型取得了 3.2424% MAPE 和 0.0479% 的准确性提升。加入新闻情感分析帮助模型更好地识别股票走势。实验和测试结果显示,FinBERT-LSTM 模型在纳斯达克 100 指数上的表现优于所有其他模型。

结论

添加新闻情感到训练数据可以帮助模型更好地学习股票市场走势,从而做出更稳健的预测。

我的评价

⭐⭐⭐

提供了一种Embedding思路。

相关工作

FinBERT


RSR 关系股票排名:Temporal Relational Ranking for Stock Prediction

Temporal Relational Ranking for Stock Prediction.

股票预测的时间关系排名

发表时间:2019.01.19

在AIMiner上看 原文PDF 中文翻译PDF 打开文件夹

引言

大多数现有的深度学习解决方案并没有针对投资目标进行优化,即选择预期收益最高的最佳股票。具体来说,他们通常将股票预测表述为分类(预测股票趋势)或回归问题(预测股票价格)。更重要的是,他们将股票视为彼此独立的。实际上股票(或公司)之间的丰富关系中的有价值的信号,例如两只股票属于同一板块以及两家公司具有供应商-客户关系,没有被考虑。

方法

  • 通过LSTM获取股票t日的顺序嵌入
  • 对股票关系进行建模(同行业、同部门、同板块、上下游、供应链),并通过多热向量的时间感知关系强度函数进行图权重调整。调整后的多热向量通过时序图卷积获得关系嵌入
  • 对顺序嵌入和关系嵌入进行concat,传入全连接层得到未来1日盈利率
  • 通过预测的未来1日盈利率对股票进行排序,选取排名Top1、5、10的股票(三种策略)进行买入,第二日卖出
架构
image-20230730174227439

关键点

  • 使用了股票之间的关系Embedding对时序信息进行增强或修正,捕捉相似股票之间的变化相同性,使得预测结果更加准确。
  • 创新性地使用TGC(Temporal Graph Convolution)(对比GCN)

结果

性能优于最先进的股票预测解决方案,在纽约证券交易所和纳斯达克分别实现了 98% 和 71% 的平均回报率。

我的评价

⭐⭐⭐⭐⭐

不错的idea!基本思路就是用额外的嵌入层来修正或者是规范化时序信息,类似的思路还有用FinBert获取新闻信息作为嵌入来修正时序信息。

这属于是Embedding派。

对于当时使用的TGC,在现在(2023)来说加入Attention可能是更好的选择,这也是一种改进思路。

相关工作

文章实现代码以及数据集github上的仓库

状态频率记忆(SFM)网络

图卷积网络(GCN)

时序图卷积(TGC)


STHAN-SR 时空超图注意力网络选股

Stock Selection Via Spatiotemporal Hypergraph Attention Network: A Learning To Rank Approach

通过时空超图注意力网络进行股票选择:一种学习排序方法

发表时间:2021.06.02

在AIMiner上看 原文PDF 中文翻译PDF 打开文件夹

引言

关键点

方法

结果

结论

我的评价

⭐⭐⭐⭐⭐

相关工作


SummaryTitle

TitleInEnglish

TitleInChinese

发表时间:yyyy.mm.dd

在AIMiner上看 原文PDF 中文翻译PDF 打开文件夹

引言

关键点

方法

结果

结论

我的评价

⭐⭐⭐⭐⭐

相关工作


SummaryTitle

TitleInEnglish

TitleInChinese

发表时间:yyyy.mm.dd

在AIMiner上看 原文PDF 中文翻译PDF 打开文件夹

引言

关键点

方法

结果

结论

我的评价

⭐⭐⭐⭐⭐

相关工作


9 相关资源内容

整理深度学习进阶的知识获取途径。


AIMiner

​ AMiner(https://www.aminer.cn/)是由清华大学计算机科学与技术系教授唐杰率领团队建立的,具有完全自主知识产权的新一代科技情报分析与挖掘平台。AMiner自2006年上线,吸引了全球220个国家和地区的800多万独立IP访问,数据下载量230万次,年度访问量超过1000万,成为学术搜索和社会网络挖掘研究的重要数据和实验平台。AMiner平台以科研人员、科技文献、学术活动三大类数据为基础,构建三者之间的关联关系,深入分析挖掘,面向全球科研机构及相关工作人员,提供学者、论文文献等学术信息资源检索,以及多种专业知识服务,包括学者档案管理及分析挖掘、专家学者搜素及推荐、技术发展趋势分析、全球学者分布地图、全球学者迁徙图等。AMiner的科研数据包含3.31亿论文信息、1.35亿学者信息,11.22亿论文引用关系以及879万知识实体(截止至2022年2月9日)。

—— 来自知乎介绍文章:AMiner:新一代科技情报分析与挖掘平台


ChatPaper

学术GPT网页测试版

[Bilibili] ChatPaper上线最好的arXiv论文翻译功能!

支持论文全文翻译


金融时间序列分析讲义

2023.07.30 本地网页存档

本书为北京大学数学科学学院金融数学系金融数学应用硕士《金融时间序列分析》授课备课资料。

课程采用Ruey S. Tsay的《金融数据分析导论:基于R语言》 (An Introduction to Analysis of Financial Data with R)作为主要教材之一。

内容

  • R软件的时间序列相关的功能介绍, Rmd格式介绍
  • 收益率,债券,波动率,金融数据示例,收益率分布性质,金融数据可视化,统计分布复习
  • 线性时间序列:款平稳,自相关系数函数,ACF的白噪声检验, AR, 偏相关系数,定阶与参数估计,预测,MA, ARMA, ARIMA,单位根过程,单位根检验, 指数平滑方法,季节模型, 回归模型的序列相关误差项,协整, 长记忆模型,模型比较与模型平均 线性时间序列的案例研究
  • 资产波动率,ARCH效应,ARCH模型,GARCH模型,IGARCH模型, GARCH-M模型,EGARCH模型, TGARCH模型, APARCH模型, 非对称GARCH模型,随机波动率模型 波动率模型案例研究
  • 多元时间序列的基础知识和VAR模型, 协整和协整检验,格兰格因果性

慕课教程 - 百科

涵盖:

  • 前端开发

    • JavaScript:

      • JavaScript 入门教程、TypeScript 入门教程、Vue 入门教程、Ajax 入门教程、ES6-10 入门教程、Yarn 入门教程、ECharts 入门教程
    • HTML & CSS

      • CSS3 入门教程、雪碧图入门教程、移动端布局教程、Html5 入门教程、Sass 入门教程、HTML 入门教程、canvas 入门教程、uni-app 入门教程
  • 服务端相关

    • 服务器

      • Nginx 入门教程、HTTP 入门教程、Docker 入门教程、Shell 入门教程、Linux 入门教程
    • 开发工具

      • Gradle 入门教程、Vim 编辑器教程、RESTful 规范教程、Dreamweaver 教程、Markdown 入门教程、Maven 入门教程、Eclipse 编辑器教程、GitHub 入门教程、Android Studio 编辑器教程、PyCharm 编辑器教程、Sublime Text 使用教程、Postman 教程、Git入门教程
    • 热门服务端语言

      • C 语言入门教程、Go 入门教程、Kotlin 教程、Ruby 入门教程、ThinkPHP 入门教程
  • Java

    • 基础应用

      • Java 入门教程、Android 入门教程、算法入门教程、数据结构入门教程、Lambda 表达式教程、Java 并发原理入门教程、设计模式入门教程、Java并发工具、JVM 入门教程、RabbitMQ 入门教程、网络编程入门教程、后端通用面试教程
    • 框架应用

      • Spring Boot 入门教程、Spring 入门教程、Hibernate 入门教程、MyBatis 入门教程、Spring MVC 入门教程、Swagger 入门教程、Zookeeper 入门教程、Netty 教程、Spring Security
    • 微服务

      • Spring Cloud Hystrix
  • Python

    • 基础应用

      • Python 入门语法教程、Python 原生爬虫教程、Python 进阶应用教程、Python 算法入门教程
    • 进阶方向应用

      • Django 入门教程、Flask 框架教程、NumPy 入门教程、Scrapy 入门教程、TensorFlow 入门教程、Python 办公自动化教程、Pandas 入门教程
  • 数据库

    • MySQL

      • MySQL 入门教程、SQL 入门教程、MySQL 进阶教程

10 待阅读论文临时存放处

这里是没有分类和进行阅读的论文,即将进行深入分析。

10.1 深度学习研究论文


Title

在Web of Science上看 原文PDF 打开文件夹


10.2 深度学习综述论文


Title

在Web of Science上看 原文PDF 打开文件夹


10.3 深度学习在金融中的应用论文


利用深度Transformer模型进行股票市场指数预测

Stock market index prediction using deep Transformer model

在Web of Science上看 原文PDF 打开文件夹


基于神经分层多标签文本分类的投资决策金融事件检测

F-HMTC: Detecting Financial Events for Investment Decisions Based on Neural Hierarchical Multi-Label Text Classification

在Web of Science上看 原文PDF 打开文件夹


BERT用于股票市场情绪分析

BERT for Stock Market Sentiment Analysis

在Web of Science上看 原文PDF 打开文件夹


使用Stocktwits数据进行文本挖掘以预测股票价格

Text Mining of Stocktwits Data for Predicting Stock Prices

在Web of Science上看 原文PDF 打开文件夹


基于分层Transformer的多任务学习用于波动率预测

HTML: Hierarchical Transformer-based Multi-task Learning for Volatility Prediction

在Web of Science上看 原文PDF 打开文件夹


一种基于自适应时间编码机制的Transformer,用于多源异构信息融合的投资组合管理:以中国A50股票为例

T2V_TF: An adaptive timing encoding mechanism based Transformer with multi-source heterogeneous information fusion for portfolio management: A case of the Chinese A50 stocks

在Web of Science上看 原文PDF 打开文件夹


AlBERTino用于股票价格预测:一种Gibbs采样方法

AlBERTino for stock price prediction: a Gibbs sampling approach

在Web of Science上看 原文PDF 打开文件夹


基于频率分解的GRU Transformer神经网络的股票价格预测

Stock Price Prediction Using a Frequency Decomposition Based GRU Transformer Neural Network

在Web of Science上看 原文PDF 打开文件夹


学习知识丰富的公司嵌入用于投资管理

Learning Knowledge-Enriched Company Embeddings for Investment Management

在Web of Science上看 原文PDF 打开文件夹


在线新闻和异构网络的投资与风险管理

Investment and Risk Management with Online News and Heterogeneous Networks

在Web of Science上看 原文PDF 打开文件夹


利用Transformer模型进行StockTwits情感分析

Sentiment Analysis of StockTwits Using Transformer Models

在Web of Science上看 原文PDF 打开文件夹


相似性嵌入时间Transformer:通过历史相似趋势增强股票预测

在Web of Science上看 原文PDF 打开文件夹


基于Transformer和U-Net框架的深度强化学习用于股票交易

Deep reinforcement learning based on transformer and U-Net framework for stock trading

在Web of Science上看 原文PDF 打开文件夹


基于Transformer的深度学习模型用于股票价格预测:孟加拉国股票市场案例研究

Transformer-Based Deep Learning Model for Stock Price Prediction: A Case Study on Bangladesh Stock Market

在Web of Science上看 原文PDF 打开文件夹


基于时间融合Transformer的股票价格预测

Stock Price Prediction Based on Temporal Fusion Transformer

在Web of Science上看 原文PDF 打开文件夹


多模态融合Transformer用于宏观经济指标对股票方向分类的有效利用

Effective Exploitation of Macroeconomic Indicators for Stock Direction Classification Using the Multimodal Fusion Transformer

在Web of Science上看 原文PDF 打开文件夹


分层多尺度高斯Transformer用于股票运动预测

Hierarchical Multi-Scale Gaussian Transformer for Stock Movement Prediction

在Web of Science上看 原文PDF 打开文件夹


利用深度学习进行外汇和股票价格预测的综述

A Survey of Forex and Stock Price Prediction Using Deep Learning

在Web of Science上看 原文PDF 打开文件夹


利用深度学习技术构建股票价格预测的集成方案

Construction of an Ensemble Scheme for Stock Price Prediction Using Deep Learning Techniques

在Web of Science上看 原文PDF 打开文件夹


基于BANKEX数据的深度学习模型在股票价格预测中的适用性:实证研究

Applicability of Deep Learning Models for Stock Price Forecasting An Empirical Study on BANKEX Data

在Web of Science上看 原文PDF 打开文件夹


利用深度学习集成进行股票价格预测

Stock Price Prediction Using Deep Learning Ensemble

在Web of Science上看 原文PDF 打开文件夹


使用CRNN结构和LSTM进行股价趋势预测

Share Price Trend Prediction Using CRNN with LSTM Structure

在Web of Science上看 原文PDF 打开文件夹


基于Bi-LSTM和GRU的混合深度学习方法进行股票价格预测

Stock Price Prediction Using Bi-LSTM and GRU-Based Hybrid Deep Learning Approach

在Web of Science上看 原文PDF 打开文件夹


利用深度学习增强的股票价格聚类预测

Clustering-enhanced stock price prediction using deep learning

在Web of Science上看 原文PDF 打开文件夹


深度学习用于股票价格预测的对比研究

Stock Price Forecasting with Deep Learning: A Comparative Study

在Web of Science上看 原文PDF 打开文件夹


基于RNN变体的股票价格预测回顾期分析:尼泊尔证券交易所银行业的案例研究

Analysis of look back period for stock price prediction with RNN variants: A case study on banking sector of NEPSE

在Web of Science上看 原文PDF 打开文件夹


面向事件驱动的股票预测的深度学习方法

Deep Learning for Event-Driven Stock Prediction

在Web of Science上看 原文PDF 打开文件夹


利用堆叠自编码器和长短期记忆网络的金融时间序列深度学习框架

A deep learning framework for financial time series using stacked autoencoders and long-short term memory

在Web of Science上看 原文PDF 打开文件夹


金融市场预测的长短期记忆网络深度学习

Deep learning with long short-term memory networks for financial market predictions

在Web of Science上看 原文PDF 打开文件夹


Title

在Web of Science上看 原文PDF 打开文件夹


Title

在Web of Science上看 原文PDF 打开文件夹


Title

在Web of Science上看 原文PDF 打开文件夹


Title

在Web of Science上看 原文PDF 打开文件夹


11 等待查询的内容

这里的内容来自各种地方,随时随地观察到的、注意到的感兴趣的内容都会放在这里!


Claude:深度学习金融SOTA模型

Qalxry
请你提出有关金融市场中深度学习目前最为先进的模型

Claude:

对于金融市场,深度学习当前最先进的模型主要有以下几类:

  1. 基于卷积神经网络(CNN)的模型:利用CNN提取金融时间序列中的局部特征和全局特征,并用于预测股票价格、市场趋势等。例如Temporal Convolutional Network (TCN)。

  2. 基于循环神经网络(RNN)的模型:利用RNN模型历史序列信息,处理金融时间序列问题。例如长短期记忆网络(LSTM)、门控循环单元(GRU) commonly used.

  3. 注意力机制模型:加入了注意力机制的RNN模型,可以关注金融时间序列的关键部分。例如带Attention的LSTM/GRU模型。

  4. 图神经网络(GNN):通过建模金融市场参与者之间的关系,进行股票/市场预测。例如GCN,GAT等。

  5. 强化学习模型:将金融交易建模为标杆环境,以实现最优投资组合等。例如A2C、DDPG等算法。

  6. Transformer类模型:利用自注意力机制有效模型长期依赖。例如时间嵌入的Transformer,可以处理金融序列数据。

  7. 多模态模型:融合文本、图结构、时间序列等不同模式数据,提高了金融预测的效果。

  8. 生成对抗网络(GAN):利用GAN的生成过程进行金融序列的模拟,辅助预测。

随着深度学习在金融界的广泛应用,相信会有更多创新型模型应运而生。但 Transformer类模型目前看来是较为前沿和普适的选择。

Qalxry
你知道在这个领域上(金融市场中深度学习)的最有名的模型吗(最好是最近5年内的)

Claude:

是的,最近5年来,在金融市场深度学习领域比较有名和前沿的模型有:

  1. Transformer - 最近几年非常热门的自注意力机制模型,被广泛应用到时序数据预测,如股票价格预测。代表性工作如Similarity Embedded Temporal Transformer (SETT)。
  2. BERT - Google推出的语言模型BERT也被应用到金融文本情感分析等任务上,表现不错。例如FinBERT就是针对金融领域做了预训练的BERT模型。
  3. Graph Neural Networks (GNN) - 利用图网络建模金融市场,进行股价预测。典型的工作如Graph Attention Networks for Stock Price Prediction等。
  4. Deep Reinforcement Learning (DRL) - DRL让机器可以像人类交易员那样通过试错进行自动化交易。例如基于A2C、PPO的算法。
  5. TCN - 利用一维卷积网络提取金融序列的临近关联特征。例如在高频交易算法中广泛使用。
  6. LSTM/GRU - 传统RNN模型,但由于能够捕捉长时依赖性,在金融预测中仍大量被使用。
  7. Wavenet - Google提出的生成模型,使用于模拟连续金融时间序列。
  8. GAN - 对抗生成网络,能够对数据分布进行建模,然后生成更真实的样本。用于金融数据的模拟。

上述模型都取得了不错的实际效果,使得深度学习在金融预测和投资决策中越来越重要。

Qalxry
继续,还有更加sota的模型吗

Claude:

好的,除了之前提到的模型,近年来金融领域深度学习中也出现了一些更前沿的模型和方向:

  1. Temporal Fusion Transformer (TFT) - 一种集成注意力机制与卷积网络的Transformer模型,专门用于处理时间序列,在金融预测任务中表现突出。
  2. Informer - 全称“Inference-Dimension Reduction-Information Accumulator”,使用注意力机制的Transformer模型,在时间序列预测效果优于传统RNN。
  3. Flow Models - 利用正常分布的流模型(Normalizing Flows)对金融时间序列建模,可以更好地刻画其分布,广泛用于量化交易。
  4. Deep Calendar Networks - 将日历信息融入深度学习模型中,这类模型在进行金融时间序列建模时,考虑了日期的辅助信息。
  5. Capsule Networks - 利用胶囊网络学习金融数据的层次关系,进行股票或加密货币价格预测。
  6. Federated Learning - 在保护用户隐私和数据权限的前提下,进行分布式协作式的金融模型训练。
  7. Automated Machine Learning - 使用AutoML自动搜索适用于金融预测任务的网络结构、超参数等。
  8. Knowledge Graphs - 构建包含实体关系的金融知识图谱,增强模型对市场的理解。

以上是一些近年来在金融领域较为前沿的深度学习模型和技术方向。这是一个快速发展和创新的领域,相信未来会有更多突破。


斐波那契数列在位置嵌入和多层LSTM周期选择的应用

Qalxry
位置嵌入可不可以使用斐波那契数列的某种形式?

Claude

可以,位置嵌入(Positional Embedding)可以考虑使用斐波那契数列的某种形式。

将斐波那契数列应用于位置嵌入的基本思想是:

  1. 斐波那契数列具有一定的周期规律,可以映射到循环的序列位置上。
  2. 斐波那契数列中的数值大小组合丰富,有利于学习不同位置的特征。
  3. 斐波那契数列自然具有一定距离和缩放不变性。

常见的斐波那契位置嵌入方法包括:

  • 直接取斐波那契数列的某一段作为位置索引的嵌入向量。
  • 将位置索引映射到斐波那契数列中,取对应元素值作为嵌入值。
  • 将位置索引映射到周期性的三角函数sin/cos中,频率采用斐波那契数列。
  • 在位置嵌入矩阵初始化时参考斐波那契数列的数值分布。

相比标准位置编码,斐波那契位置编码可以提供更丰富的位置信息,一定程度上改善位置表示的学习。已有一些论文报告采用斐波那契数列的位置编码取得改进。但其效果也取决于具体任务,还需要进一步验证其普适性。

Qalxry
请举出有关论文

Claude

这里举几篇探索将斐波那契数列应用到位置编码的相关论文:

[1] Fibonacci Embedding for Sequence Learning - 将位置索引映射到斐波那契数列中作为嵌入值

[2] Fibonacci Representations for Sequence Classification - 将斐波那契数列在时间和频率上进行编码作为位置表示

[3] FermiDirac Embeddings for Text Classification - 将位置映射到Fermi-Dirac分布中取得更好的数据分布

[4] Fiboformer: Fibonacci Sequence Transformer - 在Transformer的位置编码中使用斐波那契数列

[5] Fibonacci Coding for Universal Sentence Representations - 利用斐波那契编码获得更稀疏和可分辨的句子表示

这些论文探索了不同的方式将斐波那契数列应用到NLP任务的位置表示中,取得了一定的效果提升, 展示了这种编码方式的潜力。但其普适性还需进一步验证。

Qalxry
在多层LSTM中,不同周期的层按照斐波那契数列确定周期

Claude

您提出了一个很有意思的设计,在多层LSTM中使用斐波那契数列来确定不同层的循环周期长度。

具体来说,可以考虑以下实现方式:

  1. 设置LSTM的层数,例如总共3层。
  2. 每层LSTM的循环周期长度分别为:1, 1, 2, 3, 5, 8,...依次取斐波那契数列。
  3. 对于我们的3层LSTM,周期长度设置为:
  • 第1层:周期长度为1
  • 第2层:周期长度为1
  • 第3层:周期长度为2
  1. 在训练时,每层LSTM按照自己的周期长度进行循环计算。
  2. 循环计算得到的隐状态进行堆叠或者融合,作为该时间步的输出状态。

这种设计的理论依据是,不同的斐波那契周期长度可以捕捉文本中不同粒度的循环模式。高层可以模拟更长周期的循环规律。

具体效果还需要实验验证,但理论上讲这种模拟自然周期规律的循环网络设计是非常有意义和有趣的。希望对您的研究工作提供一些参考。

Qalxry
有这样的论文吗

Claude

您提出的使用斐波那契数列确定LSTM层周期长度的方法非常创新和有趣。我搜索了相关文献,目前还没有看到直接采用这一设计的论文。

但我发现一些类似的工作,也可为这种设计提供一些参考:

  1. 周期序列建模:
  • CycleRNN:基于循环的方法捕捉周期趋势
  • Cyclical Stochastic Gradient MCMC:周期性随机梯度下降

他们致力于模拟时间序列中的循环周期规律。

  1. 层次循环网络:
  • Clockwork RNN:不同层RNN具有不同时钟周期
  • Hierarchical Multiscale Recurrent Neural Network:多时间尺度RNN

采用层次RNN结构来学习多尺度时序模式。

  1. 斐波那契数列应用:
  • Fibonacci Sequence Transformer: 在Transformer中用斐波那契数列设计位置编码

综上,这个创新设计可以借鉴已有周期序列学习和层次RNN的经验,并有潜力进一步提升性能。如果实现并验证了这种设计,发表论文会是非常有价值的工作。


金融数学应用硕士课程

复旦大学数学科学学院金融学(专业学位) 项目简介
  • 第一学期:应用概率统计、精算学概论、数值计算与方法、金融衍生工具、随机分析引论等;
  • 第二学期:金融数学基础、利息理论、运筹学基础、寿险精算与实务等;
  • 第三学期:金融统计方法、微分方程数值解、数学与统计软件、博弈论、经济数学模型、时间序列分析,学位论文开题及实践等
  • 第四学期:其它感兴趣的数学与经济学选修课,以及学位论文撰写、评审和答辩。

12 灵感记录集

这是我的灵感,我的创想。


一种多模型结合的编码器

对于时序信息,通过3种并行的方式来捕捉特征:CNN、RNN、Attention。

CNN可处理局部特征,RNN可处理连续性的长特征或周期特征,Attention可通过注意力来捕捉全局特征。

  • CNN可以用多种卷积核以及多种不同的改进性卷积方式(具有多跨度的卷积等)
  • RNN可以根据斐波那契数列对1、2、3、5、8......跨度进行不同的循环。
  • Attention可以应用多头、改进的注意力方式等各种方法。

这三种方式都要有一定的深度,以保证可以拟合复杂的特征函数。

对于3种方式得到的Embedding,可以进行Concatenate,这样就包含了各种特征的信息。

然后进行压缩,使特征更精简。


Title

xxx



【深度学习】深度学习完全进阶笔记
https://qalxry.github.io/2023/07/29/【深度学习】深度学习完全进阶笔记/
作者
しずり雪
发布于
2023年7月29日
更新于
2023年7月30日
许可协议