总结
使用递归和循环两种方法来完成
python环境下循环相比于递归更快,更适应极端样本情况
递归
def _ema(arr,i=None):N = len(arr) α = 2/(N+1) #平滑指数i = N-1 if i is None else iif i==0:return arr[i]else:data = 0 data += (α*arr[i]+(1-α)*EMA(arr,i-1)) #递归公式return data
循环
def _ema(arr):N = len(arr)α = 2/(N+1)data = np.zeros(len(arr))for i in range(len(data)):data[i] = arr[i] if i==0 else α*arr[i]+(1-α)*data[i-1] #从首开始循环return data[-1]
主体
def EMA(arr,period=21):data = np.full(arr.shape,np.nan)for i in range(period-1,len(arr)):data[i] = _ema(arr[i+1-period:i+1])return data
耗时
样本为900长度的numpy.array:
递归保持在2.5ms附近,循环在1ms以内
当样本达到5000时
递归超过10ms,循环5ms左右
样本
python默认递归极限为1000,若样本数超过1000,则需要调高递归极限
import syssys.setrecursionlimit(10000)
调高递归极限至10000
引用
设置递归极限/wozijisun/p/5642540.html
Pandas(1.0.1)和talib对比
总结
talib计算一维样本速度快的令人发指…但是缺点是面对多维样本只能通过循环
pandas一维下虽然速度不及talib,但是10000的长度也只插了3ms左右,而且面对多维样本可以一步到位
Talib
import talibarrdata = talib.EMA(arr,timeperiod=21)
Pandas
import pandas as pddef EMA(arr,period=21):df = pd.DataFrame(arr)return df.ewm(span=period,min_periods=period).mean()
引用
|Pandas Document|
/pandas-docs/stable/reference/api/pandas.DataFrame.ewm.html?highlight=ewma