Python Pandas, Plotly, GridDBによる株式市場分析

はじめに

株式市場は気まぐれで、よく変化します。人間は歴史の中で雄牛を飼い慣らそうとしてきたが、決して成功しなかった。株式市場の予測が難しいのは、あまりにも多くの要因が絡み合っているからであり、そのような分散を考慮したモデルを作成することはほとんど不可能です。しかし、近年の機械学習やコンピューティングの進歩により、機械が大量のデータを処理できるようになりました。これにより、過去の証券取引所のデータを利用し、トレンドを分析することができるようになります。この記事では、pythonとGridDBを活用して、Googleの過去1年間の株価データを分析します。

株価は毎日保存されます。そのため、日々の株価データは非常に大きくなります。データを保存するデータベースとして、大規模なデータセットをうまく扱えることで知られているGridDBを使用します。GridDBは、スケーラブルで信頼性が高いと同時に、高いパフォーマンスを保証します。GridDBは使いやすく、ほとんどの最新プログラミング言語で動作します。今回の記事では、pythonを使ってファンダメンタルな株価分析を行い、その結果を視覚化してみます。

フルソースコード

セットアップ

GridDBのセットアップ

GridDBのpythonクライアントのセットアップはこちらのビデオをご覧ください。始める前に、以下のエンドポイントが正しく定義されている必要があります。

export LIBRARY_PATH=$LIBRARY_PATH:/usr/share/doc/griddb-c-client [insert path to c_client]
export PYTHONPATH=$PYTHONPATH:[insert path to python_client]
export LIBRARY_PATH=$LD_LIBRARY_PATH:[insert path to c_client/bin]

Pythonライブラリ

今回の解析にはpython 3.6を使用します。ライブラリのインストールにはpipを使用します。

pip install pandas
pip install plotly

データ収集

GridDBは、データにアクセスするための優れたインターフェースを提供します。GridDB python client blogでは、GridDBデータベースをリンクし、すべてのデータをpandasのデータフレームにプッシュする方法を詳しく説明しています。ここではyahoo financeを使ってGoogle stockのデータを取得します。データは以下のサイトにあります。Yahoo! Finance 1年分のデータをGOOG.csvに保存します。

このデータをSQLクエリでGridDBに挿入・取得することができます。

データを挿入するには:

import griddb_python as griddb
import pandas as pd

# Initialize container
gridstore = factory.get_store(host= host, port=port, 
            cluster_name=cluster_name, username=uname, 
            password=pwd)

conInfo = griddb.ContainerInfo("GOOGL",
                    [["Date", griddb.Type.TIMESTAMP],
                    ["Open",griddb.Type.LONG],
                    ["High", griddb.Type.LONG],
                    ["Low",griddb.Type.LONG]
                    ["Close", griddb.Type.LONG]
                    ["Adj. Close", griddb.Type.LONG]
                    ["Volume", griddb.Type.LONG]],
                    griddb.ContainerType.COLLECTION, True)

cont = gridstore.put_container(conInfo)    
cont.create_index("Date", griddb.IndexType.DEFAULT)
data = pd.read.csv("GOOG.csv")
#Add data
for i in range(len(data)):
    ret = cont.put(data.iloc[i, :])

なお、このプロセスは、Yahoo Finacneからの定期的な問い合わせにも自動化することができます。
以下のSQLクエリを使用して、GridDBからデータを取得することができます。

query = cont.query("select * where Date > TIMESTAMPADD(YEAR, NOW(), -1)")

データ分析

pandasを使ってデータを読み込むことができます。

Import pandas as pd
googf = pd.read_csv("GOOG.csv")

これがストックデータのイメージです:

それぞれの列は以下のように解釈します:

  • Date: 取引日の日付
  • Open: Dateの最初の取引価格
  • High: Dateで取引されている株式の最高値
  • Low: Dateで取引されている株式の最低価格
  • Close: Dateの最後の取引価格
  • Adj Close: これは、すべての配当金が分割された後の終値と定義されます
  • Volume: Dateに取引された株式数

まず、そのデータを折れ線グラフで可視化します。pandasのプロット機能を使って、終値と取引量をプロットします。

googf[["Close"]].plot()

googf[["Volume"]].plot()

取引量と終値には逆の関係があることがわかります。この関係は、金融の世界ではよくあることです。株価の終値が下がった場合、人々は特定の銘柄を取引する可能性が高くなります。しかし、このデータは非常にスパイキーであることがわかります。このスパイキーさは、価格変動を導く微妙な市場の力があるからです。

次に、OHLCチャートを使ってデータを視覚化してみましょう。OLHC(open, high, low, and close)チャートは、ある日付のオープン値、ハイ値、ロー値、クローズ値を記述した金融チャートです。

水平方向のセグメントはオープン値とクローズ値を、線の先端はロー値とハイ値を表しています。閉鎖値が開放値よりも高いポイントを上昇(緑)、閉鎖値が開放値よりも低いポイントを下降(赤)と呼びます。

これをplotlyを使ってプロットしていきます。

import plotly.graph_objects as go

fig = go.Figure(data=go.Ohlc(x=googf['Date'],
        open=googf['Open'],
        high=googf['High'],
        low=googf['Low'],
        close=googf['Close']))
fig.show()

3月にgoogle株の下落があったことがわかります。さらに、赤線は後半よりも前半の方が目立っています。これは、例えばCOVIDの流行のような複数の要因が考えられます。後日の記事では、Covidのスプレッドデータを使って株価の動向を分析してみたいと思います。

次に、範囲スライダを使って3月にズームインします。

縦棒が長くなり、始値と終値の差が大きくなっていることがわかります。これは、当時の市場に大きな変動があったことを示しています。

これらのチャートは、通常のラインプロットよりもはるかに直感的です。

移動平均線

次に、移動平均を計算します。株式の移動平均は、継続的に更新される平均価格を作成しています。移動平均は、トレンドの変化を確認するために使用され、将来の予測には使用されません。

短期、中期、長期の移動平均を算出し、市場の動向を分析することができます。

  • 短期: タイムフレームは5~20日で、数日から数週間続くトレンドを見極めるために使用されます。
  • 中期: 時間枠は20~65日で、数ヶ月続くトレンドを見極めるために使用されます。
  • 長期: 時間枠は65~200日で、数年に及ぶトレンドを見極めるために使用されます。

1年分のデータしかないので、短いトレンドを見ていきます。5日、20日、50日の移動平均を計算し、それを使ってトレンドを分析していきます。

pythonで移動平均を計算するには、rolling関数を使います。

単純移動平均

N日間の単純移動平均は、N日間の終値の平均値として定義することができます。期間を1日ずらして、N個の範囲ごとに平均値を計算します。以下はそのコードです。

googf['SMA5'] = googf.Close.rolling(5).mean()
googf['SMA20'] = googf.Close.rolling(20).mean()
googf['SMA50'] = googf.Close.rolling(50).mean()

fig = go.Figure(data=[go.Ohlc(x=googf['Date'],
            open=googf['Open'],
            high=googf['High'],
            low=googf['Low'],
            close=googf['Close'], name = "OHLC"),
            go.Scatter(x=googf.Date, y=googf.SMA5, line=dict(color='orange', width=1), name="SMA5"),
            go.Scatter(x=googf.Date, y=googf.SMA20, line=dict(color='green', width=1), name="SMA20"),
            go.Scatter(x=googf.Date, y=googf.SMA50, line=dict(color='blue', width=1), name="SMA50")])
fig.show()

黄色の線は5日間の移動平均、緑の線は20日間のトレンド、青の線は50日間のトレンドを示しています。再び3月にズームインしてみましょう。3月の初めと終わりにクロスオーバーが見られます。つまり、青線が緑線を上回り、3月の終わりには再び下降しています。これは、3月の初めに市場が弱気になり、その後、再び持ち直したことを示しています。

単純移動平均は、大きな価格変動に対する反応が遅いことがあります。この効果を測るために、投資家は指数移動平均を使用します。

指数移動平均

指数移動平均は、再度平均値を計算しますが、より最近のデータを重視します。

ewm関数を使い、5日、20日、50日の指数移動平均を取得します。以下はそのコードです。


googf['EMA5'] = googf.Close.ewm(span=5, adjust=False).mean()

googf['EMA20'] = googf.Close.ewm(span=20, adjust=False).mean()

fig = go.Figure(data=[go.Ohlc(x=googf['Date'],
        open=googf['Open'],
        high=googf['High'],
        low=googf['Low'],
        close=googf['Close'], name = "OHLC"),
        go.Scatter(x=googf.Date, y=googf.EMA5, line=dict(color='orange', width=1), name="EMA5"),
        go.Scatter(x=googf.Date, y=googf.EMA20, line=dict(color='green', width=1), name="EMA20")])
fig.show()

ここでは、3月の初めと終わりに、再び同じようなダブルクロスオーバーが見られます。しかし、そのギャップはそれほど大きくありません。これは、市場のトレンドが思ったよりも安定していることを示唆しています。

移動平均は簡単に計算できますが、過去のデータに基づいているため限界があります。変動の激しい銘柄にはあまり役に立たないでしょう。

結論

この記事では、まずGridDBとpythonを使って市場のトレンド分析を行う方法を学びました。OHLPプロットと移動平均の分析を行いました。

移動平均線については、こちら

ソースコード

全ソースコードのダウンロードはこちらから

Leave a Reply

Your email address will not be published. Required fields are marked *