About this doc

- 이 문서는 공식홈페이지의 예제와 최서연학생의 블로그 내용을 재구성하여 만듬

- 이 문서의 목표는 아래와 같다.

  • STGCN을 사용할 수 있는 데이터의 형태를 탐구한다.
  • STGCN을 실습할 코드를 확보한다.

- 코랩에서 실습하기 위해서는 아래를 설치해야한다.

!pip install torch-geometric
!pip install torch-geometric-temporal


참고: torch 를 기반으로 PyG1이 만들어 졌고 PyG를 기반으로 PyTorch Geometric Temporal2가 만들어짐.


- 필요한 패키지 임포트

# 일반적인 모듈 
import numpy as np
import matplotlib.pyplot as plt 
import networkx as nx 
from tqdm import tqdm 

# 파이토치 관련 
import torch
import torch.nn.functional as F

# PyG 관련 
from torch_geometric.data import Data

# STGCN 관련 
import torch_geometric_temporal
from torch_geometric_temporal.nn.recurrent import GConvGRU
from torch_geometric_temporal.signal import temporal_signal_split 
  • tdqm: for문의 진행상태를 확인하기 위한 패키지
  • networkx: 그래프 시그널 시각화를 위한 모듈
  • torch: 파이토치 (STGCN은 파이토치 기반으로 만들어짐) 모듈
  • torch.nn.functional: relu 등의 활성화함수를 불러오기 위한 모듈
  • Data: 그래프자료를 만들기 위한 클래스
  • GConvGRU: STGCN layer를 만드는 클래스
  • temporal_signal_split: STGCN dataset 을 train/test 형태로 분리하는 기능이 있는 “함수”

- STGCN의 학습을 위한 클래스선언

class RecurrentGCN(torch.nn.Module):
    def __init__(self, node_features, filters):
        super(RecurrentGCN, self).__init__()
        self.recurrent = GConvGRU(node_features, filters, 2)
        self.linear = torch.nn.Linear(filters, 1)

    def forward(self, x, edge_index, edge_weight):
        h = self.recurrent(x, edge_index, edge_weight)
        h = F.relu(h)
        h = self.linear(h)
        return h

notaions ofr STGCN

- 시계열: each \(t\) 에 대한 observation이 하나의 값 (혹은 벡터)

  • 자료: \(X(t)\) for \(t=1,2,\dots,T\)

- STGCN setting에서는 each \(t\) 에 대한 observation이 graph

  • 자료: \(X(v,t)\) for \(t=1,2,\dots,T\) and \(v \in V\)
  • 주의: 이 포스트에서는 \(X(v,t)\)\(f(v,t)\) 로 표현할 때가 있음

dataset, dataloaders

PyG 의 Data 자료형

ref: https://pytorch-geometric.readthedocs.io/en/latest/notes/introduction.html#data-handling-of-graphs

- 자료는 PyG의 Data 오브젝트를 기반으로 한다.

(예제) 아래와 같은 그래프자료를 고려하자.

이러한 자료형은 아래와 같은 형식으로 저장한다.

edge_index = torch.tensor([[0, 1, 1, 2],
                           [1, 0, 2, 1]], dtype=torch.long)
x = torch.tensor([[-1], [0], [1]], dtype=torch.float)
data = Data(x=x, edge_index=edge_index) # Data는 그래프자료형을 만드는 클래스
PyTorch Geometric Temporal 의 자료형

ref: PyTorch Geometric Temporal Signal

아래의 클래스들중 하나를 이용하여 만든다.

## Temporal Signal Iterators
## Heterogeneous Temporal Signal Iterators

이중 “Heterogeneous Temporal Signal” 은 우리가 관심이 있는 신호가 아니므로 사실상 아래의 3개만 고려하면 된다.

  • torch_geometric_temporal.signal.StaticGraphTemporalSignal
  • torch_geometric_temporal.signal.DynamicGraphTemporalSignal
  • torch_geometric_temporal.signal.DynamicGraphStaticSignal

여기에서 StaticGraphTemporalSignal 는 시간에 따라서 그래프 구조가 일정한 경우, 즉 \({\cal G}_t=\{{\cal V},{\cal E}\}\)와 같은 구조를 의미한다.

(예제1) StaticGraphTemporalSignal 를 이용하여 데이터 셋 만들기

- json data \(\to\) dict

import json
import urllib
url = "https://raw.githubusercontent.com/benedekrozemberczki/pytorch_geometric_temporal/master/dataset/chickenpox.json"
data_dict = json.loads(urllib.request.urlopen(url).read())
# data_dict 출력이 김
dict_keys(['edges', 'node_ids', 'FX'])

- 살펴보기

  • \({\cal E} = \{(0,10),(0,6), \dots, (19,17)\}\)
  • 혹은 \({\cal E} = \{(\tt{BACS},\tt{JASZ}), ({\tt BACS},{\tt FEJER}), \dots, (\tt{ZALA},\tt{VAS})\}\)
  • \({\cal V}=\{\tt{BACS},\tt{BARANYA} \dots, \tt{ZALA}\}\)
np.array(data_dict['FX']), np.array(data_dict['FX']).shape
  • \({\bf f}=\begin{bmatrix} {\bf f}_1\\ {\bf f}_2\\ \dots \\ {\bf f}_{521} \end{bmatrix}=\begin{bmatrix} f(t=1,v=\tt{BACS}) & \dots & f(t=1,v=\tt{ZALA}) \\ f(t=2,v=\tt{BACS}) & \dots & f(t=2,v=\tt{ZALA}) \\ \dots & \dots & \dots \\ f(t=521,v=\tt{BACS}) & \dots & f(t=521,v=\tt{ZALA}) \end{bmatrix}\)

즉 data_dict는 아래와 같이 구성되어 있음

수학 기호 코드에 저장된 변수 자료형 차원 설명
\({\cal V}\) data_dict['node_ids'] dict 20 20개의 노드에 대한 설명이 있음
\({\cal E}\) data_dict['edges'] list (double list) (102,2) 노드들에 대한 102개의 연결을 정의함
\({\bf f}\) data_dict['node_ids'] dict (521,20) \(f(t,v)\) for \(v \in {\cal V}\) and \(t = 1,\dots, T\)

- 주어진 자료를 정리하여 그래프신호 \(\big(\{{\cal V},{\cal E},{\bf W}\},{\bf f}\big)\)를 만들면 아래와 같다.

edges = np.array(data_dict["edges"]).T
edge_weight = np.ones(edges.shape[1])
f = np.array(data_dict["FX"])
  • 여기에서 edges\({\cal E}\)에 대한 정보를
  • edges_weight\({\bf W}\)에 대한 정보를
  • f\({\bf f}\)에 대한 정보를 저장한다.

Note: 이때 \({\bf W}={\bf E}\) 로 정의한다. (하지만 꼭 이래야 하는건 아니야)

- data_dict \(\to\) dl

lags = 4
features = [f[i : i + lags, :].T for i in range(f.shape[0] - lags)]
targets = [f[i + lags, :].T for i in range(f.shape[0] - lags)]
np.array(features).shape, np.array(targets).shape
((517, 20, 4), (517, 20))
설명변수 반응변수
\({\bf X} = {\tt features} = \begin{bmatrix} {\bf f}_1 & {\bf f}_2 & {\bf f}_3 & {\bf f}_4 \\ {\bf f}_2 & {\bf f}_3 & {\bf f}_4 & {\bf f}_5 \\ \dots & \dots & \dots & \dots \\ {\bf f}_{517} & {\bf f}_{518} & {\bf f}_{519} & {\bf f}_{520} \end{bmatrix}\) \({\bf y}= {\tt targets} = \begin{bmatrix} {\bf f}_5 \\ {\bf f}_6 \\ \dots \\ {\bf f}_{521} \end{bmatrix}\)
  • AR 느낌으로 표현하면 AR(4) 임
dataset = torch_geometric_temporal.signal.StaticGraphTemporalSignal(
    edge_index= edges,
    edge_weight = edge_weight,
    features = features,
    targets = targets
<torch_geometric_temporal.signal.static_graph_temporal_signal.StaticGraphTemporalSignal at 0x7f3423668bd0>

- 그런데 이 과정을 아래와 같이 할 수도 있음

# PyTorch Geometric Temporal 공식홈페이지에 소개된 코드
loader = torch_geometric_temporal.dataset.ChickenpoxDatasetLoader()

- dataset은 dataset[0], \(\dots\) , dataset[516]과 같은 방식으로 각 시점별 자료에 접근가능

Data(x=[20, 4], edge_index=[2, 102], edge_attr=[102], y=[20])

각 시점에 대한 자료형은 아까 살펴보았던 PyG의 Data 자료형과 같음

  • 이 값들은 features[0]의 값들과 같음. 즉 \([{\bf f}_1~ {\bf f}_2~ {\bf f}_3~ {\bf f}_4]\)를 의미함
  • 이 값들은 targets[0]의 값들과 같음. 즉 \({\bf f}_5\)를 의미함

ChickenpoxDataset 분석

A dataset of county level chicken pox cases in Hungary between 2004 and 2014. We made it public during the development of PyTorch Geometric Temporal. The underlying graph is static - vertices are counties and edges are neighbourhoods. Vertex features are lagged weekly counts of the chickenpox cases (we included 4 lags). The target is the weekly number of cases for the upcoming week (signed integers). Our dataset consist of more than 500 snapshots (weeks).

summary of data

  • \(T\) = 519
  • \(N\) = 20 # number of nodes
  • \(|{\cal E}|\) = 102 # edges
  • \(f(t,v)\)의 차원? (1,)
  • 시간에 따라서 Number of nodes가 변하는지? False
  • 시간에 따라서 Number of nodes가 변하는지? False
  • \({\bf X}\): (20,4)
  • \({\bf y}\): (20,)
  • 예제코드적용가능여부: Yes

- Nodes : 20

  • vertices are counties

-Edges : 102

  • edges are neighbourhoods

- Time : 519

  • between 2004 and 2014
  • per weeks
loader = torch_geometric_temporal.dataset.ChickenpoxDatasetLoader()
dataset = loader.get_dataset(lags=4)
train_dataset, test_dataset = temporal_signal_split(dataset, train_ratio=0.8)


model = RecurrentGCN(node_features=4, filters=32)
optimizer = torch.optim.Adam(model.parameters(), lr=0.01)

for epoch in tqdm(range(50)):
    for t, snapshot in enumerate(train_dataset):
        yt_hat = model(snapshot.x, snapshot.edge_index, snapshot.edge_attr)
        cost = torch.mean((yt_hat-snapshot.y)**2)
100%|██████████| 50/50 [00:57<00:00,  1.15s/it]


yhat_train = torch.stack([model(snapshot.x,snapshot.edge_index, snapshot.edge_attr) for snapshot in train_dataset]).detach().numpy()
yhat_test = torch.stack([model(snapshot.x,snapshot.edge_index, snapshot.edge_attr) for snapshot in test_dataset]).detach().numpy()
V = list(data_dict['node_ids'].keys())
fig,ax = plt.subplots(20,1,figsize=(10,50))
for k in range(20):
    ax[k].set_title('node: {}'.format(V[k]))
    ax[k].plot(yhat_train[:,k],label='predicted (tr)')
    ax[k].plot(range(yhat_train.shape[0],yhat_train.shape[0]+yhat_test.shape[0]),yhat_test[:,k],label='predicted (test)')


