기계학습 특강 (2주차) 9월14일
from fastai.collab import * ## 추천시스템
from fastai.text.all import * ## 텍스트분석
from fastai.vision.all import * ## GAN (이미지분석)
from fastai.vision.gan import * ## GAN (이미지생성)
import pandas as pd
path = untar_data(URLs.PETS)/'images'
path.ls()
every files' list
fnames = get_image_files(path)
fnames
image files' list
ImageDataLoaders.from_name_func??
def f(fname):
if fname[0].isupper():
return 'cat'
else:
return 'dog'
f(x) = x+ 1
lambda x : x+1
fnames[0]
f = lambda fname: 'cat' if fname[0].isupper() else 'dog'
f('s')
f('D')
dls = ImageDataLoaders.from_name_func(
path,
fnames,
lambda fname: 'cat' if fname[0].isupper() else 'dog'
item_tfms=Resize(224))
dls = ImageDataLoaders.from_name_func(
path,
fnames,
f, # f대신 (lambda fname: 'cat' if fname[0].isupper() else 'dog') 를 넣어도 가능
item_tfms=Resize(224)) # 사이즈가 달라서 통일
dls.show_batch()
cnn_learner??
!cat ~/anaconda3/envs/csy/lib/python3.8/site-packages/fastai/vision/learner.py
이 코드로 존재하는 함수의 정의 확인 가능
어디 소속된 함수인지 확인 하기 위해
fastai에 소속된 cnn_leaner,따라서 fastai를 import해야 나타나지.
lrnr = cnn_learner(dls,resnet34,metrics=error_rate)
lrnr.dls.show_batch()
id(lrnr.dls)
id(dls)
주소가 같다. 같은 역할
lrnr에 dls가 소속되어 있다고 생각(?)
- 포스트잇을 위에 덧붙인다 생각
학습하는 fine_tune 이외에 여러가지 있음
- fine_tune 학습된 일부는 유지하고 바꿀 부분만 학습시키는 법: transfer learning
for exampel: cnn의 1d에서는 끝에만 학습
lrnr.fine_tune(1)
- fine_tune()은 모든 가중치를 학습하는 것이 아니라 일부만 학습하는 것임.
- fine_tune()이외이 방법으로 학습할 수도 있음.
(방법1) lrnr.predict() 함수를 이용
lrnr.predict('2022-09-07-dogs.jpeg') # 방법1-1
#lrnr.predict(PILImage.create('2022-09-07-dogs.jpeg')) # 방법1-2
#lrnr.predict(path.ls()[0]) # 방법1-3
컴퓨터가 이해하기 쉬운 방법인 1-2번째 방법
lrnr.predict(PILImage.create('2022-09-07-dogs.jpeg'))
lrnr.predict(path.ls()[1])
pyhton
dir(lrnr.model)
directory에 _call_있으면 함수처럼 사용 가능
(방법2) lrnr.model(X) 를 이용: X의 shape이 (?,3,224,224)의 형태의 텐서이어야함
type(dls.one_batch())
끝에 괄호로 묶여 있으면 tuple
X,y = dls.one_batch() # 방법2
lrnr.model(X[0:1])
X[1].shape
X[:2].shape
X.shape
image의 사이즈 224 * 224
- 3개의 채널
- 64개
- image, 입력
y.shape
- 예측값
y[:3]
lrnr.model(X[0])
오류 뜬다.
- torch.Size([3, 224, 224])
- shape을
- torch.Size([?, 3, 224, 224])
- 이런 식으로 만들어주자, 입력
lrnr.model(X[:3])
lrnr.model(X)
$y$ : 왼쪽이 크면 0, 오른쪽이 크면 1
- 둘다 음수인 건 없네?
- 왼쪽이 양수면 0 오른쪽이 양수면 1로 생각 가능하겠다.
-
overview
(1) dls
오브젝트 생성
(2) lrnr
오브젝트 생성
(3) lrnr.학습()
(4) lrnr.예측()
-
비교
이미지분석(CNN) | 추천시스템 | 텍스트분석 | GAN | |
---|---|---|---|---|
1단계 | ImageDataLoaders | CollabDataLoaders | TextDataLoaders | DataBlock -> dls |
2단계 | cnn_learner() | collab_learner() | language_model_learner() | GANLearner.wgan() |
3단계 | lrnr.fine_tune(1) | lrnr.fit() | lrnr.fit() | lrnr.fit() |
4단계 | lrnr.predict(), lrnr.model(X) | lrnr.model(X) | lrnr.predict() |
github에서 해당 파일의 raw click하여 주소 가져오기
!wget https://raw.githubusercontent.com/guebin/DL2022/master/_notebooks/2022-09-08-rcmd_view.csv
위와 같이 wget사용하면 주소의 data 바로 다운 가능
df_view = pd.read_csv('https://raw.githubusercontent.com/guebin/DL2022/master/_notebooks/2022-09-08-rcmd_view.csv')
df_view
컴퓨터가 좋아하는 타입은 아님
- row0 - row49 에 해당하는 유저는 커피를 선호
- row50 - row99 에 해당하는 유저는 홍차를 선호
위의 자료는 비효율적, tidy data로 바꿔주자, 아래와 같이 정리함으로써 저장할 data도 줄어든다.
df = pd.read_csv('https://raw.githubusercontent.com/guebin/DL2022/master/_notebooks/2022-09-08-rcmd_anal.csv')
df
- 컴퓨터는 이러한 형태를 더 분석하기 좋아한다.
!cat 파일명
data 도 확인 가능하다
!wget https://raw.githubusercontent.com/guebin/DL2022/master/_notebooks/2022-09-08-rcmd_anal.csv
!cat Real_estate_valuation_data_set.csv
df.item.unique(),df.user.unique()
# 유저는 1~100 으로 아이템은 1~20으로 번호가 매겨져 있음
item, user 번호 확인
CollabDataLoaders.from_df??
dls=CollabDataLoaders.from_df(df)
batch 데이터들의 group
dls.show_batch()
학습 전
X,y= dls.one_batch()
type(X)
type(y)
type(dls.one_batch())
X[0],y[0]
- 99번 user가 13번 아이템을 먹었을때 평점 4.3294
- 64번 유저가 15번 아이템을 먹었을때 평점을 4.1146 주었음
collab_learner??
lrnr = collab_learner(dls,y_range=(0,5)) # y_range는 평점의 범위
y는 평점이니까 0~5까지의 범위를 넣어주자
lrnr.fit(30) # 총 30번 정도 해야 적합이 잘된다.
loss가 2.3에서 0.47으로 떨어지는 모습
-
이미 있는 데이터를 예측
-
하나의 배치 전체를 예측
lrnr.model(X)
만 넣으면 에러뜬다.
!nvidia-smi
GPU 확인 가능
GPU아님 CPU로 올리자
yhat=lrnr.model(X.to("cuda:0"))
yhat
y.reshape(-1)
- lrnr.model()은 GPU메모리에 존재하고 X는 일반메모리에 존재하므로 X를 GPU메모리로 옮겨주어야 함
- X.to("cuda:0")을 통하여 X를 GPU메모리로 옮기는 작업을 수행할 수 있다.
-
하나의 유저가 하나의 아이템을 선택했다고 가정하고 예측 (주어진 자료중에서 예측)
X.shape
X[0:1]
-
1번 user가 커피2 마셨을때
- 예상: 4점 근처
lrnr.model(X[0:1].to("cuda:0"))
lrnr.model(tensor([[1,2]]).to("cuda:0"))
- 18번 유저가 5번 아이템(커피)를 먹는다면?
lrnr.model(X[0:1].to("cuda:0"))
- 평점은 4.1128정도 될것
-
하나의 유저가 하나의 아이템을 선택했다고 가정하고 예측 (주어지지 않은 자료중에서 예측)
X[0:1]
Xnew = torch.tensor([[1, 2]])
lrnr.model(Xnew.to("cuda:0"))
timeseries 와 text 순서가 중요!
- 가장 잘 응용할 수 있는 게 chatbot챗봇
- 나는 $\to$ 학교에 $\to$ 갔다.
timeseries는 뒤를 정확히 맞춰야 하지만, text는 그렇지 않..?
df = pd.DataFrame({'text':['h e l l o . h e l l o ! h e l l o ? h e l l o !! h e l l o ??']*20000})
df
TextDataLoaders.from_df??
is_lm = False
다음 자료를 예측하고 싶을때
is_lm = True
- classification을 수행하고 싶을 때
- 생성에 목적
- is_lm: text의 생성에 관심이 있다면 True로 설정할 것
dls = TextDataLoaders.from_df(df,text_col='text',is_lm=True)
dls.show_batch()
위의 결과에서 xxbos는 하나의 내용이 끝나고 다른 내용이 시작된다는 의미
language_model_learner??
lrnr = language_model_learner(dls, AWD_LSTM)
lrnr.fit(5)
lrnr.predict('h e',n_words=30)
-
저자: 이안굿펠로우 (이름이 특이함. 좋은친구..)
- 천재임
- 지도교수가 요수아 벤지오
-
논문 NIPS, 저는 이 논문 읽고 소름돋았어요..
- https://arxiv.org/abs/1406.2661 (현재시점, 38751회 인용되었음 $\to$ 48978회 인용..)
-
최근 10년간 머신러닝 분야에서 가장 혁신적인 아이디어이다. (얀르쿤, 2014년 시점..)
-
무슨내용? 생성모형
만들수 없다면 이해하지 못한 것이다, 리처드 파인만 (천재 물리학자)
-
사진속에 들어있는 동물이 개인지 고양이인지 맞출수 있는 기계와 개와 고양이를 그릴수 있는 기계중 어떤것이 더 시각적보에 대한 이해가 깊다고 볼수 있는가?
-
진정으로 인공지능이 이미지를 이해했다면, 이미지를 만들수도 있어야 한다. $\to$ 이미지를 생성하는 모형을 만들어보자 $\to$ 성공
-
내가 찍은 사진이 피카소의 화풍으로 표현된다면?
-
퀸의 라이브에이드가 4k로 나온다면?
-
1920년대 서울의 모습이 칼라로 복원된다면?
-
딥페이크: 유명인의 가짜 포르노, 가짜뉴스, 협박(거짓기소)
-
게임영상 (파이널판타지)
-
거북이의 커버..
-
너무 많아요.....
제한된 정보만으로 어떤 문제를 풀 때, 그 과정에서 원래의 문제보다 일반적인 문제를 풀지 말고, 가능한 원래의 문제를 직접 풀어야한다. 배프닉 (SVM 창시자)
-
이미지 $\boldsymbol{x}$가 주어졌을 경우 라벨을 $y$라고 하자.
-
이미지를 보고 라벨을 맞추는 일은 $p(y| \boldsymbol{x})$에 관심이 있다.
-
이미지를 생성하는 일은 $p(\boldsymbol{x},y)$에 관심이 있는것이다.
y의 평균적인 확률이 나올떄 x로 y 를 예측할 수 있다고 한단
-
데이터의 생성확률 $p(\boldsymbol{x},y)$을 알면 클래스의 사후확률 $p(y|\boldsymbol{x})$를 알 수 있음. (아래의 수식 참고) 하지만 역은 불가능
$$p(y|x) = \frac{p(x,y)}{p(x)} = \frac{p(x,y)}{\sum_{y}p(x,y)} $$
- 즉 이미지를 생성하는일은 분류문제보다 더 어려운 일이라 해석가능
분류할 수 았다는게 생성할 수 있다는 건 아니니까
-
따라서 배프닉의 원리에 의하면 식별적 분류가 생성적 분류보다 바람직한 접근법이라 할 수 있음.
-
하지만 다양한 현실문제에서 생성모형이 유용할때가 많다.
-
GAN은 생성모형중 하나임
-
GAN의 원리는 경찰과 위조지폐범이 서로 선의의(?) 경쟁을 통하여 서로 발전하는 모형으로 설명할 수 있다.
The generative model can be thought of as analogous to a team of counterfeiters, trying to produce fake currency and use it without detection, while the discriminative model is analogous to the police, trying to detect the counterfeit currency. Competition in this game drives both teams to improve their methods until the counterfeits are indistiguishable from the genuine articles.
-
서로 적대적인(adversarial) 네트워크(network)를 동시에 학습시켜 가짜이미지를 만든다(generate)
-
무식한 상황극..
위조범:가짜돈을 만들어서 부자가 되어야지! (가짜돈을 그림) > 경찰:(위조범이 만든 돈을 보고) 이건 가짜다! > 위조범:걸렸군.. 더 정교하게 만들어야지.. > 경찰:이건 진짠가?... --> 상사에게 혼남. 그것도 구분못하냐고 > 위조범:더 정교하게 만들자.. > 경찰:더 판별능력을 업그레이드 하자! 반복..
-
굉장히 우수한 경찰조차도 진짜와 가짜를 구분하지 못할때(=진짜 이미지를 0.5의 확률로만 진짜라고 말할때 = 가짜 이미지를 0.5의 확률로만 가짜라고 말할때) 학습을 멈춘다.
path = untar_data(URLs.MNIST_SAMPLE)
DataBlock??
TransformBlock
ImageBlock
generate_noise
dblock = DataBlock(blocks=(TransformBlock,ImageBlock),
get_x = generate_noise,
get_items=get_image_files,
item_tfms=Resize(32))
dls = dblock.dataloaders(path)
dls.show_batch()
basic_generator??
basic_critic??
counterfeiter = basic_generator(32,n_channels=3,n_extra_layers=1)
police = basic_critic(32,n_channels=3,n_extra_layers=1)
- 32는 사이즈
- 채널은 컬러이면 3이지만 이건 흑백이라도 3으로 표현해봄
GANLearner.wgan??
lrnr = GANLearner.wgan(dls,counterfeiter,police)
-
lrnr.fit(10) 진행
lrnr.fit(10)
lrnr.show_results()
-
lrnr.fit(10) 추가로 진행 // 총20회
lrnr.fit(10)
lrnr.show_results()
-
lrnr.fit(10) 추가로 진행 // 총30회
lrnr.fit(10)
lrnr.show_results()
-
lrnr.fit(10) 추가로 진행 // 총 60회
lrnr.fit(30)
lrnr.show_results()