1부 데이터 리터러시

1장 역사 속의 데이터

2008년 금융위기 3가지 원인

  • 저소득층 시장의 신용을 높게 평가한 점
    • 거절자 추론(reject inference): 모집단을 대표하지 못하는 표본
  • 평가 기법을 잘 아는 금융회사
    • 인위적 평가 조정 가능, 잘못된 지점(부도의 평가 등)에 집중
  • 금융 상품의 공정 평가가 어려운 신용평가 기관

2장 불확실한 세상을 위한 언어

데이터 과학의 목적: 데이터로부터 불확실한 사건의 확률을 구하는 것

  • 확률은 불확실성을 표현하는 언어이자 나아가 데이터 과학의 언어!

몬티홀 문제:

  • Suppose you’re on a game show, and you’re given the choice of three doors. Behind one door is a car, behind the others, goats. You pick a door, say #1, and the host, who knows what’s behind the doors, opens another door, say #3, which has a goat. He says to you, "Do you want to pick door #2?" Is it to your advantage to switch your choice of doors?

  • 당신이 한 게임 쇼에 참여하여 세 문들 중 하나를 고를 기회를 가졌다고 생각해봐라. 한 문 뒤에는 자동차가 있으며, 다른 두 문 뒤에는 염소가 있다. 당신은 1번 문을 고르고, 문 뒤에 무엇이 있는지 아는 사회자는 염소가 있는 3번 문을 연다. 그는 당신에게 "2번 문을 고르고 싶습니까?"라고 묻는다. 당신의 선택을 바꾸는 것은 이득이 되는가?

ref: https://namu.wiki/w/%EB%AA%AC%ED%8B%B0%20%ED%99%80%20%EB%AC%B8%EC%A0%9C

3장 확률, 그 오묘함에 대하여

A: 우리가 궁극적으로 알고자 하는 것

B: 데이터로부터 얻는 정보

P(A|B)와 A의 차이로 B가 미치는 영향을 조사

조건부 확률은 정확히 계산이 맞아 떨어지진 않는 실제 상황~

4장 종 모양의 데이터

데이터 = 정보 + 잡음

D = I + N $\to$ 정규분포

잡음이 많은 데이터를 분석할 분석 방법의 필요성! 그것을 찾는 것이 과제!

5장 요약 본능과 본능의 이해

평균과 변동 - 원인 파악을 통한 효과 제거 및 변동 감소 - 변동 파악의 중요성

6장 합리적으로 판단하기

통계적 가설 검정의 오류를 줄이기 위한 합리적 판단의 중요성, 사회적 지식의 필요성.

7장 관계의 이해

상관관계는 인과관계로 이어지지 않는다.

데이터 과학만으로 모든 인과관계를 밝혀내기는 쉽지 않다.

전문적인 지식을 이용한 판단의 중요성!

8장 2년차 징크스는 왜 생길까?

평균으로의 회귀

  • 평균으로의 회귀(영어: regression toward the mean)는 예언된 변인에서 극단적인 값을 가져야 될 사람이 덜 극단적인 예언된 특성을 지니는 경향성을 말한다. 평균을 향한 회귀, 평균회귀, 회귀효과라고도 한다.

  • 일반적으로 두 변수간 상관이 아주 크지 않을 경우, 한 변수에서 극단치를 보인 사례가 다른 변수에서는 덜 극단적인, 즉 평균에 가까운 값을 보이는 통계적 성질이 있다. 회귀분석이 어원이 된 것이지만, 회귀분석은 통계분석방법이고 평균회귀는 통계적 법칙을 이르는 것으로 의미는 같지 않다.

  • ref: https://ko.m.wikipedia.org/wiki/%ED%8F%89%EA%B7%A0%EC%9C%BC%EB%A1%9C%EC%9D%98_%ED%9A%8C%EA%B7%80

  • 경험에 의존한 판단은 피해야 하며 이는 경험이 필요없다는 뜻이 아니라 경험 해석이 어렵기 때문이다.

9장 왜 내 차선만 막히나요?

데이터 편향으로 인한 왜곡된 결과!

10장 걱정은 팔자가 아니고 과학입니다.

극단치 이론: 최대값과 최소값에 관심을 둔 이론

  • 최대값, 최소값은 데이터에 관계없이 특정한 히스토그램(극단값 분포)을 가진다.
  • 평균은 중심극한정리를 통해 정규분포를 따름
  • 최대값, 최소값은 극단값 분포를 따름
  • 극단값은 존재하는 데이터이기 때문에 절대! 불필요하진 않을 듯!

11장 술 취한 사람 이해하기

임의보행

  • 잡음에 대한 이해는 데이터 과학의 핵심

클라이브 그레인저(Clive Granger): 임의보행으로 경제 데이터 분석 방법 연구

  • Granger was awarded the Nobel Memorial Prize in Economic Sciences in 2003 in recognition of the contributions that he and his co-winner, Robert F. Engle, had made to the analysis of time series data. This work fundamentally changed the way in which economists analyse financial and macroeconomic data.
  • https://en.m.wikipedia.org/wiki/Clive_Granger

12장 미래 예측하기

미래 예측- 통계학의 회귀분석이나 기계학습에서의 지도학습은 예측을 위한 방법론

인공지능과 공존하기 위해 인간에게 필요한 것은 무엇일까?

  • 반복적인 일을 잘하고 감정이 없는 인공지능,
  • 창의적인 생각으로 접근 가능한 감정있는 인간,
  • 장단점을 적절히 조화하여 공존하는 방법을 모색하는 것이 필요하겠다!

13장 너의 마음을 보여줘

표본조사

  • 대표성의 중요도
  • 공정한 데이터 선정을 위한 무작위 추출
  • 사회가 선진화될수록 양질의 통계를 요구하는 분야는 늘어남!

14장 로또에 당첨되는 법

다중 비교의 오류: 데이터를 분석하며 원하는 결과가 나올 때까지 계속하다 발생하는 오류

  • 데이터는 유한하기 때문에
  • 확인 분석을 통해 오류를 피하자

15장 목표 없는 정보의 허무함

빅데이터와 세분화의 함정

  • 빅데이터는 '목표없이 모이는 자료'
  • 또한, 빅데이터는 성공한 연구 결과만 기록될 수 있다.
  • 데이터 자체를 그저 믿기보다 합라적인 사고와 정확한 판단, 사회적 지식이 요구된다!

벤포드 법칙

벤포드의 법칙(Benford's law)은 실세계에서 존재하는 많은 수치 데이터의 10진법 값에서 수의 첫째 자리의 확률 분포를 관찰한 결과, 첫째 자리 숫자가 작을 확률이 크다는 법칙이다. 벤포드의 법칙을 따르는 데이터 집합에 등장하는 수들의 첫째 자리가 1일 확률은 약 30%인 데 반해, 9가 첫째 자리로 등장할 확률은 5% 정도밖에 되지 않는다. 만약 1부터 9까지의 숫자가 수의 맨 앞자리에 등장할 확률이 균등분포를 따른다면, 각 숫자는 약 11.1%의 확률로 맨 앞자리에 등장하여야 할 것이다. 벤포드의 법칙은 또한 수의 둘째 이후 자리의 확률 분포나 숫자 조합에 대한 확률 분포도 예측할 수 있다.

$$P(d)=log_{10}(1+\frac{1}{d})$$

2부 데이터의 활약상

1장 데이터의 발자취

데이터의 발자취

  • 흥미로운 statistic의 어원
    • 국가 state + -ista 장인 = statista (이탈리아어)

빅데이터가 세계를 열은 건 사실이지만.. 현재 개인정보 침해 들으로 뭇매 맞고 있는 것 또한 사실!

2장 네번째 과학

꿈 촬영에서 중력파 검출까지_ 과학에서 데이터의 역할을 알 수 있었던 장

  • 과학의 발전 단계
    • 1단계 실험과학: 실험을 통하여 새로운 과학적 사실을 파악
    • 2단계 이론과학: 과학적 사실에 대한 이론을 개발하는 방법
    • 3단계 계산과학: 과학의 복잡계 현상을 복잡한 계산 모형을 통하여 설명하고자 하는 방법
    • 4단계 데이터 과학: 데이터를 통해 새로운 과학적 사실을 발견

꿈을 과학적으로 해석하려는 최초의 접근법

  • 위 영상은 프로이트 관련 기획강연
  • 지르문트 프로이트_ 꿈의 해석 1900년 출간(하지만 번역본은 많지~)

꿈을 연구하는 다양한 접근법의 한계 $\to$ 꿈에 관한 객관적 정보를 찾기 어려움

2011년 이코노미스트에서 버클리대학교 연구진이 빅데이터를 이용하여 개발한 방법론

  • 원리: 영상 정보와 시각 반응 정보의 관계를 모형화하고, 이 모형을 통해 대뇌피질에서 얻은 반응만 이용해 시각 정보를 재구성하고자 함!
  • fMRI: MRI의 동영상 버전~
  • 여러 사람에게 다양한 영상을 몇 시간 동안 보여주면서 대뇌에서 일어나는 변화를 fMRI로 수집
  • fMRI 데이터를 입력으로, 영상을 출력으로 하는 예측 모형을 만듦!!

버클리 대학교 연구진이 개발한 꿈을 찍는 이 기술은 현재 꿈을 주입하는 단계로 발전하는 중!

  • 빅데이터가 연 또 다른 새로운 세계

중력파 관측소 LIGO(https://www.ligo.caltech.edu/) = 중력파 + 우리 주의의 모든 행동(잡음)이 잡힘

  • 잡음 제거를 위해 클라우드 소싱이 등장(클라우드 소싱crowd+sourcing: 기계학습이나 인공지능에 필요한 데이터를 일반인의 참여를 모으는 법)
  • 그래비티 스파이gravity spy 프로젝트(https://www.zooniverse.org/projects/zooniverse/gravity-spy)_현재진행중
    • LIGO에서 다양한 잡음 관찰 $\to$ 실험 또는 클라우드 소싱 이용한 잡음 파장 알아내기 $\to$ 기존에 알려진 잡음인지, 새로운 잡음인지 알아내기 $\to$ 중력파 관측

3장 건강한 사회를 위하여

건강을 위해 필요

  • 의학의 3가지 분야 $\to$ 진단/치료/예방
  • 개인 맞춤 의료를 위해선 데이터가 중요 $\to$ 생명을 지키는 데이터라 할 수 있지,
  • DNA 정보가 우리의 건강과 어떤 관계가 있을까 $\to$ 데이터과학의 핵심적 역할 발휘!
    • DNA 데이터를 분석하면 개인 건강의 차이와 DNA가 어떻게 연관되어 있는지 알 수 있다.
    • DNA는 우리 몸의 설계도 같은 역할!
    • 데이터에서 잡음을 없애고 필요한 정보를 통해 질병을 파악해내고, 예방하기!!

4장 백신을 위한 과학

임상시험

  • 1상(10명~50명) $\to$ 안전성- 안전하게 투약할 용량을 알아냄
  • 2상(100명~200명) $\to$ 유효성 - 질병 걸린 자가 대상
  • 3상(수백~ 수천 명) $\to$ 효과와 안전성 - 3~5년이 걸림!

중도절단(즉, 시험 중간에 탈락한 시험자들) 분석은 생존분석이 이용된다. $\to$ 3상 임상실험을 위해 꼭 필요

5장 공동체를 위하여

공동체를 위한 신뢰받는 통계! $\to$ 국가 통계 선진화는 선진국으로 가는 길~

BPP(Billion Prices Project): 인터넷 쇼핑몰 가격을 이용해 물가지수 알기, 신뢰도가 높다.

6장 민주주의와 선거

선거를 위한 데이터 과학 $\to$ 여론조사의 한계를 뛰어넘는 데이터

2012년 본격적 빅데이터 기법을 선거에 적용한 오바마 캠프의 개인 맞춤형 정책 홍보

7장 금융과 신용

금융시장 발전을 위한 금융시장 안정화 신성장 등이 금융 사업의 생존 문제가 됌

대출자의 신용평가 $\to$ 은행의 핵심!

은행 건전성: 은행이 대출해준 개인이나 기업의 신용상태

  • 신용 좋은 개인, 기업에게만 대출한다면 은행 건전성이 높아지겠지?

미국 회사 렌도Lenddo의 sns를 이용한 신용평가(https://deliverypdf.ssrn.com/delivery.php?ID=020102027024074107120117065086016014122017071012062030101002076122113066067007115029056029020062102033001067100031083119121114015072091036076109088006001028064064067085066040013001065075003109113099116065101103113121079002101089064113065095022066003072&EXT=pdf&INDEX=TRUE)

  • SNS 상에서 구축한 평판 정보를 활용해 개인신용평가를 하고 이를 기반으로 소액대출을 제공하는 업체,
  • 주요 고객은 대출 상환 능력은 있지만 거래 이력이 없어 전통적인 금융회사에서 대출이 쉽지 않은 신흥국 중산층
  • 2011년 3월 서비스를 시작해 필리핀, 콜롬비아, 멕시코 등에서 사업 영위
  • 신용평가를 위해 SNS 계정 수, 해당 계정의 사용 기간, 친구 수, 일반 커뮤니티, 트러스티드 네트워크 등 이용
  • 이머징 국가의 금융 소비자들에게 한달 월급 정도의 소액대출을 실행해줌으로써 치역적 특성과 결합한 소셜 미디어의 확장성을 보여주는 사례로 평가받고 있음
  • 대출 서비스가 지원되는 필리핀과 콜롬비아에서는 금융소비자 1인당 400~800 달러 상당의 대출이 이뤄지고 있으며, 주된 대출 목적은 교육비이고, 대출 상환율은 95%에 달하는 것으로 파악됌.
  • https://www.mk.co.kr/news/economy/view/2020/06/573304/

데이터 기반의 위험 분석

  • 제이피 모건의 부동산 시장 가격 분석
  • 산탐의 보험 사기 탐지 시스템
  • 프로그레시브- 운전한만큼 지불pay as you drive
  • 어슈어런트 솔루션스- 콜센터에 전화한 고객에 적합한 상담원 실시간 배정
    • 음성인식으로 텍스트 구현, 텍스트 마이닝을 통한 정밀추론

8장 광고 속 데이터과학

베스트 셀러도 데이터가 결정하는 시대

추천 시스템recommendation system: 고객 맞춤형 추천을 위하여 아마존에서 사용하는 데이터 분석 알고리즘

  • 내용 기반 추천: 상품 내용 사이의 관계를 파악하여 과거에 구매한 상품과 비슷한 내용의 상품을 고객에게 추천해주는 방법

9장 제조업을 위한 데이터과학

커피믹스에서 데이터

  • 배합 비율을 어떻게 할 것인가?
  • 크림은? 원두는? 설탕은?

김장에서의 데이터

  • 모든 재료의 최적 조합은 무엇일까?
  • 실험계획법을 통해 알아보기

불량의 원인을 찾자!

  • 기계가 고장 날 확률 등으을 계산

저번 특강 내용 _ LG CNS 분석 1팀 정환식 책임님

  • 과정: 설계 $\to$ 분석 $\to$ 예측 $\to$ 설명 $\to$ 방안 도출
  • 스마트 팩토리(품질 환경, 설비유지): 어떻게 자동화하고 지능화할 것인가.
  • SCM Supply Chain Management 생산량 관리 계획의 효율성
  • 유통
  • AI
  • Technology sencing: 자동으로 기술찾고 동향을 찾는!
  • 통합품질분석
  • 설비예지 보넞 : 어느 주기로 설비를 관리할지? 등)
  • 에너지 관리 최적화
  • Techsencing : 텍스트를 마이닝! $\to$ 과정이 중요하겠다!
  • 통합 품장 $\to$ 제품의 완성도(정상/불량 예측, 방지도 중요!)
  • 설비 loss: 한 시점에 발생하는 event 있다면 가동~ 문제까지의 시점을 이용해 찾기

10장 프라이버시 보호

다양한 익명화(원베이터 변형) 종류

  • 동형 암호Homorphic Encryption: 데이터의 평균, 분산 등을 암호화한 상태에서 구해 프라이버시 안전하게 보호, but 너무 많은 계산량
  • 연합학습Federated Learning: 각각의 서버가 중앙서버에 결과 송출, but 그 결과 이외에 분석은 불가

백신 예방률 = $(1-\frac{P_{백신}}{p_{no 백신}})\times 100%$

3부 인공지능

1장 인공지능의 역사

  • 개척기(1952~1956) : 1956년 개최한 다트머스학회, 존 메커시가 처음 제안한 인공지능 개념
  • 황금기(1956~1974)
  • 암흑기(1974~1980): 모라백의 역설
    • Moravec’s paradox is a phenomenon surrounding the abilities of AI-powered tools. It observes that tasks humans find complex are easy to teach AI. Compared, that is, to simple, sensorimotor skills that come instinctively to humans.
    • In the 1980s, Hans Moravec, Rodney Brooks, Marvin Minsky and others articulated and discussed this AI paradox. As Moravec put it:
    • “It is comparatively easy to make computers exhibit adult level performance […] and difficult or impossible to give them the skills of a one-year-old.”
  • 개화기(1980년대): 존홉필드. 데이빗 루멜하트(역전파 알고리즘)
  • 2000년대~현재 인공지능: 이미지 경젠대회(ILSVRC)에서 제프리 힌턴이 오류를 26% $\to$ 15%로 줄임(빅데이터 수업때!)

딥러닝 - 데이터 과학의 깊은 이해가 필요하겠다!

2장 알파고의 탄생

이세돌 vs 알파고

성공할 수를 턴때마다 생각함

3장 인공지능의 활약과 부작용

  • 이미지 $\to$ 세그먼테이션(객체 나누기) $\to$ 객체 인식
  • 딥페이크
  • 통계적 기계 번역 SMT(Statistical machine translation): 확률로 기계 번역?!

인간도 모르는 인간에 대한 새로운 통찰을 알려주는 시대

4장 인공지능을 인간답게

인공지능 윤리문제

인공지능 설명하는 방법

  • 인공지능 개발: 이미 학습된 인공지능 설명
  • 인공지능 만들기: 인공지능을 학습하는 처음 단계부터 설명

보통 예측력이 좋은 인공지능은 설명을 잘 못하는 반면, 설명을 잘하는 인공지능은 예측력이 떨어져 예측력과 설명력을 동시에 확보할 수 있는 대안이 필요하겠다.