Post

adsp 오답노트

  1. 암묵지와 형식지의 상호작용 관계

-> 공통화, 표출화, 연결화,내면화 (공통으로 만들고 표출하게 하고 연결한다음 내면화한다 라는 느낌인가?)

  1. 데이터마스킹 : 식과 같은 속성을 유지한 채, 새롭고 읽기 쉬운 데이터를 익명으로 생성하는 기술( xx대학 이런식으로)

  2. 비정형데이터의 경우 데이터 내부에 메타데이터를 가지고있다. 반정형 데이터이 경우가 파일형태로 저장되어있다.

  3. 지식 이란 상호 연결된 정보 패턴을 이해하여 이를 토대로 예측한 결과물

ex ) ‘나무는 햇빛이 필요하다’ 라는 정보를 알고있어서 햇빛이 없는 자리에는 잘 자라지 않을 것이라고 예측하는 것 –> 아 그래서 이렇게 될것이야 라고 결과를 예상하는 능력

  1. Cinematch 시스템은 넷플릭스에서 만들었다.

  2. 빅데이터가 꼭 하둡기반일 필요는 없다 ( 왜틀렸지..? 너무당연한데)

  3. 빅데이터 기본적인 3요소 : 데이터 기술 인력

  4. 표본조사 기법도 중요한데 빅데이터와 크게 연관없음!

  5. 데이터의 가치 측정이 어려운 이유 : 재사용,재조합(Mash up), 새로운 가치를 창출하기에, 분석 기술 발전으로 인해

  6. SVM «< 이녀석은 딥러닝이 아님~

  7. Theano : 딥러닝 소프트웨어 (라네요)

  8. 데이터화 가 된다면 인공지능 보단 사물인터넷 쪽이 더 영향이 클꺼라 하네요

  9. 객체지향 DBMS는 복잡한 데이터베이스를 나타내는 시스템임

  10. 데이터 시각화의 경우 비지니스 영역임

  11. 크기 : 페타 엑사 제타 요타

  12. DDL : 데이터베이스 골자를 만드는 언어

DML : 데이터베이스를 수정하는 언어

DCL : 권한을 주는 언어

    • 표본오차 : 모집단을 대표할 수 있는 표본 단위들이 조사대상으로 추출되지 못하면서 발생하는 오차
  • 표본편의 : 모수를 작게 또는 크게 할 때 추정하는 것과 같이 표본추출방법에서 기인하는 오차, 확률화를 통해 최소화하거나 없앨수 있음

  • 비표본오차 : 표본오차를 제외한 모든 오차, 실수나 알수없는 원인 등이 있다.

  1. 표본의 분산은 카이제곱을 따름

  2. 줄기잎 그림은 계산량이 적다

  3. 자유도 =n-1

  4. 피어스만 상관계수 : 순서형 변수를 사용,비모수적 상관계수를 나타냄, 비선형측정불가

  5. 스피어만 상관계수 : 비선형적인 관계도 측정 가능

–> 스피어만 상관계수만드는법 : 두 변수를 순위로 변환, 두 순위 사이의 피어슨 상관계수 이용

  1. F통계량으로 다중회귀모형의 유의성 추정가능

  2. 회귀식의 귀무가설은 기울기가 0이다로 설정

  3. 결정계수는 변동 중 설명되는 변동이 차지하는 비율

  4. 데이터의 정규성확인 방법 : 히스토그램, qqplot, shapiro-wilks test

-durbin-watson test - 오차항의 자기상관이 있는지 확인

  1. 평균이 일정하지 않는 비정상 시계열은 차분을, 분산이 일정하지 않는 비정상 시계열은 변환을 통해 정상 시계열로 변환한다

  2. 평균고윳값 방법은 평균을 구한 후 고윳값이 평균값 이상이 되는 주성분을 설정하는 것

  3. 시계열 예측이 정상성을 만족 -> 분산이 시점에 의존하지 않음

  4. 라쏘회귀는 L1 penalty 사용

  5. VIF = 1/(1-R^2)

  6. SOM 은 비지도 학습, 고차원 데이터를 이해하기 쉬운 저차원 뉴런으로 정렬하여 지도형태로 나타낸 것

  7. 검증용으로 사용되는 관측치 비율 : 36.8

  8. rf는 하향식 구조

  9. 홀드아웃 : 데이터양이 충분하지 않거나, 입력변수에 대한 설명이 충분할때 데이터를 랜던하게 두개의 데이터로 구분하여 사용하는 방식 –> 검정하는 거임

  10. 뿌리마다 아래로 내려갈수록 각마디에서의 불순도는 감소

  11. 이익도표에서 %Captured Response 란 전체에서 해당집단을 분리해내는 비율-> 목표변수의 특정범주의 빈도/ 전체 목표변수의 특정범주의 빈도 *100

  12. 배깅은 여러개의 부스트랩 자료를 생성, 자료에서 모형생성 이후 결합

  13. 부스팅은 약한 녀석들이 모여서 만드는 기법

  14. 입력변수의 속성에 따라 활성화 함수를 선택하지않는다.

  15. 분석대상은 명확하지만 분석방식이 명확하지않는다-> soultion

  16. 발견접근법 : 통찰을 도출!

  17. 반정형데이터 : 로그데이터, 모바일데이터, 센서 데이터

  18. 분석방법론 : 프로젝트 범위 설정 -> 데이터분석 프로젝트 정의-> 프로젝트 수행계획 -> 데이터분석위험식별

  19. 분석 방법론 기획단계 : 회피, 전이, 완화, 수용

  20. soW : 분석기획 단계의 비지니스 이해 및 범위 설정 태스크에서 프로젝트 범위 설정의 산출물

  21. 분석유스케이스 : 현재의 비지니스 모델 및 동종 사례 탐색을 통해 빠짐없이 도출한 분석 기회들을 구체적인 과제로 만들기전에 만드는 것

This post is licensed under CC BY 4.0 by the author.