Machine learning

(kdnuggets) 데이터 이해하기

South Korea life 2021. 8. 11. 07:15
728x90
반응형

[ 제 네이버 블로그 글을 티스토리로 이전한 글입니다. 해당 글은 제 네이버 블로그에 2018.09.07에 작성되었었습니다 ]

 

저의 경우 데이터를 받았을 때, 우선적으로 해보는 것은 히스토그램을 그려보는 것 같습니다.
히스토그램만으로는 데이터가 직관적으로 이해되지 않을 경우는 데이터를 시각화하는 도구들을 사용해서 데이터를 이해하려고 합니다.

몇일 전 kdnuggets에 데이터 이해에 관련된 글이 올라왔습니다. 여기서는 그 글을 간략하게 요약하려합니다.
해당 글을 다 읽고 나니, topological data analysis (TDA)에 대한 관심이 좀 생겼습니다.

=================================================================
데이터 분석에 있어서, 데이터 성질 파악은 중요한 process 중의 하나입니다. 왜냐하면, 데이터 분석의 결과는 결국 데이터의 quality에 달려있기 때문입니다. 아무리 데이터 분석 도구가 뛰어나다하더라도, 잘못 취득된 데이터를 가지고 분석하면 엉뚱한 결과를 얻게됩니다. 

reference 글에서는 데이터 파악을 위한 방법으로, 크게 3가지를 설명하고 있습니다. 
 (1) Example-based explanations
 (2) Embedding techniques
 (3) Topological data analysis (TDA)

(1) Example-based explanations
  - 이 방법은 여러 데이터 sample들 중, 중요한 sample과 차원들을 뽑는 방법입니다. 
    (각 class의 평균적인 데이터 특성을 가지는 sample을 뽑는 방법같아보입니다.)
    Characterize와 Criticize를 고려하라고 하는데... 이것을 선택하는 방법론에 대한 설명은 좀 부족해보입니다. (googling이 더 필요할 듯)
     Characterize: 해당 class를 가장 잘 나타내는 sample들 (majority)
     Criticize: 해당 class를 가장 잘 나타내는 sample들에서는 나타나지 않는 표현을 가지고 있는 sample들 (minority)

 (2) Embedding techniques
   - 저는 주로 이 방법을 많이 사용하는 편입니다. 여기에 해당되는 방법들로는 Principal component analysis(PCA) 기반의 데이터 분석 방법이나 t-SNE(T-distributed stochastic neighbor embedding) 방법들이 있습니다. 

 (3) Topological data analysis (TDA)
   - TDA에 대해서는 아직 아는 것이 별로 없습니다. reference 글에는 너무나도 간략하게 구술되어있어서, googling을 잠시 해보니 데이터의 기하적인 형태자체를 그대로 분석하는 방법인것 같습니다. network 분석과 위상수학과 연관이 있어보입니다.


참고 글)
https://www.kdnuggets.com/2018/08/interpreting-data-set.html

 

Interpreting a data set, beginning to end - KDnuggets

Detailed knowledge of your data is key to understanding it! We review several important methods that to understand the data, including summary statistics with visualization, embedding methods like PCA and t-SNE, and Topological Data Analysis.

www.kdnuggets.com

 

728x90
반응형