본문 바로가기

728x90

기타/python

(20)
pd.merge() vs concat() pandas 데이터 프레임을 병합하는 방법에는 크게 두자기 방식이 있습니다. merge인데요. merge는 기준을 두고 합치는 것이고 concat은 그냥 갖다 붙이는 것입니다. merge의 경우에는 데이터의 크기가 커지면 속도가 느려집니다. concat은 속도면에서 merge보다 우세하지요. python pandas로 다루는 데이터는 대부분 데이터 양이 방대하기 때문에 merge를 쓰는 것은 추천하지 않는 분들도 있습니다.
pandas 데이터 정규화,표준화 min-max, z-score 머신러닝은 데이터가 가진 특성을 비교하여 패턴을 찾아내는 것입니다. 데이터를 입력하기 전에 반드시 데이터를 깔끔하게 정리해 주어야 하는데요. 데이터를 정리하기 위해서는 정규화를 해주어야 합니다. 정규화를 하면 데이터의 특징을 보다 정확하게 파악할 수 있지요. 특히 이상치가 있을 때 다른 값들이 주목받을 수 없기 때문에 정규화를 통해 이런 문제를 해결해야 합니다. 또한 딥러닝 학습시 입력 데이터를 정규화하면 더 빠른 학습이 가능해집니다. 정규화에는 크게 두가지 방식이 있습니다. 1.최소 최대 정규화 (x-min)/(max-min) 데이터와 가장 작은 값의 차를 가장 큰 값과 작은 값의 차이로 나누어 주는 것입니다. 그렇게 되면 데이터 값의 범위가 0과 1사이로 옮겨 지겠지요. 가장 큰 값이 x에 들어가면 ..
pandas pd.read_csv 활용법 na_value로 100% 활용하자 pandas pd.read_csv는 csv파일을 pandas의 데이터프레임 형태로 바꿔주는 함수입니다. csv를 데이터 프레임으로 바꾸고 전처리할 때 가장 힘든 부분이 예측할 수 없는 데이터 값들 입니다. nan값이 있는 것은 괜찮지만 뜬금없이 float 타입의 column에 ':' 값이 있을 수도 있고 데이터를 처리할 때 수 많은 에러를 발생시킬 수 있는 값들이 존재한다. 이 값들을 발견할 때 마다 일일히 replace하는 것은 상당히 귀찮은 일이다. pd.read_csv()의 인자인 na_values는 이 복잡한 과정을 한 번에 끝내주는 편리한 도구이다. na_values에 들어있는 값들은 csv파일을 불러올 때 자동으로 nan값으로 변경된다. 때문에 dropna(),fillna()등으로 한 번에 결..
정규 표현식 파이썬 쓰는 이유와 예제 오늘은 정규표현식을 쓰는 이유와 예시에 대해 알아보도록 하겠습니다. 정규 표현식을 쓰는 이유는 간단하다. 문자열 데이터에서 보다 효과적인 검색을 위해서 정규표현식을 사용하는 것이다. 바로 예제로 알아보도록 하자. From stephen.marquard@uct.ac.za Sat Jan 5 09:14:16 2008 Return-Path: Received: from murder (mail.umich.edu [141.211.14.90]) by frankenstein.mail.umich.edu (Cyrus v2.3.8) with LMTPA; Sat, 05 Jan 2008 09:14:16 -0500 X-Sieve: CMU Sieve 2.3 Received: from murder ([unix socket]) by m..

728x90