무효 클릭 IP 추적 중...
파이썬/pandas

[파이썬 pandas]데이터프레임 열 합치기(merge)

꼬예 2023. 2. 20.

이번 포스팅의 목적은 [ic]keyword[/ic] 컬럼에 있는 같은 키워드끼리 합치는 거다.

([ic]df_1[/ic], [ic]df_2[/ic]는 데이터 갯수가 다르다.)

 

이때 사용할 수 있는 유용한 함수가 바로 merge다.

[ic]merge[/ic]는 주로 두 개 데이터프레임을 합칠 때 유용하다.

 

 

이 글과 읽으면 좋은글

 

사용법

merged_df = pd.merge(df_1, df_2, on='keyword')
print(merged_df)
1번째, 2번째 인자 합칠 데이터 프레임을 넣어준다.
on 어떤 열을 기준으로 합칠지 지정

디폴트 merge

결과를 보면 20개 값이 출력 되었다.

[ic]df_2[/ic]는 24개인데 이상하다. 나머지 값 4개는 어디로 갔을까?

 

그 이유는 [ic]how='inner'[/ic]가 디폴트 세팅이기 때문이다.

merged_df = pd.merge(df_1, df_2, on='keyword', how='inner')

여기서 [ic]inner[/ic]은 두 데이터 프레임에 동시에 있는 값들만 합치겠다는 말이다.

즉 둘 중 하나라도 없다면 값을 제거한다.

 

그렇다면 모든 데이터를 살리려면 어떻게 할까?

[ic]how='outer'[/ic]를 적용해 주면 된다.

 

merged_df = pd.merge(df_1, df_2, on='keyword', how='outer')
print(merged_df)

 

정상적으로 24개 값이 출력되고 df_1에 없었던 내용은 [ic]nan[/ic]으로 표시된다.

how='outer'적용 값

👉 쥬피터노트북에 chatgpt 적용 하기

  • 트위터 공유하기
  • 페이스북 공유하기
  • 카카오톡 공유하기
이 컨텐츠가 마음에 드셨다면 커피 한잔(후원) ☕

댓글