파이썬/pandas

[파이썬 pandas]데이터프레임 열 합치기(merge)

꼬예 2023. 2. 20.

이번 포스팅의 목적은 [ic]keyword[/ic] 컬럼에 있는 같은 키워드끼리 합치는 거다.

([ic]df_1[/ic], [ic]df_2[/ic]는 데이터 갯수가 다르다.)

이때 사용할 수 있는 유용한 함수가 바로 merge다.

[ic]merge[/ic]는 주로 두 개 데이터프레임을 합칠 때 유용하다.

이 글과 읽으면 좋은글

merged_df = pd.merge(df_1, df_2, on='keyword')
print(merged_df)

1번째, 2번째 인자	합칠 데이터 프레임을 넣어준다.
on	어떤 열을 기준으로 합칠지 지정

결과를 보면 20개 값이 출력 되었다.

[ic]df_2[/ic]는 24개인데 이상하다. 나머지 값 4개는 어디로 갔을까?

그 이유는 [ic]how='inner'[/ic]가 디폴트 세팅이기 때문이다.

merged_df = pd.merge(df_1, df_2, on='keyword', how='inner')

여기서 [ic]inner[/ic]은 두 데이터 프레임에 동시에 있는 값들만 합치겠다는 말이다.

즉 둘 중 하나라도 없다면 값을 제거한다.

그렇다면 모든 데이터를 살리려면 어떻게 할까?

[ic]how='outer'[/ic]를 적용해 주면 된다.

merged_df = pd.merge(df_1, df_2, on='keyword', how='outer')
print(merged_df)

정상적으로 24개 값이 출력되고 df_1에 없었던 내용은 [ic]nan[/ic]으로 표시된다.

vscode 터미널에서 데이터프레임(dataframe) 예쁘게 출력하는 방법 (0)	2023.01.26
[파이썬]텍스트 파일 내용 한번에 수정(pandas) (0)	2023.01.17
[판다스 기초] 특정 열(column) 삭제 하는 방법 (0)	2022.08.23
[판다스 기초] 인덱스(index) 시작 번호 지정 하는 법 (0)	2022.08.23
[판다스] 엑셀(excel) sheet별 데이터 이어 붙이는 방법 (0)	2022.08.22

이 컨텐츠가 마음에 드셨다면 커피 한잔(후원) ☕