이번 포스팅의 목적은 [ic]keyword[/ic] 컬럼에 있는 같은 키워드끼리 합치는 거다.
([ic]df_1[/ic], [ic]df_2[/ic]는 데이터 갯수가 다르다.)
이때 사용할 수 있는 유용한 함수가 바로 merge다.
[ic]merge[/ic]는 주로 두 개 데이터프레임을 합칠 때 유용하다.
이 글과 읽으면 좋은글
사용법
merged_df = pd.merge(df_1, df_2, on='keyword')
print(merged_df)
1번째, 2번째 인자 | 합칠 데이터 프레임을 넣어준다. |
on | 어떤 열을 기준으로 합칠지 지정 |
결과를 보면 20개 값이 출력 되었다.
[ic]df_2[/ic]는 24개인데 이상하다. 나머지 값 4개는 어디로 갔을까?
그 이유는 [ic]how='inner'[/ic]가 디폴트 세팅이기 때문이다.
merged_df = pd.merge(df_1, df_2, on='keyword', how='inner')
여기서 [ic]inner[/ic]은 두 데이터 프레임에 동시에 있는 값들만 합치겠다는 말이다.
즉 둘 중 하나라도 없다면 값을 제거한다.
그렇다면 모든 데이터를 살리려면 어떻게 할까?
[ic]how='outer'[/ic]를 적용해 주면 된다.
merged_df = pd.merge(df_1, df_2, on='keyword', how='outer')
print(merged_df)
정상적으로 24개 값이 출력되고 df_1에 없었던 내용은 [ic]nan[/ic]으로 표시된다.
'파이썬 > pandas' 카테고리의 다른 글
vscode 터미널에서 데이터프레임(dataframe) 예쁘게 출력하는 방법 (0) | 2023.01.26 |
---|---|
[파이썬]텍스트 파일 내용 한번에 수정(pandas) (0) | 2023.01.17 |
[판다스 기초] 특정 열(column) 삭제 하는 방법 (0) | 2022.08.23 |
[판다스 기초] 인덱스(index) 시작 번호 지정 하는 법 (0) | 2022.08.23 |
[판다스] 엑셀(excel) sheet별 데이터 이어 붙이는 방법 (0) | 2022.08.22 |
댓글