728x90
반응형

 티스토리 

 

특정 문자열을 포함하는 데이터를 탐색

안녕하세요, 
오늘의 블로그 포스팅에서는 Python의 Pandas 라이브러리를 활용하여 특정 문자열을 포함하는 데이터를 탐색하고 이를 기반으로 새로운 열을 데이터프레임에 추가하는 방법을 알아보겠습니다.

이번 예제에서특정 문자열을 찾아내는 것을 목표로 합니다.

1. 코드리뷰

데이터프레임 준비
먼저, 우리가 작업할 샘플 데이터프레임을 생성해보겠습니다.

데이터프레임에는 날짜(DATE), 선수 이름(PLAYER), 출생년도(Birth), 소속 클럽(TEAM), 그리고 데이터베이스 ID(DB_ID)가 포함됩니다.

import pandas as pd

# 데이터프레임 수정
data = {
    'DATE': ['2023-10-13 0:00:00', '2023-10-14 1:00:00', '2023-10-15 2:00:00', 
             '2024-01-16 3:00:00', '2024-01-17 4:00:00', '2024-01-18 5:00:00', 
             '2024-01-18 6:00:00', '2024-01-18 7:00:00', '2024-01-18 8:00:00'],
    'PLAYER': ['손흥민(Son Heung-min)', '이강인(Lee Kang-in)', '김민재(Kim Min-jae)', 
               '황희찬(Hwang Hee-chan)', '박지성(Park Ji-sung)', '기성용(Ki Sung-yueng)', 
               '차범근(Cha Bum-kun)', '차두리(Cha Du-ri)', '이청용(Lee Chung-yong)'],
    'Birth': ['1992년 7월 8일', '2001년 2월 19일', '1996년 11월 15일', 
              '1996년 1월 26일', '1981년 2월 25일', '1989년 1월 24일', 
              '1953년 5월 22일', '1980년 7월 25일', '1988년 7월 2일'],
    'TEAM': ['Tottenham Hotspur', 'PSG', 'FC Bayern Munich', 
               'Wolverhampton Wanderers FC', 'Manchester United', 'THE CELTIC FC', 
               '프랑크푸르트', '프랑크푸르트', '볼턴 원더러스'],
    'DB_ID': ['CI13/JO_DATA/TZ10', 'CI07/JO_DATA/TZ10', 'CI13//TZ10', 
              'SI_DATA/TZ10', 'CI3/JO_DATA/TZ12', 'CI13/JO_DATA', 
              'CI13/SI_DATA/TZ10', 'CI77/JO_DATA/TZ10', 'SI_DATA/TZ10']
}
df = pd.DataFrame(data)
df.to_csv('result.csv') # 결과 저장

특정 문자열 탐색 및 새 열 추가

이제 'DB_ID' 열에서 'JO_DATA' 문자열을 포함하는 행을 찾아, 이 정보를 바탕으로 새로운 열 'CHECK_ID'에 'JO_DATA'를 저장하는 작업을 진행하겠습니다. 이를 위해 apply 함수와 람다(lambda) 표현식을 사용합니다.

df.apply() 메소드 와 람다(lambda)는 아래에 다시 자세히 설명 하겠습니다.

df['CHECK_ID'] = df['PLACE'].apply(lambda x: 'JO_DATA' if 'JO_DATA' in x else None)

결과 (output) : CHECK_ID 열에 DB_ID 값 JO_DATA가 있으면 저장한 결과

 

2. apply 함수와 람다(lambda) 표현식

DataFrame.apply() 메소드는 판다스(Pandas)에서 데이터프레임의 열이나 행에 함수를 적용할 때 사용합니다. 
이 메소드는 데이터프레임의 각 열이나 행에 대해 지정된 함수를 적용하고 결과를 데이터프레임 또는 시리즈로 반환합니다.
 axis 매개변수를 통해 함수가 적용되는 축을 지정할 수 있으며, axis=0은 열에 함수를 적용하고, axis=1은 행에 함수를 적용합니다.

예제 1: 열의 최대값과 최소값의 차이 계산

import pandas as pd

df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6], 'C': [7, 8, 9]})

def max_min_diff(x):
    return x.max() - x.min()

result = df.apply(max_min_diff)
print(result)

결과 : 

A    2
B    2
C    2

예제 2: 행별로 최대값 찾기

import pandas as pd

df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6], 'C': [7, 8, 9]})

result = df.apply(max, axis=1)
print(result)

결과 :

0    7
1    8
2    9

예제 3: 데이터프레임의 각 열에 대해 데이터 유형 변환

import pandas as pd

df = pd.DataFrame({'A': [1, 2, 3], 'B': ['4', '5', '6'], 'C': [0.1, 0.2, 0.3]})

def convert_dtype(x):
    if x.dtype == 'float64':
        return x.astype('int64')
    return x

result = df.apply(convert_dtype)
print(result)

결과 :

   A  B  C
0  1  4  0
1  2  5  0
2  3  6  0

이 예제들은 apply() 메소드의 다양한 사용 방법을 보여줍니다. 첫 번째 예제는 각 열의 최대값과 최소값의 차이를 계산합니다. 두 번째 예제는 각 행의 최대값을 찾습니다. 세 번째 예제에서는 데이터프레임의 각 열의 데이터 유형을 조건에 따라 변환합니다.

파이썬의 lambda 함수는 작은 익명 함수를 정의하는 데 사용됩니다. lambda 함수는 여러 인자를 받을 수 있지만, 표현식은 하나만 가질 수 있으며, 그 표현식의 계산 결과가 반환됩니다. lambda 함수는 일반적으로 함수를 인자로 받는 고차 함수에서 사용되거나, 짧은 함수가 필요한 곳에 쓰이는 경우가 많습니다. 기본 형식은 다음과 같습니다.

lambda arguments: expression

예제 1: 두 수를 더하는 lambda 함수

add = lambda x, y: x + y
print(add(5, 3))

예제 2: 리스트의 각 요소에 제곱을 적용

numbers = [1, 2, 3, 4]
squared = list(map(lambda x: x ** 2, numbers))
print(squared)

예제 3: 리스트에서 홀수만 필터링

numbers = [1, 2, 3, 4, 5, 6, 7, 8, 9]
odds = list(filter(lambda x: x % 2 != 0, numbers))
print(odds)

이 예제들은 lambda 함수의 다양한 사용 방법을 보여줍니다. 첫 번째 예제는 두 수를 더하는 간단한 lambda 함수를 정의합니다. 두 번째 예제에서는 map() 함수와 lambda를 결합하여 리스트의 각 요소에 제곱을 적용합니다. 세 번째 예제에서는 filter() 함수와 lambda를 사용하여 리스트에서 홀수만을 필터링합니다.

마무리

- 이번 포스팅은 판다스 조건별 탐색 및 apply() 메소드 및 lambda에 대해 알아봤습니다.

 

궁금한 사항은 댓글을 통해서 남겨 주시면 답변 드리겠습니다.
감사합니다.

 

 

728x90
반응형

+ Recent posts