╱╱╭╮╱╱╱╱╱╱╭━━━╮╱╱╱╭╮╱╭╮╱╱╱╱╱╱ ╱╱┃┃╱╱╱╱╱╱┃╭━╮┃╱╱╱┃┃╱┃┃╱╱╱╱╱╱ ╱╱┃┣━━┳━━╮┃┃╱┃┣━╮╱┃╰━╯┣━━┳━╮╱ ╭╮┃┃╭╮┃┃━┫┃╰━╯┃╭╮╮┃╭━╮┃╭╮┃╭╮╮ ┃╰╯┃╭╮┃┃━┫┃╭━╮┃┃┃┃┃┃╱┃┃╭╮┃┃┃┃ ╰━━┻╯╰┻━━╯╰╯╱╰┻╯╰╯╰╯╱╰┻╯╰┻╯╰╯

Python/Pandas 4

[Pandas] 데이터프레임 (DataFrame)

데이터프레임은 2차원 배열의 형태를 띄고있다. 데이터프레임은 파이썬은 딕셔너리로 생각해도 좋다. 데이터프레임을 구축하는 요소로 시리즈가 있다. 키:시리즈 키:시리즈 데이터 프레임은 위의 형태로 시리즈를 내포하고있다. (딕셔너리) 이때 데이터 프레임은 행,열 의 구조가되며 각 열은 시리즈(리스트)를 갖고있으며 행은 키들로 구분된다. 실제로 DataFrame()이 입력받는 인자가 딕셔너리이다. 각 키들은 columns, 값들은 rows가 된다. 그리고 왼쪽은 0,1,2는 인덱스를 뜻한다. 데이터프레임을 생성할 때 위와 같이 index와 columns의 이름을 정해줄 수도 있다. 그런데 이때 주의할 점이 DataFrame에 들어가는 숫자형 데이터는 2중 리스트라는 것이다. 그럼 이제 데이터프레임의 사용법에 대..

Python/Pandas 2022.05.02

[Pandas] 시리즈 2 (Series)

시리즈에서 사용할 수 있는 attributes가 많다. 이번엔 시리즈의 attributes에 대해 알아볼 것이다. 모든 attributes에 대해 알아볼 것은 아니고 많이 사용할 거 같은 거게 대해서만 알아보겠다. 참고로 모든 attributes에 대해 알아볼려면 pandas document를 참고하면 된다. 해당 상태에서 시작하겠다. method가 아닌 attribute는 (중괄호)를 사용하지 않는다. 참조연산자를 통해 접근할 수 있다. hasnan : nan(null)값이 있으면 true를 반환한다. 우선 Nan이란 null이라고 생각하면 된다. 비어있는 값을 나타내며 numpy를 통해 나타낼 수 있다. 관계형 데이터와 비관계형 데이터의 차이 때문에 null값은 언제든지 생길 수 있다. 해당 데이터에..

Python/Pandas 2022.05.01

[Pandas] 시리즈 (Series)

시리즈 클래스는 1차원 배열을 형태를 띄고 있다. list라고 생각하면 편하다. 그런데 파이썬의 list와 다른점은 파이썬 list는 번호를 통해 인덱싱을 했다. 시리즈는 각 요소(값)에 대응하는 인덱스를 부여할 수 있다는 것이다. Series 기초 Series 속성 이제 시리즈를 만들어 보겠다. Series 기초 pd.Series()를 통해 시리즈를 생성할 수 있으며 인수로 list가 들어가야한다. 아래의 실행결과는 자동으로 나오는 것이다. 0 1 2 3 4 는 인덱스 1 2 3 4 5 는 값이다. 각각의 값마다 인덱스를 부여하였다. index attribute에 값 리스트와 동일한 길이의 리스트를 넣어주면 자동으로 mapping된다. 이때 인덱스의 개수는 시리즈의 길이와 같아야한다. (인덱스를 모두 ..

Python/Pandas 2022.04.30

[Pandas] 판다스 입문

우선 Pandas는 데이터처리를 돕는 파이썬 라이브러리이다. 파이썬을 이용한 데이터 분석에는 총 3개의 라이브러리가 필수적으로 필요하다. Numpy Pandas Matplotlib 이번에 알아볼 Pandas는 데이터 분석에 용이하다. Pandas는 기본적으로 파이썬 라이브러리이기 때문에 파이썬 문법을 사용한다. 하지만 파이썬과 차이점이 있는데 사용하는 데이터의 구조이다. Pandas에서는 총 3가지의 데이터 구조가 있다. Series DataFrame Panel 이중에서 시리즈와 데이터프레임이 가장 많이 사용된다. Pandas를 사용할 때 Anaconda의 jupyter를 많이 사용한다. 그런데 지금은 Collaboratory를 사용할 것이다. Pandas를 사용하려면 import해야한다. pd로 하는 ..

Python/Pandas 2022.04.30