[Python] groupby()
groupby()๋ pandas ๋ผ์ด๋ธ๋ฌ๋ฆฌ์์ ์ ๊ณตํ๋ ํจ์๋ก, ํน์ ์ด์ ๊ธฐ์ค์ผ๋ก ๋ฐ์ดํฐ๋ฅผ ๊ทธ๋ฃนํํ๊ณ ์ด์ ๋ํ ๋ค์ํ ์ฐ์ฐ(ํ๊ท , ํฉ๊ณ ๋ฑ)์ ์ํํ ์ ์๊ฒ ํฉ๋๋ค. ์๋ณ ์ฃผ๋ฌธ๊ฑด์ ์์๋ด๊ธฐ import pandas as pd # ์ํ ๋ฐ์ดํฐ ์์ฑ data = { 'order_id': [1, 2, 3, 4, 5], 'order_date': ['2023-01-01', '2023-01-02', '2023-02-01', '2023-02-02', '2023-03-01'], } df = pd.DataFrame(data) # order_date ์ด์ datetime ํ์
์ผ๋ก ๋ณํ df['order_date'] = pd.to_datetime(df['order_date']) # order_date ์ด์์ ์ ์ ๋ณด ..
2023. 9. 13.
[Python] info()
info() ํจ์๋ pandas DataFrame์ ๋ํ ์์ฝ ์ ๋ณด๋ฅผ ์ถ๋ ฅํ๋๋ฐ ์ฌ์ฉ๋ฉ๋๋ค. ์ด ํจ์๋ DataFrame์ ํฌ๊ธฐ, ์ปฌ๋ผ ์ด๋ฆ, ๋ฐ์ดํฐ ํ์
, ๋น์ด์์ง ์์ ๊ฐ์ ๊ฐ์ ๋ฑ์ ์ ๊ณตํฉ๋๋ค. import pandas as pd # ์ํ ๋ฐ์ดํฐ ์์ฑ data = { 'Name': ['John', 'Anna', 'Peter', 'Linda'], 'Age': [28, 24, 35, 32], 'City': ['New York', 'Paris', None, 'Berlin'] } df = pd.DataFrame(data) # DataFrame ์ ๋ณด ์ถ๋ ฅ df.info() RangeIndex: 4 entries, 0 to 3 Data columns (total 3 columns): # Column Non-N..
2023. 9. 13.
[Python] scatter()
scatter() ํจ์์ ๋ํด ๋ฌป๋ ๊ฒ ๊ฐ์ต๋๋ค. ์ด ํจ์๋ ๋ฐ์ดํฐ ์๊ฐํ์์ ์ฃผ๋ก ์ฌ์ฉ๋ฉ๋๋ค. Python์ matplotlib ๋ผ์ด๋ธ๋ฌ๋ฆฌ์์ scatter() ํจ์๋ ์ฐ์ ๋๋ฅผ ์์ฑํ๋๋ฐ ์ฌ์ฉ๋ฉ๋๋ค. import matplotlib.pyplot as plt x = [1, 2, 3, 4, 5] y = [2, 3, 5, 7, 11] plt.scatter(x, y) plt.show() ๊ฐ ์ ์ x์ขํ์ y์ขํ๋ ๊ฐ๊ฐ x, y ๋ฆฌ์คํธ์ ์์๋ค์
๋๋ค. ์ต์
์ค๋ช
matplotlib.pyplot.scatter(x, y, s=None, c=None, marker=None, cmap=None, norm=None, vmin=None, vmax=None, alpha=None, linewidths=None, *, edge..
2023. 9. 10.
[Python] loc()
Pandas์ loc๋ ๋ ์ด๋ธ ๊ธฐ๋ฐ ๋ฐ์ดํฐ ์ ํ ๋ฐฉ๋ฒ์ ์ ๊ณตํฉ๋๋ค. ์ฆ, ์ธ๋ฑ์ค์ ์ด๋ฆ์ด๋ ์ด ๋ ์ด๋ธ๋ก ๋ฐ์ดํฐ๋ฅผ ์ ํํ ์ ์์ต๋๋ค. ๊ธฐ๋ณธ ํํ DataFrame.loc[, ] : ์ ํํ๋ ค๋ ํ์ ์ง์ ํฉ๋๋ค. ์ด๋ ๋จ์ผ ๋ ์ด๋ธ, ๋ ์ด๋ธ ๋ฆฌ์คํธ, ๋ ์ด๋ธ ์ฌ๋ผ์ด์ฑ, ๋ถ๋ฆฌ์ธ ๋ฐฐ์ด ๋ฑ ๋ค์ํ ํํ๊ฐ ๋ ์ ์์ต๋๋ค. : ์ ํํ๋ ค๋ ์ด์ ์ง์ ํฉ๋๋ค. ์ด๋ ๋ง์ฐฌ๊ฐ์ง๋ก ๋จ์ผ ๋ ์ด๋ธ, ๋ ์ด๋ธ ๋ฆฌ์คํธ, ๋ ์ด๋ธ ์ฌ๋ผ์ด์ฑ ๋ฑ์ผ๋ก ์ง์ ๋ฉ๋๋ค. # 'A' ์ด ์ ํ df.loc[:, 'A'] # 'A'์ 'B'์ด ์ ํ df.loc[:, ['A', 'B']] # ์ธ๋ฑ์ค 0๋ถํฐ 2๊น์ง ํ๊ณผ ๋ชจ๋ ์ด ์ ํ df.loc[0:2,:] # ์กฐ๊ฑด์ ๋ฐ๋ฅธ ํ๊ณผ ๋ชจ๋ ์ด ์ ํ (์: A์ด ๊ฐ > 5) df.loc[df['A'] > 5,:] 1...
2023. 9. 10.