데이터 분석 python

데이터 분석을 위한 파이썬 기초

데이터 분석을 위해 파이썬을 사용하는 경우가 많습니다. 파이썬은 데이터 분석을 위한 라이브러리가 풍부하고, 기초적인 문법도 쉽게 익힐 수 있기 때문입니다. 이번 포스팅에서는 파이썬을 이용한 데이터 분석의 기초를 살펴보겠습니다.

1. 파이썬 기초 문법

파이썬은 문법이 간결하고 읽기 쉽습니다. 또한 다른 언어와 달리 들여쓰기를 통해 코드의 구조를 구분합니다. 예를 들어, if 문의 경우 다음과 같이 작성합니다.

python
x = 10
if x > 5:
print("x is greater than 5")
else:
print("x is less than or equal to 5")

변수를 선언할 때는 타입을 따로 지정하지 않습니다. 대신 변수에 할당된 값의 타입에 따라 자동으로 타입이 지정됩니다.

python
x = 10 # int type
y = 3.14 # float type
z = "hello" # string type

2. 데이터 타입

데이터 분석에서는 데이터 타입이 매우 중요합니다. 파이썬에서는 다양한 데이터 타입을 지원합니다. 대표적인 데이터 타입으로는 다음과 같은 것들이 있습니다.

  • int: 정수 타입
  • float: 실수 타입
  • bool: 불리언 타입(True, False)
  • str: 문자열 타입

리스트(List)는 여러 개의 값을 담을 수 있습니다. 다음은 리스트의 예입니다.

python
numbers = [1, 2, 3, 4, 5]

리스트의 각 값에는 인덱스(Index)를 통해 접근할 수 있습니다. 인덱스는 0부터 시작합니다.

python
print(numbers[0]) # 1
print(numbers[1]) # 2
print(numbers[-1]) # 5

튜플(Tuple)은 리스트와 비슷하지만, 한 번 생성된 값을 변경할 수 없습니다.

python
coordinates = (10, 20) # x=10, y=20

딕셔너리(Dictionary)는 key-value 쌍으로 구성된 자료형입니다.

python
student = {"name": "John", "age": 23, "major": "Computer Science"}

딕셔너리의 값을 접근할 때는 key를 이용합니다.

python
print(student["name"]) # "John"

3. 데이터 분석을 위한 라이브러리

데이터 분석을 위해서는 다양한 라이브러리를 사용해야 합니다. 파이썬에서는 다음과 같은 라이브러리가 많이 사용됩니다.

  • NumPy: 수학적인 계산을 위한 라이브러리로, 배열(Array) 연산에 특화됩니다.
  • Pandas: 데이터 분석을 위한 라이브러리로, 데이터 프레임(DataFrame)과 시리즈(Series) 자료형을 지원합니다.
  • Matplotlib: 그래프를 그리기 위한 라이브러리입니다.

먼저 NumPy를 사용해보겠습니다.

“`python
import numpy as np

a = np.array([1, 2, 3])
b = np.array([4, 5, 6])

print(a + b) # [5 7 9]
print(a * b) # [4 10 18]
“`

다음은 Pandas를 사용한 데이터 프레임 생성 예시입니다.

“`python
import pandas as pd

data = {“name”: [“John”, “Mike”, “Sarah”], “age”: [25, 30, 27], “gender”: [“M”, “M”, “F”]}
df = pd.DataFrame(data)

print(df)
“`

결과는 다음과 같습니다.

name age gender
0 John 25 M
1 Mike 30 M
2 Sarah 27 F

4. 데이터 시각화

Matplotlib를 사용하면 데이터를 시각화할 수 있습니다. 다음은 그래프 예시입니다.

“`python
import matplotlib.pyplot as plt

x = np.array([1, 2, 3])
y1 = np.array([2, 4, 6])
y2 = np.array([1, 3, 5])

plt.plot(x, y1, label=”y1″)
plt.plot(x, y2, label=”y2″)
plt.xlabel(“x”)
plt.ylabel(“y”)
plt.legend()
plt.show()
“`

결과는 다음과 같습니다.

5. 결론

이번 포스팅에서는 파이썬을 이용한 데이터 분석의 기초를 다뤘습니다. 파이썬의 간결하고 쉬운 문법과 다양한 라이브러리들을 사용하면 비교적 쉽게 데이터 분석을 할 수 있습니다. 데이터 분석을 시작하는 분들께 도움이 되었기를 바랍니다.