아파치 스파크 Spark 란?

2021. 11. 3. 23:47Python

Unified engine for large-scale data analytics

대용량 데이터 분석을 위한 통합된 엔진

 

# Spark 특징 

# 다양한 프로그래밍 언어를 지원

- Python

- SQL

- Scala

- Java

- R

# 빠른 속도

# 풍부한 API 제공

- Data Engineering

- Data Science

- Machine Learning

 

 

# 사용 방법

1. Spark Shell을 통해 데이터를 인터랙티브하게 분석할 수 있다.

기본적으로 분석을 위한 프로그래밍 언어로

- Scala

- Python 을 지원하는데, 

 

Scala는 JavaVM 위에서 실행되어서 다른 Java라이브러리와 함께 사용할 수 있다고 한다.

 

2. Spark API를 사용하여 애플리케이션 안에 포함하여 사용할 수 있다.

sbt를 통해 애플리케이션에 포함하여 Scala 언어로 사용하거나,

Maven을 통해 포함하여 Java로 사용하거나,

pip를 통해 포함하여 Python으로 사용할 수 있다.

 

 

# Spark 공식 사이트

https://spark.apache.org

 

Apache Spark™ - Unified Engine for large-scale data analytics

Run now Installing with 'pip' $ pip install pyspark $ pyspark QuickStart Machine Learning Analytics & Data Science df = spark.read.json("logs.json") df.where("age > 21").select("name.first").show() # Every record contains a label and feature vector df = sp

spark.apache.org

 

반응형

'Python' 카테고리의 다른 글

순열과 조합 라이브러리  (0) 2021.11.08
온라인 Python IDE  (0) 2021.10.26
scikit-learn 라이브러리  (0) 2021.08.02
lambda 함수 사용하는 방법  (0) 2021.07.28
List Comprehension  (0) 2021.01.03