아파치 스파크 Spark 란?
2021. 11. 3. 23:47ㆍPython
Unified engine for large-scale data analytics
대용량 데이터 분석을 위한 통합된 엔진
# Spark 특징
# 다양한 프로그래밍 언어를 지원
- Python
- SQL
- Scala
- Java
- R
# 빠른 속도
# 풍부한 API 제공
- Data Engineering
- Data Science
- Machine Learning
# 사용 방법
1. Spark Shell을 통해 데이터를 인터랙티브하게 분석할 수 있다.
기본적으로 분석을 위한 프로그래밍 언어로
- Scala
- Python 을 지원하는데,
Scala는 JavaVM 위에서 실행되어서 다른 Java라이브러리와 함께 사용할 수 있다고 한다.
2. Spark API를 사용하여 애플리케이션 안에 포함하여 사용할 수 있다.
sbt를 통해 애플리케이션에 포함하여 Scala 언어로 사용하거나,
Maven을 통해 포함하여 Java로 사용하거나,
pip를 통해 포함하여 Python으로 사용할 수 있다.
# Spark 공식 사이트
Apache Spark™ - Unified Engine for large-scale data analytics
Run now Installing with 'pip' $ pip install pyspark $ pyspark QuickStart Machine Learning Analytics & Data Science df = spark.read.json("logs.json") df.where("age > 21").select("name.first").show() # Every record contains a label and feature vector df = sp
spark.apache.org
반응형
'Python' 카테고리의 다른 글
순열과 조합 라이브러리 (0) | 2021.11.08 |
---|---|
온라인 Python IDE (0) | 2021.10.26 |
scikit-learn 라이브러리 (0) | 2021.08.02 |
lambda 함수 사용하는 방법 (0) | 2021.07.28 |
List Comprehension (0) | 2021.01.03 |