WIP: add files for dataproc tutorial

leahecole · leahecole · commit d0e451f5283d · 2021-12-09T15:05:00.000-08:00
diff --git a/composer/workflows/dataproc/example_dataproc.py b/composer/workflows/dataproc/example_dataproc.py
@@ -0,0 +1,139 @@
+#
+# Licensed to the Apache Software Foundation (ASF) under one
+# or more contributor license agreements.  See the NOTICE file
+# distributed with this work for additional information
+# regarding copyright ownership.  The ASF licenses this file
+# to you under the Apache License, Version 2.0 (the
+# "License"); you may not use this file except in compliance
+# with the License.  You may obtain a copy of the License at
+#
+#   http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing,
+# software distributed under the License is distributed on an
+# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+# KIND, either express or implied.  See the License for the
+# specific language governing permissions and limitations
+# under the License.
+"""
+Example Airflow DAG that show how to use various Dataproc
+operators to manage a cluster and submit jobs.
+"""
+
+import os
+
+from airflow import models
+from airflow.providers.google.cloud.operators.dataproc import (
+    DataprocCreateClusterOperator,
+    DataprocCreateWorkflowTemplateOperator,
+    DataprocDeleteClusterOperator,
+    DataprocInstantiateWorkflowTemplateOperator,
+    DataprocSubmitJobOperator,
+    DataprocUpdateClusterOperator,
+)
+from airflow.providers.google.cloud.sensors.dataproc import DataprocJobSensor
+from airflow.utils.dates import days_ago
+
+PROJECT_ID = os.environ.get("GCP_PROJECT_ID", "leah-playground")
+CLUSTER_NAME = os.environ.get("GCP_DATAPROC_CLUSTER_NAME", "cluster-0c23")
+REGION = os.environ.get("GCP_LOCATION", "us-central1")
+# ZONE = os.environ.get("GCP_REGION", "europe-west1-b")
+# BUCKET = os.environ.get("GCP_DATAPROC_BUCKET", "dataproc-system-tests")
+# OUTPUT_FOLDER = "wordcount"
+# OUTPUT_PATH = f"gs://{BUCKET}/{OUTPUT_FOLDER}/"
+# PYSPARK_MAIN = os.environ.get("PYSPARK_MAIN", "hello_world.py")
+# PYSPARK_URI = f"gs://{BUCKET}/{PYSPARK_MAIN}"
+# SPARKR_MAIN = os.environ.get("SPARKR_MAIN", "hello_world.R")
+# SPARKR_URI = f"gs://{BUCKET}/{SPARKR_MAIN}"
+
+# Cluster definition
+# [START how_to_cloud_dataproc_create_cluster]
+
+CLUSTER_CONFIG = {
+    "master_config": {
+        "num_instances": 1,
+        "machine_type_uri": "n1-standard-4",
+        "disk_config": {"boot_disk_type": "pd-standard", "boot_disk_size_gb": 1024},
+    },
+    "worker_config": {
+        "num_instances": 2,
+        "machine_type_uri": "n1-standard-4",
+        "disk_config": {"boot_disk_type": "pd-standard", "boot_disk_size_gb": 1024},
+    },
+}
+
+# [END how_to_cloud_dataproc_create_cluster]
+
+# # Update options
+# # [START how_to_cloud_dataproc_updatemask_cluster_operator]
+# CLUSTER_UPDATE = {
+#     "config": {"worker_config": {"num_instances": 3}, "secondary_worker_config": {"num_instances": 3}}
+# }
+# UPDATE_MASK = {
+#     "paths": ["config.worker_config.num_instances", "config.secondary_worker_config.num_instances"]
+# }
+# # [END how_to_cloud_dataproc_updatemask_cluster_operator]
+
+# TIMEOUT = {"seconds": 1 * 24 * 60 * 60}
+
+# [START how_to_cloud_dataproc_pyspark_config]
+# PYSPARK_JOB = {
+#     "reference": {"project_id": PROJECT_ID},
+#     "placement": {"cluster_name": CLUSTER_NAME},
+#     "pyspark_job": {"main_python_file_uri": PYSPARK_URI},
+# }
+PYSPARK_JOB = {
+    "reference": {"project_id": "leah-playground"},
+    "placement": {"cluster_name": CLUSTER_NAME},
+    "pyspark_job": {"main_python_file_uri": "gs://leah-playground/word-count.py", "args": ["gs://leah-playground/input", "gs://leah-playground/output-0"]},
+}
+# [END how_to_cloud_dataproc_pyspark_config]
+
+
+with models.DAG("example_gcp_dataproc", start_date=days_ago(1), schedule_interval=None) as dag:
+    # [START how_to_cloud_dataproc_create_cluster_operator]
+    create_cluster = DataprocCreateClusterOperator(
+        task_id="create_cluster",
+        project_id=PROJECT_ID,
+        cluster_config=CLUSTER_CONFIG,
+        region=REGION,
+        cluster_name=CLUSTER_NAME,
+    )
+    # # [END how_to_cloud_dataproc_create_cluster_operator]
+
+    # # [START how_to_cloud_dataproc_update_cluster_operator]
+    # scale_cluster = DataprocUpdateClusterOperator(
+    #     task_id="scale_cluster",
+    #     cluster_name=CLUSTER_NAME,
+    #     cluster=CLUSTER_UPDATE,
+    #     update_mask=UPDATE_MASK,
+    #     graceful_decommission_timeout=TIMEOUT,
+    #     project_id=PROJECT_ID,
+    #     location=REGION,
+    # )
+    # # [END how_to_cloud_dataproc_update_cluster_operator]
+
+
+    # [START how_to_cloud_dataproc_submit_job_to_cluster_operator]
+    pyspark_task = DataprocSubmitJobOperator(
+        task_id="pyspark_task", job=PYSPARK_JOB, location=REGION, project_id=PROJECT_ID
+    )
+    # [END how_to_cloud_dataproc_submit_job_to_cluster_operator]
+
+
+    # # [START how_to_cloud_dataproc_delete_cluster_operator]
+    delete_cluster = DataprocDeleteClusterOperator(
+        task_id="delete_cluster", project_id=PROJECT_ID, cluster_name=CLUSTER_NAME, region=REGION
+    )
+    # # [END how_to_cloud_dataproc_delete_cluster_operator]
+    create_cluster >> pyspark_task >> delete_cluster
+    # create_cluster >> scale_cluster
+    # scale_cluster >> create_workflow_template >> trigger_workflow >> delete_cluster
+    # scale_cluster >> hive_task >> delete_cluster
+    # scale_cluster >> pig_task >> delete_cluster
+    # scale_cluster >> spark_sql_task >> delete_cluster
+    # scale_cluster >> spark_task >> delete_cluster
+    # scale_cluster >> spark_task_async >> spark_task_async_sensor >> delete_cluster
+    # scale_cluster >> pyspark_task >> delete_cluster
+    # scale_cluster >> sparkr_task >> delete_cluster
+    # scale_cluster >> hadoop_task >> delete_cluster
diff --git a/composer/workflows/dataproc/word-count.py b/composer/workflows/dataproc/word-count.py
@@ -0,0 +1,16 @@
+#!/usr/bin/env python
+
+import pyspark
+import sys
+
+if len(sys.argv) != 3:
+  raise Exception("Exactly 2 arguments are required: <inputUri> <outputUri>")
+
+inputUri=sys.argv[1]
+outputUri=sys.argv[2]
+
+sc = pyspark.SparkContext()
+lines = sc.textFile(sys.argv[1])
+words = lines.flatMap(lambda line: line.split())
+wordCounts = words.map(lambda word: (word, 1)).reduceByKey(lambda count1, count2: count1 + count2)
+wordCounts.saveAsTextFile(sys.argv[2])