PySpark dataframe to Opensearch

less than 1 minute read

https://github.com/opensearch-project/opensearch-hadoop/issues/153#issuecomment-1551501905

Launch PySpark with an open search

pyspark --jars /home/nknize/Downloads/opensearch-hadoop-3.0.0-SNAPSHOT.jar

from pyspark.sql import SparkSession
sparkSession = SparkSession.builder.appName("pysparkTest").getOrCreate()
df = sparkSession.createDataFrame([(1, "value1"), (2, "value2")], ["id", "value"])
df.show()
df.write\
    .format("org.opensearch.spark.sql")\
    .option("inferSchema", "true")\
    .option("opensearch.nodes", "127.0.0.1")\
    .option("opensearch.port", "9200")\
    .option("opensearch.net.http.auth.user", "admin")\
    .option("opensearch.net.http.auth.pass", "admin")\
    .option("opensearch.net.ssl", "true")\
    .option("opensearch.net.ssl.cert.allow.self.signed", "true")\
    .option("opensearch.batch.write.retry.count", "9")\
    .option("opensearch.http.retries", "9")\
    .option("opensearch.http.timeout", "18000")\
    .mode("append")\
    .save("pyspark_idx")

Share on

Twitter Facebook LinkedIn

Nam Seob Seo

PySpark dataframe to Opensearch

Share on

You may also enjoy

C++ - std::piecewise_constructor to avoid temporary object creation

How to create MCP server with TypeScript

C++ custom view for ranges

How neural network works