pyspark.sql.DataFrame与pandas.DataFrame之间的相互转换实例

yipeiwu_com5年前Python基础

代码如下,步骤流程在代码注释中可见:

# -*- coding: utf-8 -*-
import pandas as pd
from pyspark.sql import SparkSession
from pyspark.sql import SQLContext
from pyspark import SparkContext
 
#初始化数据
 
#初始化pandas DataFrame
df = pd.DataFrame([[1, 2, 3], [4, 5, 6]], index=['row1', 'row2'], columns=['c1', 'c2', 'c3'])
 
#打印数据
print df
 
#初始化spark DataFrame
sc = SparkContext()
if __name__ == "__main__":
 spark = SparkSession\
  .builder\
  .appName("testDataFrame")\
  .getOrCreate()
 
sentenceData = spark.createDataFrame([
 (0.0, "I like Spark"),
 (1.0, "Pandas is useful"),
 (2.0, "They are coded by Python ")
], ["label", "sentence"])
 
#显示数据
sentenceData.select("label").show()
 
#spark.DataFrame 转换成 pandas.DataFrame
sqlContest = SQLContext(sc)
spark_df = sqlContest.createDataFrame(df)
 
#显示数据
spark_df.select("c1").show()
 
 
# pandas.DataFrame 转换成 spark.DataFrame
pandas_df = sentenceData.toPandas()
 
#打印数据
print pandas_df

程序结果:

以上这篇pyspark.sql.DataFrame与pandas.DataFrame之间的相互转换实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持【听图阁-专注于Python设计】。

相关文章

python thrift搭建服务端和客户端测试程序

本文生动简洁介绍了如何通过python搭建一个服务端和客户端的简单测试程序。 一、简介 thrift是一个软件框架,用来进行可扩展且跨语言的服务的开发。它结合了功能强大的软件堆栈和代码...

Python中表示字符串的三种方法

Python中有三种方式表示字符串 第一种方法 使用单引号(‘) 用单引号括起来表示字符串,例如: str='this is string'; print str; 第二种方...

利用Python进行图像的加法,图像混合(附代码)

利用Python进行图像的加法,图像混合(附代码)

一、图像的加法 图像相加可以直接利用numpy模块进行相加,也可以采用opencv里面函数进行相加, 注意事项:相加的图像类型、大小必须相同 具体代码如下: # -*- codin...

sklearn-SVC实现与类参数详解

sklearn-SVC实现与类参数 对应的API:http://scikit-learn.sourceforge.net/stable/modules/generated/sklearn...

Python实现对excel文件列表值进行统计的方法

本文实例讲述了Python实现对excel文件列表值进行统计的方法。分享给大家供大家参考。具体如下: #!/usr/bin/env python #coding=gbk #此PY用来...