pyspark 读取csv文件创建DataFrame的两种方法

yipeiwu_com6年前 (2020-03-06)Python基础

方法一：用pandas辅助

from pyspark import SparkContext 
from pyspark.sql import SQLContext 
import pandas as pd 
sc = SparkContext()
sqlContext=SQLContext(sc) 
df=pd.read_csv(r'game-clicks.csv') 
sdf=sqlc.createDataFrame(df)

方法二：纯spark

from pyspark import SparkContext 
from pyspark.sql import SQLContext
sc = SparkContext()
sqlContext = SQLContext(sc)
sqlContext.read.format('com.databricks.spark.csv').options(header='true', inferschema='true').load('game-clicks.csv')

以上这篇pyspark 读取csv文件创建DataFrame的两种方法就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持【听图阁-专注于Python设计】。

返回列表

上一篇：Python字符转换

下一篇：PHP生成静态页面详解

高质量Python代码编写的5个优化技巧

如今我使用 Python 已经很长时间了，但当我回顾之前写的一些代码时，有时候会感到很沮丧。例如，最早使用 Python 时，我写了一个名为 Sudoku 的游戏（GitHub地址：ht...

Python的numpy库下的几个小函数的用法(小结)

numpy库是Python进行数据分析和矩阵运算的一个非常重要的库，可以说numpy让Python有了matlab的味道本文主要介绍几个numpy库下的小函数。 1、mat函数 mat...

python snownlp情感分析简易demo(分享)

SnowNLP是国人开发的python类库，可以方便的处理中文文本内容，是受到了TextBlob的启发而写的，由于现在大部分的自然语言处理库基本都是针对英文的，于是写了一个方便处理中文的...

对PyQt5中的菜单栏和工具栏实例详解

在这一部分，我们学习创建状态栏，菜单栏和工具栏。一个菜单是位于菜单栏的一组命令。一个工具栏有一些按钮，这些按钮在应用程序中拥有一些常用命令。状态栏显示状态信息，通常位于应用窗口下方。 Q...

小白入门篇使用Python搭建点击率预估模型

点击率预估模型 0.前言本篇是一个基础机器学习入门篇文章，帮助我们熟悉机器学习中的神经网络结构与使用。日常中习惯于使用Python各种成熟的机器学习工具包，例如sklearn、Te...

宜配屋

pyspark 读取csv文件创建DataFrame的两种方法

相关文章

高质量Python代码编写的5个优化技巧

Python的numpy库下的几个小函数的用法(小结)

python snownlp情感分析简易demo(分享)

对PyQt5中的菜单栏和工具栏实例详解

小白入门篇使用Python搭建点击率预估模型

© YiPeiWu.com 【宜配屋】粤ICP备17031333号

Powered By Z-BlogPHP. Theme by TOYEAN.

宜配屋

pyspark 读取csv文件创建DataFrame的两种方法

相关文章

高质量Python代码编写的5个优化技巧

Python的numpy库下的几个小函数的用法(小结)

python snownlp情感分析简易demo(分享)

对PyQt5中的菜单栏和工具栏实例详解

小白入门篇使用Python搭建点击率预估模型

© YiPeiWu.com 【宜配屋】 粤ICP备17031333号 var _hmt = _hmt || [];(function() { var hm = document.createElement("script"); hm.src = "https://hm.baidu.com/hm.js?8aa60ae04b767b2af31903508928acc0"; var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(hm, s);})();

Powered By Z-BlogPHP. Theme by TOYEAN.

© YiPeiWu.com 【宜配屋】粤ICP备17031333号