Spark on 说

Spark on 说 /tags/spark/ Recent content in Spark on 说 Hugo -- gohugo.io cn Powered by [Hugo](//gohugo.io). Theme by [PPOffice](http://github.com/ppoffice). Sat, 11 May 2019 00:00:00 +0000 IDEA远程访问Spark直接运行代码的尝试 /2019/2019-idearemotespark/ Sat, 11 May 2019 00:00:00 +0000 /2019/2019-idearemotespark/ 直接的集成环境IDEA上连接Spark，运行代码，不用再在服务器上执行代码，美好的想法，但只成功了一半 1.远程连接的3关写好代码： val sparkurl="spark://guan-pc:7077" val spark = SparkSession.builder.master(sparkurl).appName("start").getOrCreate() 1.1 代码工程配置正确运行错误先是Class Not Found，是工程配置的版本与Spark、Scala不匹配的原因，先要将sbt中的 libraryDependencies += "org.apache.spark" % "spark-streaming_2.12" % "2.4.2" % "provided" 的provided部分删除，因为程序是要在本地运行的然后就是这两个版本了，Spark的版本好办，安装的是什么就写什么。中间的Scala内核版本就要麻烦点，不要想当然，可靠的办法是去Spark安装目录的jars下面看， Spark2.4.2用的内核版本是2.12，但2.4.3又回到了2.11，想当然会错 window下如此，Linux同 1.2 HADOOP文件之后会提示个找不到HADOOP文件winutils.exe，下一个HADOOP的支持目录 1.3 启动Spark的大坑似乎万事具备了，但实际上就是连不上，还重新检查了Linux端口，无论怎么弄，网页没问题，但代码就是连不上，终于找到了大神的解决方案，原来是Spark的启动方式，启动时我一般都用最简单的命令 start-all.sh 但要在windows上远程连接，要用指明IP的方式启动 start-master.sh -h 192.168.0.109 start-slave.sh spark://192.168.0.109:7077 终于连接好了，准备开始读数据 ## 2.读文件的方法还不知道怎么解决，因为代码在本地执行，而Spark在服务器， Spark无法读取本地的文件，代码如何才能告诉Spark读的是服务器文件呢？试了 spark.read.csv("file:///home/guan/data/dat.csv") 还是本地的，难道一定要建个HDFS才行吗？有待继续研究 3 window上安装spark 在windows上安装Spark没有什么不同，但启动是个问题，start-master，start-all之类的命令在windows上不能用要调用类的方式启动 spark-class org.apache.spark.deploy.master.Master spark-class org.apache.spark.deploy.worker.Worker spark://ip:port Linux Spark 掉坑逃坑记 /2019/2019-linuxsparkstudy/ Sat, 11 May 2019 00:00:00 +0000 /2019/2019-linuxsparkstudy/ 1 安装软件 Linux下安装软件于windows有很大不同。大致来讲，有4种方式，有的地方会更加的方便，但有的地方也非常的不方便。 1.1 linux下安装软件的四种方法。第1种，在线用命令安装，非常方便，敲一行命令，就可以直接安装一个软件，网上的攻略也是经常是用这种方式，pip install SomePackage 第2种，下载预编译包，这大致相当于windows下的绿色软件，下载的软件包直接解压，再修改配置文件，设置环境变量，就好了。第3种，sh文件，这是类似与windows下如exe安装包，只要下载好，用命令安执行，按照提示一步一步操作就可以了，只是把用鼠标点击一步步安装，改成了敲击键盘和回车。第四种，最复杂如，下载软件的源代码，解压后自己编译，不但要使用编译命令，还必须要有编译的环境，一般是gcc。我采用的方法。第一种方法虽然好，但我们无法使用，因为我们的服务器与外网隔离。用的最多的是第二种，先用自己电脑把压缩包下载好，查杀病毒，上传到服务器，解压再配置文件。虽然看上去还算简单，但Linux下压缩包格式有很多种，有tar、gz等等，不同的文件要用不同的解压命令，几乎是没有办法记住，只能现用现查。 1.2 安装步骤 1.2.1 安装java，第一个坑前面的步骤一样，我下载如记rpm包，安装本省挺顺利。修改配置文件是很大的坑，千万不能出错，用这个命令打开配置文件 vi /etc/profile` 修改这个文件，配置环境变量，java需要配置好几个环境变量，PATH，CLASSPATH，JAVA_HOME，这个配置文件，环境变量命令如下： export JAVA_HOME=/usr/share/jdk1.6.0_14' export PATH=\$JAVA_HOME/bin:$PATH 每个变量用** : 隔开，而windows是用 ; , 连接用 $ **，千万不能出错我第一次就把冒号输入成了分号，导致把整个PATH都没有用了，几乎所有命令都用不了 vi命令也用不了，所以也没有办法打开配置文件修改，真是难题，这记第一根坑解决，PATH没有了，直接打命令找不到，但命令本身还是在的，只要的文件夹种找到，还是可以用如，在各个文件夹中找到了vi，切换到文件夹中后，重新修改。但是修改后的source命令到处都没有找到，好在只要重启，就可以自动执行，继续找shutdown命令，然后用shutdown restart now。重启后终于好了。 1.2.2 安装scala 也用rpm包，一切顺利 1.2.3 安装Hadoop tar.gz包，下载了2.7的，一切顺利，但暂时用不到，我就没有去配置。 1.2.4 安装Spark 终于到正题了，下载了spark-2.4.0-bin-hadoop2.7.tgz，貌似自带hadoop，不过我也没时间试过了。 2 应用篇 2.