<?xml version="1.0" encoding="utf-8" standalone="yes" ?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
  <channel>
    <title>Spark on 说</title>
    <link>/tags/spark/</link>
    <description>Recent content in Spark on 说</description>
    <generator>Hugo -- gohugo.io</generator>
    <language>cn</language>
    <copyright>Powered by [Hugo](//gohugo.io). Theme by [PPOffice](http://github.com/ppoffice).</copyright>
    <lastBuildDate>Sat, 11 May 2019 00:00:00 +0000</lastBuildDate>
    
	<atom:link href="/tags/spark/index.xml" rel="self" type="application/rss+xml" />
    
    
    <item>
      <title>IDEA远程访问Spark直接运行代码的尝试</title>
      <link>/2019/2019-idearemotespark/</link>
      <pubDate>Sat, 11 May 2019 00:00:00 +0000</pubDate>
      
      <guid>/2019/2019-idearemotespark/</guid>
      <description> 直接的集成环境IDEA上连接Spark，运行代码，不用再在服务器上执行代码， 美好的想法，但只成功了一半
1.远程连接的3关 写好代码：
val sparkurl=&amp;quot;spark://guan-pc:7077&amp;quot; val spark = SparkSession.builder.master(sparkurl).appName(&amp;quot;start&amp;quot;).getOrCreate() 1.1 代码工程配置正确 运行错误先是Class Not Found，是工程配置的版本与Spark、Scala不匹配的原因，先要将sbt中的
libraryDependencies += &amp;quot;org.apache.spark&amp;quot; % &amp;quot;spark-streaming_2.12&amp;quot; % &amp;quot;2.4.2&amp;quot; % &amp;quot;provided&amp;quot; 的provided部分删除，因为程序是要在本地运行的
 然后就是这两个版本了，Spark的版本好办，安装的是什么就写什么。 中间的Scala内核版本就要麻烦点，不要想当然，可靠的办法是去Spark安装目录的jars下面看， Spark2.4.2用的内核版本是2.12，但2.4.3又回到了2.11，想当然会错
 window下如此，Linux同
  1.2 HADOOP文件 之后会提示个找不到HADOOP文件winutils.exe，下一个HADOOP的支持目录
 1.3 启动Spark的大坑 似乎万事具备了，但实际上就是连不上，还重新检查了Linux端口，无论怎么弄， 网页没问题，但代码就是连不上，终于找到了大神的解决方案，原来是Spark的启动方式， 启动时我一般都用最简单的命令
start-all.sh  但要在windows上远程连接，要用指明IP的方式启动
start-master.sh -h 192.168.0.109 start-slave.sh spark://192.168.0.109:7077 终于连接好了，准备开始读数据 ## 2.读文件的方法 还不知道怎么解决，因为代码在本地执行，而Spark在服务器， Spark无法读取本地的文件，代码如何才能告诉Spark读的是服务器文件呢？ 试了
spark.read.csv(&amp;quot;file:///home/guan/data/dat.csv&amp;quot;) 还是本地的，难道一定要建个HDFS才行吗？ 有待继续研究
  3 window上安装spark 在windows上安装Spark没有什么不同，但启动是个问题，start-master，start-all之类的命令在windows上不能用 要调用类的方式启动
spark-class org.apache.spark.deploy.master.Master spark-class org.apache.spark.deploy.worker.Worker spark://ip:port  </description>
    </item>
    
    <item>
      <title>Linux Spark 掉坑逃坑记</title>
      <link>/2019/2019-linuxsparkstudy/</link>
      <pubDate>Sat, 11 May 2019 00:00:00 +0000</pubDate>
      
      <guid>/2019/2019-linuxsparkstudy/</guid>
      <description>1 安装软件 Linux下安装软件于windows有很大不同。大致来讲，有4种方式，有的地方会更加的方便，但有的地方也非常的不方便。
1.1 linux下安装软件的四种方法。  第1种，在线用命令安装，非常方便，敲一行命令，就可以直接安装一个软件，网上的攻略也是经常是用这种方式，pip install SomePackage
 第2种，下载预编译包，这大致相当于windows下的绿色软件，下载的软件包直接解压，再修改配置文件，设置环境变量，就好了。
 第3种，sh文件，这是类似与windows下如exe安装包，只要下载好，用命令安执行，按照提示一步一步操作就可以了，只是把用鼠标点击一步步安装，改成了敲击键盘和回车。
 第四种，最复杂如，下载软件的源代码，解压后自己编译，不但要使用编译命令，还必须要有编译的环境，一般是gcc。
 我采用的方法。 第一种方法虽然好，但我们无法使用，因为我们的服务器与外网隔离。用的最多的是第二种，先用自己电脑把压缩包下载好，查杀病毒，上传到服务器，解压再配置文件。虽然看上去还算简单，但Linux下压缩包格式有很多种，有tar、gz等等，不同的文件要用不同的解压命令，几乎是没有办法记住，只能现用现查。
   1.2 安装步骤 1.2.1 安装java，第一个坑 前面的步骤一样，我下载如记rpm包，安装本省挺顺利。 修改配置文件是很大的坑，千万不能出错，用这个命令打开配置文件
vi /etc/profile` 修改这个文件，配置环境变量，java需要配置好几个环境变量，PATH，CLASSPATH，JAVA_HOME， 这个配置文件，环境变量命令如下：
export JAVA_HOME=/usr/share/jdk1.6.0_14&amp;#39; export PATH=\$JAVA_HOME/bin:$PATH 每个变量用** : 隔开，而windows是用 ; , 连接用 $ **，千万不能出错
我第一次就把冒号输入成了分号，导致把整个PATH都没有用了，几乎所有命令都用不了 vi命令也用不了，所以也没有办法打开配置文件修改，真是难题，这记第一根坑
 解决，PATH没有了，直接打命令找不到，但命令本身还是在的，只要的文件夹种找到，还是可以用如， 在各个文件夹中找到了vi，切换到文件夹中后，重新修改。但是修改后的source命令到处都没有找到， 好在只要重启，就可以自动执行，继续找shutdown命令，然后用shutdown restart now。 重启后终于好了。
  1.2.2 安装scala 也用rpm包，一切顺利
 1.2.3 安装Hadoop tar.gz包，下载了2.7的，一切顺利，但暂时用不到，我就没有去配置。
 1.2.4 安装Spark 终于到正题了，下载了spark-2.4.0-bin-hadoop2.7.tgz，貌似自带hadoop，不过我也没时间试过了。
   2 应用篇 2.</description>
    </item>
    
  </channel>
</rss>