Cloudera CDH#

Cloudera 为企业客户提供基于 Apache Hadoop 的软件、支持和服务,以及培训。他们的开源 Apache Hadoop 发行版 CDH(包括 Apache Hadoop 的 Cloudera 发行版)针对该技术的企业级部署。

您可以在具有 Cloudera CDH(包括 Apache Hadoop 的 Cloudera 发行版)的现有集群上使用 Anaconda。

请参阅博客文章 自助式开放数据科学:Cloudera 的自定义 Anaconda 包,或按照以下步骤操作。

安装 Anaconda 包#

以下步骤描述了如何在使用 Cloudera Manager 的 CDH 集群上安装 Anaconda 包。Anaconda 包提供了 Anaconda 的静态安装,基于 Python 2.7,可用于集群上的 Python 和 PySpark 作业。

  1. 在 Cloudera Manager 管理控制台中,在顶部导航栏中,单击包图标。

  2. 在包页面的右上角,单击编辑设置按钮。

  3. 在远程包存储库 URL 部分,单击加号,然后添加以下存储库 URL 用于 Anaconda 包

    https://repo.anaconda.com/pkgs/misc/parcels/
    
  4. 在页面顶部,单击保存更改按钮。

  5. 在顶部导航栏中,单击包图标以返回到可用包列表,您应该会看到可用的 Anaconda 包的最新版本。

  6. 在 Anaconda 包列表的右侧,单击下载按钮。

  7. 下载完包后,单击分发按钮将包分发到所有集群节点。

  8. 分发完包后,单击激活按钮以在所有集群节点上激活包。

  9. 出现提示时,确认激活。

激活包后,Anaconda 将在所有集群节点上可用。

您可以提交 Spark 作业,以及指向 Anaconda 位置的 PYSPARK_PYTHON 环境变量。例如,输入以下命令(所有命令都应在一行中输入)

PYSPARK_PYTHON=/opt/cloudera/parcels/Anaconda/bin/ python spark-submit pyspark_script.py

注意

上面显示的存储库 URL 安装了 Anaconda 包的最新版本。要安装 Anaconda 包的旧版本,请将 https://repo.anaconda.com/pkgs/misc/parcels/archive/ 添加到 Cloudera 管理器中的远程包存储库 URL,然后按照上述步骤使用您所需的 Anaconda 包版本。

包更新#

Anaconda 每年春季至少发布一次新的 Cloudera 包,并为我们的企业客户提供自定义包创建。上面显示的存储库 URL 中提供的 Anaconda 包基于 Python 2.7。要将 Anaconda 包与其他 Python 版本或其他包一起使用,请联系 sales@anaconda.com,以详细了解自定义 Anaconda 包构建或其他使用 Anaconda 进行集群计算的企业解决方案。

Anaconda Workgroup 和 Enterprise 级别订阅者还可以使用专业存储库来 创建和分发他们自己的 Cloudera Manager 的自定义 Anaconda 包

有关管理 Cloudera 包的更多信息,请参阅 Cloudera 文档