cloudera data science workbench

Cloudera数据科学工作站是一个Web应用程序,使数据科学家能够直接在安全环境中使用他们喜爱的开源库和语言(如R、Python和Scala),从而加速从探索到生产的分析项目。
部署运行你感兴趣的模型镜像

cloudera官方说明:https://vision.cloudera.com/cloudera-data-science-workbench-self-service-data-science-for-the-enterprise/

Cloudera Data Science Workbench: Self-Service Data Science for the Enterprise

We are entering the golden age of machine learning, and it’s all about the data. As the quantity of data grows and the costs of compute and storage continue to drop, the opportunity to solve the world’s biggest problems has never been greater. Our customers already use advanced machine learning to build self-driving cars, provide better care to newborns in the hospital , stop financial crimes and combat cyber threats. But this is clearly just the beginning.

我们进入了机器学习的黄金时代,并且所有都有关数据。随着数据量的增长和计算和存储的成本继续下降,有机会解决世界面临的最大问题从未像现在这样迫切。我们的顾客已经使用先进的机器学习来构建自动驾驶汽车,向医院新生儿提供更好的护理,阻止金融犯罪和打击网络威胁。但这显然是刚刚开始。

At Cloudera, we’re constantly working to help customers push the boundaries of what’s possible with data. Today, we’re excited to introduce Cloudera Data Science Workbench, which enables fast, easy, and secure self-service data science for the enterprise. It dramatically accelerates the ability of teams to build, scale, and deploy machine learning and advanced analytics solutions using the most powerful technologies.

在cloudera,我们也一直在努力帮助客户数据有什么可能的极限挑战。今天,我们很兴奋地介绍 Cloudera Data Science Workbench,它能够快速、轻松和安全的自助服务为企业的科学数据。它大大加速了团队的能力建设、规模和部署机器学习和先进的分析使用最强大的技术解决方案。

In this post, we’ll summarize our motivations for building Data Science Workbench, currently in private beta, and provide an overview of its capabilities.

在本文中,我们将总结我们的动机构建数据科学工作台,目前在私人测试版,并提供其功能的概述。

Data Scientists: A Thousand Questions, A Thousand Tools

Over the past few years, enterprises have adopted big data solutions for a huge variety of business problems. At the same time, though, data scientists struggle to build and test new analytics projects as fast as they’d like, particularly at large scale in secure environments.

Data Scientists数据分析师:不同的问题有不同的工具。在过去的几年里,企业已通过大数据一个巨大的业务问题的各种解决方案。但同时,数据科学家构建和测试新的分析项目以最快的希望,特别是在大规模安全的环境。

On the one hand, this is not surprising. Most analytics problems are not cookie-cutter. Data in the enterprise is complex. The questions data scientists ask often require advanced models and methods. Building a sustained competitive advantage or having a transformational impact using data requires experimentation, innovation, and hard work.


这个并不稀奇,大多数分析问题都不是千篇一律的。企业中的数据是复杂的。数据科学家们问的问题往往需要先进的模型和方法。建立持续的竞争优势或转型影响使用数据需要实验、创新和努力工作。

Yet it should only be as hard as the problem, and no harder. Too often, technical and organizational constraints limit the ability of data scientists to innovate. Why is this?

然而,它应该只那么难问题,也没有困难。往往,技术和组织约束限制数据科学家的创新能力。这是为什么?

To begin, we need to understand who data scientists really are. According to typical big data industry marketing, a data scientist is equal parts an expert in statistics, machine learning, and software engineering, with solid business domain expertise to match. That’s a vanishingly rare combination of skills.

根据典型的大数据产业市场,统计数据科学家是统计分析,机器学习,软件工程的专家,凭借扎实的业务领域的专门知识。这是一个难以察觉地罕见的技能的结合。

It turns out, though, that many organizations already employ statisticians, quantitative researchers, actuaries, and analysts. These real-world data scientists often aren’t software engineers, but are quite comfortable with mathematics and the business domain. Rather than program Apache Hadoop and Apache Spark using Java or Scala, they typically work with small-to-medium data on their desktops, increasingly relying on open data science tools like Python, R, and their respectively vast ecosystems of libraries and frameworks for data cleansing, analysis, and predictive modeling.

事实上,许多组织已经采用了统计、定量研究、精算师和分析师。 这些真实世界数据的科学家常常不是软件工程师,但对数学和业务领域非常舒适。比起使用java或scala编程实现Apache Hadoop和Apache Spark,他们通常在桌面上处理中小型数据,越来越多地依靠开放数据科学的工具,像python、R和各自庞大的生态系统库和数据清洗框架、分析和预测模型。

This presents several challenges, including:

  1. Every team, user, and project may require a different language, library, framework, or algorithm (e.g. Python vs R, Python 2.7 vs. 3.5). Meanwhile, collaboration and compliance depend on reproducibility, which is doubly hard with so many combinations.
  2. What works on a single machine may not scale across a cluster. Most data scientists typically work on samples and extracts.
  3. Secured clusters are challenging for data scientists. Not many statisticians are familiar with Kerberos authentication.

这带来了一些挑战,包括:
1、每个团队、用户和项目可能需要不同的语言、库、框架或算法(例如。Python和R,Python5.7,Python3.5)。
2、同时,协作和法规遵从性取决于重复性,这是更加难有如此多的组合。
3、担保集群是具有挑战性的数据科学家。没有多少统计人员熟悉Kerberos身份验证。
结果是,出于技术和组织方面的原因,数据科学家遇到麻烦了。他们需要的灵活性和简便性是创新和生产力,但规模和影响业务的安全。

The results is that for both technical and organizational reasons, data scientists are caught in a bind. They require flexibility and simplicity to be innovative and productive, but scale and security to impact the business.

结果是,出于技术和组织方面的原因,数据科学家遇到麻烦了。他们需要的灵活性和简便性是创新和生产力,但规模和影响业务的安全。

IT: Adoption vs. Compliance

This puts IT in a tough spot. Data scientists are among the most strategic users in the organization. Their insights drive the business forward. Indeed, a common motivation for building an enterprise data hub is to support advanced analytics use cases. Since the business may depend on the results data scientists provide, IT teams are under tremendous pressure to make them productive.

IT从业者,Adoption vs Compliance
数据科学家们在最战略中组织中的用户。他们的真知灼见推动业务发展。 事实上,企业数据中心建设的一个共同的动机是支持高级分析用例。因为业务可能取决于结果科学家提供的数据,IT团队承受着巨大的压力,使他们的生产。

IT is responsible for compliance with corporate directives like security and governance. This is hard enough when every user is accessing your environment through a common interface, such as SQL. It becomes much harder when every team, user, and project uses a different set of open source tools. Managing so many environment permutations against a secured cluster is an unenviable, if not impossible, task. IT, forced to balance enterprise data security against the benefits of data science, is often forced to lock the data up and the data scientists out.

它负责遵守公司的指令,如安全和管理。这是很难在每个用户访问您的环境时,通过一个公共接口,如SQL。它变得更难,当每个团队、用户和项目使用不同的开放源码工具的设置。管理这么多环境的改变对担保集群是一个不值得羡慕的,如果不是不可能的任务。它不得不平衡企业数据的安全对数据科学的好处,经常被迫数据和数据科学家锁在外面。

As a result, data science teams are cut off from one of the enterprise’s most strategic assets. They remain on their desktops or adopt “shadow IT” cloud infrastructure where they can use their preferred tools, albeit on limited data sets. This usability gap limits innovation and accuracy for the data science team and increases cost and risk from fragmented data silos for IT.

因此,从企业最具战略性的资产之一,数据科学团队被切断。他们留在自己的桌面或采用"影子IT"云基础设施在那里他们可以使用自己喜欢的工具,尽管在有限的数据集。这可用性限制创新和数据的准确度科学队的差距并为其增加的成本和风险分散的数据仓库。

Introducing Cloudera Data Science Workbench

A year ago, Cloudera acquired a startup, Sense.io, to help dramatically improve the experience of data scientists on Cloudera’s enterprise platform for machine learning and advanced analytics. The result of this acquisition and subsequent development is today’s announcement of Cloudera Data Science Workbench.

一年前,cloudera公司收购Sense.io,帮助极大地提高数据科学家在cloudera企业机器学习平台和先进的分析的经验。本次收购和后续发展产生的结果就是今天宣布cloudera数据科学工作台。

Cloudera Data Science Workbench is a web application that allows data scientists to use their favorite open source libraries and languages — including R, Python, and Scala — directly in secure environments, accelerating analytics projects from exploration to production.

Cloudera Data Science Workbench是一个web应用,允许数据科学家使用自己喜欢的开源库和语言(R,python,scala等)直接在安全的环境,加快分析项目从开发到生产。

projects

Built using container technology, Cloudera Data Science Workbench offers data science teams per-project isolation and reproducibility, in addition to easier collaboration. It supports full authentication and access controls against data in the cluster, including complete, zero-effort Kerberos integration. Add it to an existing cluster, and it just works.

使用容器技术,cloudera数据科学工作台提供科学队每个项目的数据隔离和重现性好,此外更容易合作。它支持集群中完整的身份验证和访问控制数据,包括完成、零努力身份验证机制集成。将其添加到现有群集,它就工作了。

With Cloudera Data Science Workbench, data scientists can:

  • Use R, Python, or Scala on the cluster from a web browser, with no desktop footprint.
  • Install any library or framework within isolated project environments.
  • Directly access data in secure clusters with Spark and Impala.
  • Share insights with their team for reproducible, collaborative research.
  • Automate and monitor data pipelines using built-in job scheduling.

Cloudera Data Science Workbench,用户可以做:
  • 能在多个开源软件库和框架上使用 R, Python 和 Scala。可以直接在浏览器使用。
  • 任何库或框架都可以独立安装在项目环境内。
  • 使用 Spark 和 Impala,能直接从十分安全的 Hadoop 数据簇获取数据。
  • 与团队分享经验。
  • 使用内置作业调度自动化和监视数据管道。

python

Meanwhile, IT professionals can:

  • Give their data science team the freedom to work how they want, when they want.
  • Stay compliant with out-of-the-box support for full platform security, especially Kerberos.
  • Run on-premises or in the cloud, wherever data is managed.

对于 IT 管理者:
  • 给你的数据科学团队更高的工作灵活性
  • 服从完整的 Hadoop 安全方案,尤其是 Kerberos
  • 既能在本地运行,也能在云端。

We’re thrilled to announce Cloudera Data Science Workbench and look forward to sharing more information in the coming weeks.

Learn More

To learn more about Cloudera Data Science Workbench, come see our session, “Making Self-service Data Science a Reality” on Thursday, March 16, 2017 at Strata + Hadoop World San Jose.



您可能感兴趣的与本文相关的镜像

Python3.10

Python3.10

Conda
Python

Python 是一种高级、解释型、通用的编程语言,以其简洁易读的语法而闻名,适用于广泛的应用,包括Web开发、数据分析、人工智能和自动化脚本

Cloudera 提供了多种工具和集成方式来实现数据可视化,主要依赖于其生态系统中的组件,如 Cloudera Manager、Hue、Impala、Hive 以及与第三方工具如 Grafana、Tableau 的集成。 ### Cloudera 数据可视化工具概览 1. **Hue(Hadoop User Experience)** 是 Cloudera 提供的一个开源 Web 界面,支持多种数据查询和可视化操作。用户可以通过 Hue 编写 HiveQL 或 Impala 查询,并将结果以图表形式展示,包括柱状图、折线图、饼图等。Hue 还支持与 Notebook 的集成,提供更灵活的数据探索体验。 2. **Impala** 是 Cloudera 推出的高性能 SQL 查询引擎,支持实时查询 Hadoop 数据。Impala 可与 BI 工具如 Tableau、Power BI、Looker 等无缝集成,通过 ODBC/JDBC 接口将数据可视化呈现。Impala 的优势在于其低延迟特性,适合交互式分析场景。 3. **Grafana 集成 Cloudera Manager** 是一种常见的监控与可视化方案。通过 Grafana 的 Cloudera Manager 数据源插件,可以将 Cloudera 集群的性能指标(如 CPU 使用率、内存占用、磁盘 I/O、HDFS 状态等)实时展示在仪表盘上,便于运维人员监控集群健康状态并进行性能调优[^1]。 4. **Tableau 与 Cloudera 的集成** 提供了强大的可视化能力。用户可以通过 Tableau Desktop 连接到 Cloudera 的 Hive 或 Impala 数据库,使用其丰富的可视化模板和拖拽式界面进行数据分析和仪表板构建。Cloudera 提供了专门的连接器以支持 Tableau 与 Hadoop 的高效交互。 5. **Python 可视化库集成**,如 Matplotlib、Seaborn、Plotly 等,可以通过 PySpark 或直接连接 HiveServer2 来获取数据并进行本地可视化。这种方式适合数据科学家或分析师在 Jupyter Notebook 中进行探索性数据分析。 ### 使用指南 #### 使用 Hue 进行可视化 - 登录 Hue Web 界面。 - 在“Query Editors”中选择 Hive 或 Impala。 - 编写 SQL 查询语句。 - 点击“Chart”按钮切换到可视化模式,选择图表类型(柱状图、折线图、饼图等)。 - 自定义图表样式并保存为仪表板。 #### 使用 Impala + Tableau - 安装并配置 Impala ODBC 驱动。 - 在 Tableau 中选择“连接到数据” > “其他数据库(ODBC)”。 - 输入 Impala 的主机地址、端口及认证信息。 - 编写自定义 SQL 查询或直接拖拽字段进行可视化。 - 创建仪表板并发布到 Tableau Server。 #### 使用 Grafana 监控 Cloudera 集群 - 安装 Grafana 并配置 Cloudera Manager 数据源插件。 - 在 Cloudera Manager 中启用 API 访问权限。 - 配置数据源时输入 Cloudera Manager 的 API 地址和认证信息。 - 创建新的 Dashboard,选择需要监控的指标(如集群 CPU 使用率、HDFS 延迟等)。 - 配置面板样式并设置告警规则(可选)。 #### 使用 Python 可视化工具 - 安装必要的 Python 库:`pandas`, `matplotlib`, `seaborn`, `plotly`。 - 使用 `pyodbc` 或 `jaydebeapi` 连接 Hive。 - 执行查询并将结果加载到 DataFrame。 - 使用绘图库生成图表并显示或保存。 示例代码(使用 PyHive 连接 Hive 并绘制柱状图): ```python from pyhive import hive import pandas as pd import matplotlib.pyplot as plt # 连接 Hive conn = hive.Connection(host='your_hive_host', port=10000, username='your_user', database='default') cursor = conn.cursor() # 执行查询 cursor.execute('SELECT category, COUNT(*) as count FROM products GROUP BY category') data = cursor.fetchall() # 转换为 DataFrame df = pd.DataFrame(data, columns=['category', 'count']) # 绘制柱状图 df.plot(kind='bar', x='category', y='count', legend=False) plt.xlabel('Category') plt.ylabel('Count') plt.title('Product Count by Category') plt.show() cursor.close() conn.close() ``` ###
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值