将 AI/ML 与您的自适应分析解决方案连接起来

发布于2024-11-03

在当今的数据环境中，企业遇到了许多不同的挑战。其中之一是在所有消费者可用的统一和协调的数据层之上进行分析。可以为相同问题提供相同答案的层，与所使用的方言或工具无关。
InterSystems IRIS 数据平台通过自适应分析附加功能来解决这个问题，该分析可以提供统一的语义层。 DevCommunity 中有很多关于通过 BI 工具使用它的文章。本文将介绍如何通过人工智能使用它以及如何将一些见解带回来。
让我们一步一步来吧……

什么是自适应分析？

您可以在开发者社区网站轻松找到一些定义
简而言之，它可以将结构化和统一形式的数据传输到您选择的各种工具，以供进一步使用和分析。它为各种 BI 工具提供相同的数据结构。但是...它还可以向您的 AI/ML 工具提供相同的数据结构！

自适应分析有一个名为 AI-Link 的附加组件，可以构建从 AI 到 BI 的桥梁。

AI-Link到底是什么？

它是一个 Python 组件，旨在实现与语义层的编程交互，以简化机器学习 (ML) 工作流程的关键阶段（例如特征工程）。

通过 AI-Link，您可以：

以编程方式访问分析数据模型的功能；
进行查询，探索维度和度量；
提供 ML 管道； ...并将结果传递回您的语义层以供其他人再次使用（例如通过 Tableau 或 Excel）。

由于这是一个Python库，因此它可以在任何Python环境中使用。包括笔记本。
在本文中，我将给出一个在 AI-Link 的帮助下从 Jupyter Notebook 实现自适应分析解决方案的简单示例。

这是 git 存储库，其中包含完整的笔记本作为示例：https://github.com/v23ent/aa-hands-on

先决条件

后续步骤假设您已完成以下先决条件：

自适应分析解决方案启动并运行（使用 IRIS 数据平台作为数据仓库）
Jupyter Notebook 启动并运行
1.和2.之间可以建立连接

第 1 步：设置

首先，让我们在我们的环境中安装所需的组件。这将下载进一步工作所需的一些软件包。
'atscale' - 这是我们连接的主要包
'prophet' - 我们需要进行预测的包

pip install atscale prophet

然后我们需要导入代表语义层的一些关键概念的关键类。
客户端 - 我们将用来建立与自适应分析的连接的类；
Project - 代表自适应分析中的项目的类；
DataModel - 代表我们的虚拟多维数据集的类；

from atscale.client import Client
from atscale.data_model import DataModel
from atscale.project import Project
from prophet import Prophet
import pandas as pd

第 2 步：连接

现在我们应该准备好建立与数据源的连接。

client = Client(server='http://adaptive.analytics.server', username='sample')
client.connect()

继续指定您的 Adaptive Analytics 实例的连接详细信息。一旦系统要求您提供组织，请在对话框中做出回应，然后输入您在 AtScale 实例中的密码。

建立连接后，您需要从服务器上发布的项目列表中选择您的项目。您将获得项目列表作为交互式提示，答案应该是项目的整数 ID。如果数据模型是唯一的，则自动选择数据模型。

project = client.select_project()   
data_model = project.select_data_model()

第 3 步：探索您的数据集

AI-Link组件库中AtScale准备了多种方法。它们允许探索您拥有的数据目录、查询数据，甚至提取一些数据。 AtScale 文档包含广泛的 API 参考，描述了所有可用的内容。
我们首先通过调用data_model的几个方法来看看我们的数据集是什么：

data_model.get_features()
data_model.get_all_categorical_feature_names()
data_model.get_all_numeric_feature_names()

输出应如下所示

Bridge AI/ML with your Adaptive Analytics solution

一旦我们环顾四周，我们就可以使用“get_data”方法查询我们感兴趣的实际数据。它将返回一个包含查询结果的 pandas DataFrame。

df = data_model.get_data(feature_list = ['Country','Region','m_AmountOfSale_sum'])
df = df.sort_values(by='m_AmountOfSale_sum')
df.head()

这将显示您的数据集：

Bridge AI/ML with your Adaptive Analytics solution

让我们准备一些数据集并快速将其显示在图表上

import matplotlib.pyplot as plt

# We're taking sales for each date
dataframe = data_model.get_data(feature_list = ['Date','m_AmountOfSale_sum'])

# Create a line chart
plt.plot(dataframe['Date'], dataframe['m_AmountOfSale_sum'])

# Add labels and a title
plt.xlabel('Days')
plt.ylabel('Sales')
plt.title('Daily Sales Data')

# Display the chart
plt.show()

输出：

Bridge AI/ML with your Adaptive Analytics solution

第四步：预测

下一步是真正从 AI-Link 桥中获得一些价值 - 让我们做一些简单的预测！

# Load the historical data to train the model
data_train = data_model.get_data(
    feature_list = ['Date','m_AmountOfSale_sum'],
    filter_less = {'Date':'2021-01-01'}
    )
data_test = data_model.get_data(
    feature_list = ['Date','m_AmountOfSale_sum'],
    filter_greater = {'Date':'2021-01-01'}
    )

我们在这里得到 2 个不同的数据集：训练我们的模型并测试它。

# For the tool we've chosen to do the prediction 'Prophet', we'll need to specify 2 columns: 'ds' and 'y'
data_train['ds'] = pd.to_datetime(data_train['Date'])
data_train.rename(columns={'m_AmountOfSale_sum': 'y'}, inplace=True)
data_test['ds'] = pd.to_datetime(data_test['Date'])
data_test.rename(columns={'m_AmountOfSale_sum': 'y'}, inplace=True)

# Initialize and fit the Prophet model
model = Prophet()
model.fit(data_train)

然后我们创建另一个数据框来容纳我们的预测并将其显示在图表上

# Create a future dataframe for forecasting
future = pd.DataFrame()
future['ds'] = pd.date_range(start='2021-01-01', end='2021-12-31', freq='D')

# Make predictions
forecast = model.predict(future)
fig = model.plot(forecast)
fig.show()

输出：

Bridge AI/ML with your Adaptive Analytics solution

第五步：写回

一旦我们做出了预测，我们就可以将其放回数据仓库，并将聚合添加到我们的语义模型中，以反映给其他消费者。 BI 分析师和业务用户可以通过任何其他 BI 工具进行预测。
预测本身将被放入我们的数据仓库并存储在那里。

from atscale.db.connections import Iris

db = Iris(

    username,

    host,

    namespace,

    driver,

    schema, 

    port=1972,

    password=None, 

    warehouse_id=None

    )

data_model.writeback(dbconn=db,

                    table_name= 'SalesPrediction',

                    DataFrame = forecast)

data_model.create_aggregate_feature(dataset_name='SalesPrediction',

                                    column_name='SalesForecasted',

                                    name='sum_sales_forecasted',

                                    aggregation_type='SUM')