深入分析Microsoft Azure 神经网络工作室案例

2024-01-18 来源 : 网红

整数等等，这类需求则大多数可以通过类群疑虑来解决。典型的就是猜输赢。当我们对数据统计分析的结果已经有了明确的选项，就可以用作Classification方案。

App地址： ▍Vowpal Wabbit数据资料XML

Vowpal Wabbit，简称VW，是一个定制的开源，在线（online）和外存努力学习（out-of-core machine learning）系统，由微软公司科技学院的John Langford及其同事创始。Azure ML 通过 Train VW 和 Score VW 模块对 VW 提供本机默许。可以用作它来培训相等 10 GB 的数据资料集，这上会是 Azure ML 之前努力学习算法允许的时限。它默许许多努力学习算法，都有OLS转回（OLS regression），矩阵分解（matrix factorization），单层人工智能（single layer neural network），隐狄利克杜均等数学方法（Latent Dirichlet Allocation），语义机（Contextual Bandits）等

VW的匹配数据资料每行对此一个抽取，每个抽取的XML必须如下

label| feature1:value1 feature2:value2 ...

非常简单的说，每一条抽取的第一个是附加（Label），中间是基本特征（Feature）。也就是每一条抽取都是有附加抽取(labeled)

▍Parquet 奇科式存储器XML

Parquet 是 Hadoop 生态圈之前主流的奇科式存储器XML，最早是由 Twitter 和 Cloudera 合作开发计划，2015 年 5 翌年从 Apache 孵化器里毕业成为 Apache 顶级项目。

有这样一句话流传：如果说 HDFS 是大数据资料一时期文档系统的事实标准，Parquet 就是大数据资料一时期存储器XML的事实标准。Parquet 奇科式存储器XML的排气量很很高，所以IO操作来得小。

Parquet 是与口语毫无联系的，而且不与任何一种数据资料处理框架绑定在三人，复用第二口语和模块，能够与 Parquet 复用的浏览增压器都有 Hive, Impala, Pig, Presto, Drill, Tajo, HAWQ, IBM Big SQL等，测算框架都有 MapReduce, Spark, Cascading, Crunch, Scalding, Kite 等，数据资料数学方法都有 Avro, Thrift, Protocol Buffer, POJOs 等。所以Parquet就是一个数据资料存储器，提供增压器并能浏览数据资料的XML。

深入统计分析

这个个案一共九个指导工作端口，我们逐个统计分析每一个端口之前或许瞩目的高效率细节和架构电子邮件。

▍Adult Census Income Binary Classification dataset端口

这个端口是数据资料的匹配，架构有三个电子邮件

Datastore name：azureml_globaldatasets是一个重定向，浏览可以匹配到数据资料存储器的后方

Relative path：阐述在Datastore之前反之亦然文档的后方，默认是GenericCSV/Adult_Census_Income_Binary_Classification_dataset

浏览azureml_globaldatasets将匹配到DatastoreIE，您可以在这个IE下观察到您存储器的数据资料。大致的编辑器如下

在前方我们最须要瞩目的文档是_data.parquet，该文档是Parquet 奇科式存储器XML文档。建议您App，在近期的处理过程之前，我们将操作和统计分析这个文档。

▍ Select Columns in Dataset端口

这个端口是对数据资料奇科（基本特征）的选项

来得为关键电子邮件是观察选项的奇科

奇科名

含意

特性

数据资料XML

选项

Age

年龄

对数特性

Int64

是

workclass

指导工作特性

千分之特性

Object

fnlwgt

批次

不间断特性

Int64

是

education

书

千分之特性

Object

是

education_num

所致英语教育时间

不间断特性

Int64

是

marital_status

婚姻完全

千分之特性

Object

是

occupation

职业

千分之特性

Object

relationship

联系

千分之特性

Object

是

race

种族

千分之特性

Object

是

sex

二元特性

Object

是

capital_gain

储蓄利润

不间断特性

Int64

是

capital_loss

储蓄死伤

不间断特性

Int64

是

hours_per_week

每周指导工作小时数

对数特性

Int64

是

native_country

原籍

千分之特性

Object

income

支出

二元特性

Object

是

▍Execute Python 端口

这个端口是将Parquet 奇科式存储器XML文档转为VW（Vowpal Wabbit），该端口架构是一段Python标识符，我们来详细了解和统计分析这些标识符（在这之前确保您已经App了_data.parquet和您已经有了Python开发计划环境）

azureml_main函数是Azure ML必须的入口函数。

其余标识符的架构就是装载parquet，设置附加和基本特征，生成vwXML。

为了来得多的为了让您了解这些标识符，我再写下了一段CGI，确保您可以在本地加载_data.parquet，并完整的了解整个过程。

必先确保您装设了如下模块

python-m pip install pandas python -m pip install pyarrow

详细标识符和解读完

importpandas aspd frompandas.api.types importis_numeric_dtype

label_col = 'income'true_label = '>50K'

# 复制到_data.parquetdataframe=pd.read_parquet( '_data.parquet') # 转换成每一奇科的数据资料特性forcol indataframe: print(col)print( '----------------------------------')

# 基本特征奇科的交集（不构成income）feature_cols = [col forcol indataframe.columns ifcol != label_col] forcol indataframe: print(col)print( '----------------------------------')

# 所有十进制奇科numeric_cols = [col forcol indataframe.columns ifis_numeric_dtype(col)] forcol indataframe: print(str(col) + 'type is :'+ str(dataframe[col].dtype)) print( '----------------------------------')

defparse_row(row): line = []# vw抽取的第一个原素，真定该抽取的权重，这里因为就两个完全，所以真定1和-1line.append( f" { 1ifrow[label_col] == true_label else-1} |" ) # 添加抽取的近期系数forcol infeature_cols: ifcol innumeric_cols: # 具有十进制的系数，XML为奇科名:系数line.append( f" {col}: {row[col]}" ) else: # 非十进制的系数，XML为奇科系数line.append( "".join((str(row[col])).split).replace( "|", "").replace( ":", "")) print(line)vw_line = " ".join(line) returnvw_line

vw = dataframe.apply(parse_row, axis= 1).to_frame

转换成样例

['-1 | 39 77516 Bachelors 13 Never-married Not-in-family White Male 2174 0 40']

['1 | 31 84154 Some-college 10 Married-civ-spouse Husband White Male 0 0 38']

▍Split Data端口

这个端口尤其非常简单，按恰巧数据资料集分为50%和50%。

▍Train Vowpal Wabbit Model端口

这个端口就是将之前我们生成的vw数据资料集顺利进行培训建模，须要瞩目的电子邮件有

VW arguments（ VW 给定）：这个是Vowpal Wabbit可执行文档的命令行给定，loss_function给定开关可选有：classic、expectile、hinge、logistic、poisson、quantile、squared，默认时squared。

这里选项的是

--loss_ functionlogistic

logistic转回由Cox在1958年提出，它的名字虽然叫转回，但实际上这是一种二类群算法，并且是一种线性数学方法。由于是线性数学方法，因此在数据统计分析时测算非常简单，在某些大影响力也类群疑虑，如广告词浏览百余人预估（CTR）上取得了成功的领域。如果你的数据资料影响力也前所未见，而且要求数据统计分析高于速非常快，则非线性核的SVM、人工智能等非线性数学方法已经无法用作，此时logistic转回是你为数不多的选项。

Specify file type（指定文档特性）：VW对此Vowpal Wabbit用作的内部XML，SVMLight是其他一些机器努力学习工具用作的一种XML。显然我们应当选项VW。 Output readable model file（转换成可读完数学方法）：选项True，文档都会完好在与匹配文档相同的存储器账号和容器之前 Output inverted hash file（转换成反转哈希）：选项True，文档都会完好在与匹配文档相同的存储器账号和容器之前

▍Score Vowpal Wabbit Model端口

Score Vowpal Wabbit Model和 Train Vowpal Wabbit Model差不多，差异的给定是

VW arguments（ VW 给定）：link开关的给定可选有glf1、identity、logistic、poisson，默认是identity。

这里选项的是

--link logistic

▍Execute Python 端口

这个端口也是一段PythonCGI，目的是添加一个举例来说奇科，这段CGI尤其非常简单

来得为关键标识符

# 阻抗设定，通过和结果概百余人尤其，取得附加threshold = 0.5# 也就是说的结果附加binary_class_scored_col_name = "Binary Class Scored Labels"# 也就是说的举例来说概百余人，这个系数都会被显现出为附加binary_class_scored_prob_col_name = "Binary Class Scored Probabilities"output = dataframe.rename(columns={ "Results": binary_class_scored_prob_col_name}) output[binary_class_scored_col_name] = output[binary_class_scored_prob_col_name].apply(lambda x: 1 if x>= threshold else-1)

▍Edit Metadata端口

Edit Metadata的架构是真定奇科的数据流资料，确有两个关键关键作用

再真定奇科的数据资料特性，但要留意的是数据资料集之前的系数和数据资料特性实际上未曾来得改;来得改的是机器努力学习内部的数据流资料，它说道下游模块如何用作该奇科。比如把一个十进制奇科再真定为类群系数，说道机器努力学习将再看待这个数据资料奇科。指示哪一奇科构成类附加，或者要类群或数据统计分析的系数。这个机制尤其关键，可以为了让机器努力学习明了哪一奇科的的培训含意。

所以这次我们须要对Labels认确真定，不改变数据资料特性，但将培训含意真定为Labels特性。这个阐述有点绕着，我们应当这么说：将一个来由Labels的奇科真定为附加（Labels）特性

这个数据流资料的真定，就是为了下一个Evaluate Model认确准备，说道Evaluate Model知道哪一个奇科是须要举例来说的附加。

▍Evaluate Model端口

举例来说数学方法返回的举例来说取决于您即将举例来说的数学方法特性：

类群数学方法

转回数学方法

聚类统计分析数学方法

在这个端口我们主要关心在培训完毕后转换成的三幅表

ROC 双曲线（ROC curve）：也称“所致试者指导工作基本特征双曲线”，或者感所致性双曲线。ROC双曲线主要是领域于X对Y的数据统计分析直观百余人情况。最初ROC双曲线是运用在军事力量上，现在来得多领域在临床领域，判断某种状况对于某种疾病的诊断是否有诊断价系数。

ROC双曲线三幅是显现出敏感性与抗原中间联系的双曲线。我们一般这么看：横坐标X轴承为 1 – 抗原，也特指真阳性百余人/真恰巧百余人（误报百余人），X轴承就越相近零直观百余人就越很高；纵坐标Y轴承特指敏感度，也特指确阳性百余人/显然百余人（敏感度），Y轴承就越大代表直观百余人就越好。

根据双曲线后方，把整个三幅划分作了两部分，双曲线下方部分的面积被特指AUC（Area Under Curve），用来对此数据统计分析直观性，AUC系数就越很高，也就是双曲线下方面积就越大，详述数据统计分析直观百余人就越很高。双曲线就越相近边框（X就越小，Y就越大），数据统计分析直观百余人就越很高。也就是说AUC就越相近1.0，检测方法直观性就越很高，少于大于0.5时，则直观性最高于，无领域价系数。

所以可以显现出ROC双曲线非常适合阐述个也就是说疑虑，即将最简单分作恰巧类（positive）或负类（negative）。对一个也就是说疑虑来说，都会消失四种情况。如果一个最简单是恰巧类并且也被数据统计分析成恰巧类，即为显然类（True positive）,如果最简单是负类被数据统计分析成恰巧类，特指真恰巧类（False positive）。也就是说地，如果最简单是负类被数据统计分析成负类，特指确负类（True negative）,恰巧类被数据统计分析成负类则为真负类（false negative）。

精度-调回双曲线（Precision-recall curve）：调回百余人是指错误数据统计分析为恰巧的占去全部实际为恰巧的人口比例，调回百余人是针对原抽取而言的，其含意是在实际为恰巧的抽取之前被数据统计分析为恰巧抽取的概百余人。很高的调回百余人反之亦然意味著都会有来得多的误检，但是都会竭力找到每一个应当被找到的对象。

数量级 - 调回双曲线显示了不同阻抗时精度和调回中间的联系到。双曲线下的很高区域代表很高调回百余人和很高精度，其之前很高精度与高于真恰巧百余人有关，很高调回百余人与高于真负百余人有关。两者的很高分都表明均系数即将返回直观的结果（很高精度），并且返回所有恰巧抽取的几乎（很高调回百余人）。

因为精度和调回的矛盾，所以我们引入了F1总分（F1 Score），用来衡量标准二类群数学方法数量级。它同时兼顾了类群数学方法的简单百余人和调回百余人。F1总分可以视作是数学方法简单百余人和调回百余人的一种调和最少，它的第二大系数是1，最小系数是0。

改善双曲线（Lift curve）：与ROC双曲线不同的是lift考虑均系数的直观性，也就是用作均系数获取的恰巧类生产量和不用作均系数随机获取恰巧类生产量的人口比例。改善双曲线是举例来说一个数据统计分析数学方法是否有效的一个度量；这个比系数由运用和不运用这个数学方法所得来的结果测算而来。

都是就是：一个公司的客群有10000个，随着业务的推移，其之前有500个的产品的资信开始变差。如果给1000个的产品提供授信也就是说，意味著都会遇到50个的产品因为资信疑虑，将遇到风险。但是如果运用数学方法对坏的产品加以数据统计分析，只选项数学方法总分最很高的1000个的产品授信，如果这1000个的产品表现出来再次安全有风险的只有8户，详述数学方法在其之前是起到关键作用的，此时的LIFT就是相等1的。如果反过来再次表明消失风险的的产品超过或大于50个，LIFT少于大于1，那么从效果上来看这个数学方法用了还不如不用。LIFT就是这样一个举例来说，可以衡量标准用作这个数学方法比随机选项对坏抽取的数据统计分析潜能改善了多少倍。

上会测算LIFT的时候都会把数学方法的再次得分按照从高于到很高（风险概百余人从很高到高于）排序并等频分为10组，测算总分最高于的一组对应的累计坏抽取占去比/累计总抽取占去比就大于LIFT系数了。

结束语

到这里，Binary Classification using Vowpal Wabbit Model - Adult Income Prediction个案的统计分析我们完毕了，在这个过程之前，我们详细的明了到各个端口的架构电子邮件和相关的概念。从数据资料源、数据资料处理、PythonCGI、数据流资料真定和数学方法质量报告。也同时接触到了大量的机器努力学习概念，本篇非常或许推荐作为Microsoft Azure Machine Learning Studio和机器努力学习的入门和深入儿童读完物。

在这之后，我将继续编写下其他Microsoft Azure Machine Learning Studio个案。每一篇个案都可以独立国家写下作，因此有些概念都会移位消失在每一篇之前。

微软公司最有价系数研究专家（MVP）

微软公司最有价系数研究专家是微软公司授予第三方高效率社会工作者的一个全球者。29年来，世界各地的高效率乡村领导者，因其在线上和线下的高效率乡村之前回馈专业知识和潜能而获取此者。

MVP是经过宽松挑选的研究专家团队，他们代表着高效率最精湛且最具智慧的人，是对乡村转回极大的热忱并心地善良的研究专家。MVP致力于通过演讲、论坛论辩、创始该网站、撰写下博客、回馈视频、开源项目、组织都会议等方式则来为了让他人，并第二大往往地为了让微软公司高效率乡村用户用作 Microsoft 高效率。

来得多详情请登录官方该网站：

明了如何用作 Azure 机器努力学习培训和地面部队数学方法以及管理 ML 可持续 (MLOps)。教程、标识符都是、API 参考和其他资源。

。

腰疼的厉害怎么办
艾拉莫德片治类风湿吗
类风湿关节晨僵怎么治
如何缓解老人类风湿关节炎疼
广州地区男科医院

上一篇：中信证券：建设新型电力系统助力虚拟电厂发展韶山可期

下一篇：泰州任城区古槐街道大石桥社区开展文化进万家活动