WorkFlow e Rank – Orange

Building Workflows

The core principle of Orange is visual programming, which means each analytical step in contained within a widget. Widgets are placed on the canvas and connected into an analytical workflow, which is executed from left to right. Orange never passes data backwards.

Simple workflow

Let us start with a simple workflow. We will load the data with the File widget, say the famous Iris data set. Right-click on the canvas. A menu will appear. Start typing “File”, then press Enter to confirm the selection. File widget will be placed on the canvas.

../_images/file.gif

File widget has an “ear” on its right side – this is the output of the widget. Click on the “ear” and drag a connection out of it. Upon releasing the connection, a menu will appear. Start typing the name of the widget to connect with the File widget, say Data Table. Select the widget and press enter. The widget is added to the canvas.

../_images/file-datatable.gif

This is a simple workflow. The File widget loads the data and sends it to the output. Data Table receives the data and displays it in a table. Please note that Data Table is a viewer and passes onwards only the selection. The data is always available at the source – in the File widget.

../_images/DataTable-wrong.png

Workflows with subsets

Visualizations in Orange are interactive, which means the user can select data instances from the plot and pass them downstream. Let us look at two examples with subsets.

Selecting subsets

Place File widget on the canvas. Then connect Scatter Plot to it. Click and drag a rectangle around a subset of points. Connect Data Table to Scatter Plot. Data Table will show selected points.

../_images/subset-selection.gif

Highlighting workflows

Place File widget on the canvas. Then connect Scatter Plot to it and a Data Table. Connect Data Table to Scatter Plot. Select a subset of points from the Data Table. Scatter Plot will highlight selected points.

../_images/subset-highlight.gif

Workflows with models

Predictive models are evaluated in Test and Score widget, while predictions on new data are done in Predictions. Test and Score accepts several inputs: data (data set for evaluating models), learners (algorithms to use for training the model), and an optional preprocessor (for normalization or feature selection).

../_images/prediction-workflow.png

For prediction, the training data is first passed to the model. Once the model is trained, it is passed to Predictions. The Predictions widget also needs data to predict on, which are passed as a second input.

../_images/prediction-workflow2.png

Improve your command line development experience with this book

Ad by EthicalAds   ·   ℹ️

Orange Visual Programming

Navigation

Quick search

©2015, Orange Data Mining. | Powered by Sphinx 7.2.6 & Alabaster 0.7.13 | Page source

  v: latest 

Rank – Classificação

Classificação de atributos em conjuntos de dados de classificação ou regressão.

Entradas

  • Dados: conjunto de dados de entrada
  • Pontuador: modelos para pontuação de recursos

Resultados

  • Dados reduzidos: conjunto de dados com atributos selecionados
  • Pontuações: tabela de dados com pontuações de recursos
  • Características: lista de atributos

O widget Classificação pontua variáveis ​​de acordo com sua correlação com a variável de destino discreta ou numérica, com base em pontuadores internos aplicáveis ​​(como ganho de informação, qui-quadrado e regressão linear) e quaisquer modelos externos conectados que suportem pontuação, como regressão linear, regressão logística, floresta aleatória, SGD, etc. O widget também pode lidar com dados não supervisionados, mas apenas por pontuadores externos, como PCA.

../../_images/Rank-stamped.png
  1. Selecione métodos de pontuação. Veja as opções de classificação, regressão e dados não supervisionados na seção Métodos de pontuação .
  2. Selecione atributos para saída. None não produzirá nenhum atributo, enquanto All produzirá todos eles. Com seleção manual, selecione os atributos da tabela à direita. A melhor classificação produzirá n atributos mais bem classificados. Se Enviar Automaticamente estiver marcado, o widget comunica automaticamente as alterações para outros widgets.
  3. Barra de status. Produza um relatório clicando no ícone do arquivo. Observe a entrada e a saída do widget. À direita, são mostrados avisos e erros.

Métodos de pontuação (classificação) 

  1. Ganho de informação: a quantidade esperada de informação (redução da entropia)
  2. Proporção de ganho : uma proporção entre o ganho de informação e a informação intrínseca do atributo, que reduz a tendência para características multivaloradas que ocorre no ganho de informação
  3. Gini : a desigualdade entre valores de uma distribuição de frequência
  4. ANOVA : a diferença entre os valores médios do recurso em diferentes classes
  5. Chi2 : dependência entre o recurso e a classe medida pela estatística qui-quadrado
  6. ReliefF : a capacidade de um atributo de distinguir entre classes em instâncias de dados semelhantes
  7. FCBF (Fast Correlation Based Filter) : medida baseada em entropia, que também identifica redundância devido a correlações de pares entre recursos

Além disso, você pode conectar determinados alunos que permitem pontuar os recursos de acordo com a importância deles nos modelos que os alunos constroem (por exemplo, Regressão Logística , Floresta Aleatória , SGD ). Observe que os dados são normalizados antes da classificação.

Métodos de pontuação (regressão) 

  1. Regressão Univariada : regressão linear para uma única variável
  2. RReliefF : distância relativa entre os valores previstos (classe) das duas instâncias.

Além disso, você pode conectar alunos de regressão (por exemplo, Regressão Linear , Floresta Aleatória , SGD ). Observe que os dados são normalizados antes da classificação.

Método de pontuação (não supervisionado) 

Atualmente, apenas o PCA é compatível com dados não supervisionados. Conecte o PCA ao Rank para obter as pontuações. As pontuações correspondem à correlação de uma variável com o componente principal individual.

Pontuação com os alunos 

A classificação também pode usar determinados alunos para pontuação de recursos. Veja os alunos como marcadores, por exemplo.

Exemplo: Classificação e Seleção de Atributos 

Abaixo, usamos o widget Rank imediatamente após o widget Arquivo para reduzir o conjunto de atributos de dados e incluir apenas os mais informativos:

../../_images/Rank-Select-Schema.png

Observe como o widget gera um conjunto de dados que inclui apenas os atributos com melhor pontuação:

../../_images/Rank-Select-Widgets.png

Exemplo: Seleção de subconjunto de recursos para aprendizado de máquina 

O que se segue é um exemplo um pouco mais complicado. No fluxo de trabalho abaixo, primeiro dividimos os dados em um conjunto de treinamento e um conjunto de teste. No ramo superior, os dados de treinamento passam pelo widget Rank para selecionar os atributos mais informativos, enquanto no ramo inferior não há seleção de recursos. Os conjuntos de dados originais e de recursos selecionados são passados ​​​​para seus próprios widgets de teste e pontuação , que desenvolvem um classificador Naive Bayes e o pontuam em um conjunto de testes.

../../_images/Classificação e Teste.png

Para conjuntos de dados com muitos recursos, uma seleção ingênua de recursos do classificador bayesiano, como mostrado acima, geralmente produziria uma melhor precisão preditiva.

SICP: Enfrente este clássico da ciência da computação enquanto aprende como criar uma linguagem de programação e muito mais.

Anúncio de EthicalAds   ·   ℹ️

Programação Visual Laranja

Navegação

Pesquisa rápida

©2015, Mineração de Dados Orange. | Desenvolvido por 

Sphinx 7.2.6 e 

Alabaster 0.7.13 | 

Fonte da página

  v: mais recente 

Deixe um comentário