Wednesday 4 April 2018

Valores exclusivos em stata forex


AVISO: O grupo de consultoria estatística IDRE estará migrando o site para o WordPress CMS em fevereiro para facilitar a manutenção e criação de novos conteúdos. Algumas de nossas páginas antigas serão removidas ou arquivadas de modo que elas não serão mais mantidas. Vamos tentar manter os redirecionamentos para que os URLs antigos continuem a funcionar da melhor maneira possível. Bem-vindo ao Instituto de Pesquisas Digitais e Educação Ajude o Grupo de Consultoria Estatal, dando um presente Notas da Classe Stata Contagem de n para N Introdução A Stata possui duas variáveis ​​incorporadas chamadas n e N. N é a notação Stata para o número de observação atual. N é 1 na primeira observação, 2 no segundo, 3 no terceiro e assim por diante. N é a notação de Stata para o número total de observações. Vamos ver como n e N funcionam. Como você pode ver, o ID da variável contém o número de observação que corre de 1 a 7 e nt é o número total de observações, que é 7. Contar com o uso de n e N em conjunto com o comando pode produzir alguns resultados muito úteis. É claro que, para usar o comando por nós, primeiro devemos classificar nossos dados na variável por variável. Agora n1 é o número de observação dentro de cada grupo e n2 é o número total de observações para cada grupo. Para listar a pontuação mais baixa para cada grupo, use o seguinte: Para listar a pontuação mais alta para cada grupo, use o seguinte: Outro uso de n Permite usar n para descobrir se existem números de identificação duplicados nos seguintes dados: As observações 6 e 7 têm os mesmos números de identificação e valores de pontuação diferentes. Encontrando Duplicados Agora, use N para encontrar observações duplicadas. Neste exemplo, classificamos as observações por todas as variáveis. Em seguida, usamos toda a variável na instrução by e definimos set n igual ao número total de observações que são idênticas. Finalmente, listamos as observações para as quais N é maior que 1, identificando as observações duplicadas. Se você tem muitas variáveis ​​no conjunto de dados, pode demorar muito tempo para digitá-las duas vezes. Podemos fazer uso do curinga para indicar que desejamos usar todas as variáveis. Além disso, nas versões mais recentes do Stata, podemos combinar classificar e em uma única declaração. Abaixo está uma versão simplificada do código que renderá exatamente os mesmos resultados acima. O conteúdo deste site não deve ser interpretado como um endosso de qualquer site, livro ou produto de software da Universidade da Califórnia. NOTICE: O grupo de consultoria estatística IDRE estará migrando o site para o WordPress CMS em fevereiro para facilitar Manutenção e criação de novos conteúdos. Algumas de nossas páginas antigas serão removidas ou arquivadas de modo que elas não serão mais mantidas. Vamos tentar manter os redirecionamentos para que os URLs antigos continuem a funcionar da melhor maneira possível. Bem-vindo ao Instituto de Pesquisas e Educação Digital Ajude o Grupo de Consultoria Stat ao oferecer um presente FAQ do Stata Como posso detectar observações duplicadas Esta FAQ da Stata mostra como verificar se um conjunto de dados tem observações duplicadas. Existem dois métodos disponíveis para essa tarefa. O primeiro exemplo usará comandos disponíveis na base Stata. O segundo exemplo usará um programa escrito pelo usuário. Este comando escrito pelo usuário é bom porque cria uma variável que captura todas as informações necessárias para replicar quaisquer observações excluídas. Este exemplo usa o conjunto de dados High School e Beyond, que não possui observações duplicadas. Portanto, adicionamos cinco observações duplicadas aos dados e, em seguida, usamos o comando duplicado para detectar quais observações são repetidas. Além disso, para avaliar a sensibilidade do comando, alteramos o valor de uma das observações duplicadas. A razão para mudar um valor é imitar o que pode acontecer na prática, geralmente procuramos casos quotduplicatequot que não são inseridos de forma idêntica no conjunto de dados. No conjunto de dados, o ID da variável é o identificador de caso exclusivo. Para adicionar as observações duplicadas, classificamos os dados por identificação. Em seguida, duplique as cinco primeiras observações (id 1 a 5). Isso leva a 195 únicas e 5 observações duplicadas no conjunto de dados. Para o assunto id 1, todos os seus valores são duplicados, exceto para o seu índice de matemática, um resultado duplicado é definido como 84. Começamos executando o comando do relatório duplicado para ver o número de linhas duplicadas no conjunto de dados. Isto é seguido por id de relatórios duplicados. Que dá o número de linhas replicadas pelas variáveis ​​especificadas nesta instância, temos apenas id. Poderíamos ter usado o comando de exemplos de duplicatas em vez do comando de relatório duplicado. O comando de exemplos de duplicatas lista um exemplo de cada conjunto duplicado. Claramente, a saída de duplicatas relata e o índice de relatório duplicado é diferente. A saída do relatório duplicado mostra o número de linhas replicadas sobre todas as variáveis. Observe que na duplicata cujo valor mudamos (id1), as duas linhas não são tecnicamente as mesmas, e este comando corretamente não as pegou. O segundo comando duplicar o relatório id mostra que temos 195 valores de ID exclusivos e cinco ids (excedentes) que aparecem duas vezes cada (cópias), o que leva a um total de 10 observações questionáveis ​​com base em id. Em seguida, listamos as observações duplicadas com o comando da lista de duplicatas. Essa lista de duplicatas corresponde à listagem dessas observações com linhas duplicadas no entanto, conforme encontrado com o relatório duplicado. Ele não identifica as cinco IDs duplicadas. Portanto, nós tentamos id de lista de duplicatas. Agora vemos quais cinco assuntos são duplicados no entanto, a lista duplicada apenas lista a variável especificada. Podemos querer listar as outras variáveis ​​para ver quais variáveis ​​estão causando a diferença entre a lista de duplicatas e as saídas de ID da lista de duplicações. Para ter uma saída como essa, dada pela lista de duplicatas. Usamos o comando tag de duplicatas para criar uma nova dupla variável que atribua um 1 se o id for duplicado e 0 se aparecer uma vez. Então, listamos os casos em que a dupla é igual a 1. É evidente que o ID 1 tem valores diferentes nas pontuações de matemática nas observações duplicadas. Deste modo, seria aconselhável verificar qual pontuação, se for o caso, é a correta. Suponhamos que, neste caso, ambos os escores foram incorretos e a pontuação real foi de 44. Corrimos as pontuações e, após a correção, os resultados dos duplicados relatam e o id do relatório duplicado deve coincidir. Agora, podemos usar o comando de soltar duplicado para soltar as observações duplicadas. O comando descarta todas as observações, exceto a primeira ocorrência de cada grupo com observações duplicadas. Após a execução de duplas, cair. Verificamos que não há outras observações duplicadas. Parece que nos livramos das observações duplicadas. No Stata, vários programas estão disponíveis para detectar as duplicatas e também podem, opcionalmente, soltar as duplicatas. Um dos programas é chamado de dups. O programa dups não é um programa incorporado no Stata, mas pode ser instalado através da internet usando o findit dups (consulte Como posso usar o comando findit para procurar programas e obter ajuda adicional para obter mais informações sobre o uso do findit). Uma vez que o dups está instalado, podemos usá-lo imediatamente. Este exemplo usa o seguinte subconjunto do conjunto de dados maior usado acima com duplicatas adicionadas. Primeiro, nós inserimos os dados: então nós os observamos: no nosso exemplo, temos um grupo de observações com duplicatas consistindo na observação número 1, 7 e 8. Isso é o que vemos abaixo. Agora usaremos o comando dups. Sem argumentos, dups retorna informações sobre o número de grupos de observações que têm duplicatas e o número de duplicatas em cada grupo. Podemos adicionar uma lista de variáveis ​​após dups. Por exemplo, no exemplo a seguir, adicionamos a variável corrida após a duplicação. Agora, dups conta o número de observações duplicadas apenas na corrida variável. Podemos ver na lista do conjunto de dados que existem três grupos de observações de raça (1, 2 e 4) e dois deles têm duplicatas. Isso é mostrado por dups abaixo. Ao adicionar a opção única. Também solicitamos informações sobre grupos que tenham uma única observação única. Por exemplo, Com a tecla de opção (varlist). Podemos solicitar a lista das observações. Por exemplo, no exemplo a seguir, vemos os valores de id em cada grupo. Uma opção chamada terse pode ser adicionada para obter informações resumidas sobre duplicatas. Por exemplo, agora e se quisermos soltar as duplicatas, podemos fazer isso adicionando uma opção chamada drop. Queremos avisá-lo de que é sempre perigoso excluir as observações, pois pode perder os dados. Portanto, faça sempre com cautela. O que é bom sobre dups é que ele cria uma nova variável que contém informações suficientes para recuperar as observações excluídas se mudarmos a nossa opinião sobre o que acabamos de fazer. O nome padrão da variável é expandido (você pode alterar o nome usando a opção expandir após dups). Usando a variável expandir, podemos recuperar as observações excluídas usando um comando chamado expandir. Veja o exemplo abaixo. Se, por algum motivo, você quisesse retornar a um conjunto de dados que tenha duplicatas, você pode usar o comando expandir, usando a variável de expansão criada por dups para especificar o número de duplicatas a serem feitas. Observe que isso só irá recuperar seu conjunto de dados original se você detectou duplicatas com base em todas as variáveis ​​em seu conjunto de dados. Se você usou apenas um subconjunto de variáveis, você só poderá recriar com precisão os valores desses casos (porque você não possui dados sobre as variáveis ​​que não foram usadas para determinar duplicatas). Agora, vimos como detectar e soltar observações duplicadas usando o comando dups escrito pelo usuário. O conteúdo deste site não deve ser interpretado como um endosso de qualquer site, livro ou produto de software específico da Universidade da Califórnia.

No comments:

Post a Comment