miércoles, 30 de septiembre de 2015

Estadística : SIMON MARTINEZ NOE EMIR GRUPO 506

ESTADISTICA 1:

La estadística es comúnmente considerada como una colección de hechos numéricos expresados en términos de una relación sumisa, y que han sido recopilado a partir de otros datos numéricos.
 valor resumido, calculado, como base en una muestra de observaciones que generalmente, aunque no por necesidad, se considera como una estimación de parámetro de determinada población; es decir, una función de valores de muestra.
"La estadística es una técnica especial apta para el estudio cuantitativo de los fenómenos de masa o colectivo, cuya mediación requiere una masa de observaciones de otros fenómenos más simples llamados individuales o particulares". 
"La estadística estudia lométodos científicos para recoger, organizar, resumir y analizar datos, así como para sacar conclusiones válidas y tomar decisiones razonables basadas en tal análisis.
"La estadística es la ciencia que trata de la recolección, clasificación y presentación de los hechos sujetos a una apreciación numérica como base a la explicación, descripción y comparación de los fenómenos"
METODO CIENTIFICO:
El método científico es un proceso destinado a explicar fenómenos, establecer relaciones entre los hechos y enunciar leyes que expliquen los fenómenos físicos del mundo y permitan obtener, con estos conocimientos, aplicaciones útiles al hombre.
Los científicos emplean el método científico como una forma planificada de trabajar. Sus logros son acumulativos y han llevado a la Humanidad al momento cultural actual.

PASOS DEL METODO CIENTIFICO:


1.-LA OBSERVACION:Es un proceso qu e nos permite obtener informacion acerca de los objetos, hechos o fenomenos.


2.-LA HIPOTESIS: Es una explicacion que contesta una pregunta, luego debe ser comprobada para ver si es correcta o no


3.-LA EXPERIMENTACION O BUSQUEDA DE INFORMACION: Servira para comprobar o refutar una hipotesis a traves de la medicion o comparacion.


4.-LA ORGANIZACION DE LA INFORMACION: Es el resultado de nuevas observaciones, mediciones o indagaciones a traves de un experimento o busqueda de informacion en libros, revistas,entrevistas,etc.Ahora, estos datos obtenidos durante la actividad de investigacion, tendremos que organizarlos en cuadros graficos, esquemas, diagramas, fotos,etc


5.-LAS CONCLUSIONES O COMUNICACION DE LOS RESULTADOS OBTENIDOS: Si comprobamos que la hipotesis planteada es verdadera, nuestra conclusion sera VALIDA; en caso de que los hechos investigados no cvoincidan con la hipotesis, esta sera NO VALIDA, por lo que tendremos que replantear la hipotesis

CONCEPTOS BÁSICOS EN PROBABILIDAD Y ESTADÍSTICA:

POBLACIÓN:

El concepto de población provine del término latino populatio. En su uso más habitual, la palabra hace referencia al grupo formado por las personas que viven en un determinado lugar o incluso en el planeta en general. También permite referirse a los espacios y edificaciones de una localidad u otra división política, y a la acción y las consecuencias de poblar.

MUESTRA: 


Una muestra es un conjunto de cosas, personas o datos elegidos al azar, que se consideran representativos del grupo al que pertenecen y que se toman para estudiar o determinar las características del grupo.

VARIABLE:

Una variable es un símbolo que puede ser remplazado o que toma un valor numérico en una ecuación o expresión matemática en general.
Una variable es una propiedad que puede fluctuar y cuya variación es susceptible de adoptar diferentes valores, los cuales pueden medirse u observarse. Las variables adquieren valor cuando se relacionan con otras variables, es decir, si forman parte de una hipótesis o de una teoría. En este caso se las denomina constructos o construcciones hipotéticas.
Existen diferentes tipos de variables: -cuantitativa -cualitativa -cualitativa discreta -cuantitativa discreta

VARIABLE CUALITATIVA:

Las variables cualitativas se refieren a características o cualidades que no pueden ser medidas con números.
Podemos distinguir 2 tipos:

a) Variable cualitativa nominal:
Las variables cualitativas nominales presentan modalidades no numéricas que no admiten un criterio de orden, por ejemplo: El estado civil con las siguientes modalidades: Soltero, casado, separado, divorciado y viudo.

b) Variable cualitativa ordinal o variable cuasi-cuantitativa:
Una variable cualitativa ordinal presenta modalidades no numéricas en las que existe un orden, por ejemplo: Medallas de una prueba deportiva, oro, plata y bronce.

VARIABLE DISCRETA:

Una variable discreta es una variable cuantitativa que toma valores aislados, es decir no admite valores intermedios entre 2 valores específicos, por ejemplo: El numero de hermanos de 5 amigos: 2,1,0,1,3


VARIABLE CUANTITATIVA:

Es la que se expresa mediante un numero, por tanto se pueden realizar operaciones aritméticas con ella. Podemos distinguir 2 tipos

a)Variable Continua:
Una variable continua es aquella que puede tomar valores comprendidos entre 2 números, por ejemplo: La altura de 5 amigos: 1.73, 1.82, 1.77, 1.69 y 1.75

b)Variable discreta: LA VARIABLE DISCRETA YA FUE MENCIONADA ANTERIORMENTE

PROBABILIDAD:

La probabilidad de un suceso es un numero, comprendido entre 0 y 1, que indica las posibilidades que tiene de verificarse cuando se realiza un experimento aleatorio.

La probabilidad es el calculo matemático de las posibilidades que existen de que una cosa se cumpla o suceda al azar.

ESTADÍSTICA:

La estadística trata del recuento, ordenación y clasificación de los datos obtenidos por las observaciones, para poder hacer comparaciones y sacar conclusiones, un estudio estadístico consta de los siguientes fases:
Recogida de datos, organización y representación de datos, análisis de datos y obtención de conclusiones.


ESTADÍSTICA DESCRIPTIVA:

La estadística descriptiva registra los datos en tablas y los representa en gráficas. Calcula los parámetros estadísticos (medidas de centralización y dispersión), que describen al conjunto estudiado.

ESTADÍSTICA INFERENCIAL:

La estadística inferencia o inferencia estadista estudia como sacar conclusiones generales para toda la población a partir del estudio de una muestra, y el grado de fiabilidad o significación de los resultados obtenidos.

TIPOS DE MUESTREO

Tipos de muestreo

Muestreo probabilístico (aleatorio): En este tipo de muestreo, todos los individuos de la población pueden formar parte de la muestra, tienen probabilidad positiva de formar parte de la muestra. Por lo tanto es el tipo de muestreo que deberemos utilizar en nuestras investigaciones, por ser el riguroso y científico. 

Muestreo no probabilístico (no aleatorio): En este tipo de muestreo, puede haber clara influencia de la persona o personas que seleccionan la muestra o simplemente se realiza atendiendo a razones de comodidad. Salvo en situaciones muy concretas en la que los errores cometidos no son grandes, debido a la homogeneidad de la población, en general no es un tipo de muestreo riguroso y científico, dado que no todos los elementos de la población pueden formar parte de la muestra. Por ejemplo, si hacemos una encuesta telefónica por la mañana, las personas que no tienen teléfono o que están trabajando, no podrán formar parte de la muestra.

Muestreo aleatorio simple

En un muestreo aleatorio simple todos los individuos tienen la misma probabilidad de ser seleccionados. La selección de la muestra puede realizarse a través de cualquier mecanismo probabilístico en el que todos los elementos tengan las mismas opciones de salir. Por ejemplo uno de estos mecanismos es utilizar una tabla de números aleatorios, o también con un ordenador generar números aleatorios, comprendidos entre cero y uno, y multiplicarlos por el tamaño de la población, este es el que vamos a utilizar. 

Muestreo aleatorio estratificado

Es frecuente que cuando se realiza un estudio interese estudiar una serie de subpoblaciones (estratos) en la población, siendo importante que en la muestra haya representación de todos y cada uno de los estratos considerados. El muestreo aleatorio simple no nos garantiza que tal cosa ocurra. Para evitar esto, se saca una muestra de cada uno de los estratos. 
Hay dos conceptos básicos:

Estratificación: El criterio a seguir en la formación de los estratos será formarlos de tal manera que haya la máxima homogeneidad en relación a la variable a estudio dentro de cada estrato y la máxima heterogeneidad entre los estratos. 

Afijación: Reparto del tamaño de la muestra en los diferentes estratos o subpoblaciones. Existen varios criterios de afijación entre los que destacamos: 

1. Afijación igual: Todos los estratos tienen el mismo número de elementos en la muestra. 
2. Afijación proporcional: Cada estrato tiene un número de elementos en la muestra proporcional a su tamaño. 
3. Afijación Neyman: Cuando el reparto del tamaño de la muestra se hace de forma proporcional al valor de la dispersión en cada uno de los estratos.

Muestreo aleatorio sistemático

Es un tipo de muestreo aleatorio simple en el que los elementos se seleccionan según un patrón que se inicia con una elección aleatoria.

Considerando una población de N elementos, si queremos extraer una muestra de tamaño n, partimos de un número h=N/n, llamado coeficiente de elevación y tomamos un número al azar a comprendido entre 1 y h que se denomina arranque u origen. 

La muestra estará formada por los elementos: a, a+h, a+2h,....a+(n-1)h. 
De aqui se deduce que un elemento poblacional no podrá aparecer más de una vez en la muestra. La muestra será representativa de la población pero introduce algunos sesgos cuando la población está ordenada en función de determinados criterios.

Muestreo aleatorio por conglomerados o áreas

Mientras que en el muestreo aleatorio estratificado cada estrato presenta cierta homogeneidad, un conglomerado se considera una agrupación de elementos que presentan características similares a toda la población. 

Por ejemplo, para analizar los gastos familiares o para controlar el nivel de audiencia de los programas y cadenas de televisión, se utiliza un muestreo por conglomerados-familias que han sido elegidas aleatoriamente.

Las familias incluyen personas de todas las edades, muy representativas de las mismas edades y preferencias que la totalidad de la población. 

Una vez seleccionados aleatoriamente los conglomerados, se toman todos los elementos de cada uno para formar la muestra. En este tipo de muestreo lo que se elige al azar no son unos cuantos elementos de la población, sino unos grupos de elementos de la población previamente formados. Elegidos estos grupos o "conglomerados" en un número suficiente, se pasa posteriormente a la elección, también al azar, de los elementos que han de ser observados dentro de cada grupo, o bien, según se desee, a la observación de todos los elementos que componen los grupos elegidos. 

Por ejemplo, para analizar los gastos familiares o para controlar el nivel de audiencia de los programas y cadenas de televisión, se utiliza un muestreo por conglomerados-familias que han sido elegidas aleatoriamente. Las familias incluyen personas de todas las edades, muy representativas de las mismas edades y preferencias que la totalidad de la población. 

Una vez seleccionados aleatoriamente los conglomerados, se toman todos los elementos de cada uno para formar la muestra. En este tipo de muestreo lo que se elige al azar no son unos cuantos elementos de la población, sino unos grupos de elementos de la población previamente formados. Elegidos estos grupos o "conglomerados" en un número suficiente, se pasa posteriormente a la elección, también al azar, de los elementos que han de ser observados dentro de cada grupo, o bien, según se desee, a la observación de todos los elementos que componen los grupos elegidos. 

Muestreo no Probabilístico


Existen otros procedimientos para seleccionar las muestras, que son menos precisos que los citados y que resultan menos costosos. El procedimiento más utilizado es el muestreo no probabilístico, denominado opinático consistente en que el investigador selecciona la muestra que supone sea la más representativa, utilizando un criterio subjetivo y en función de la investigación que se vaya a realizar. 

Con el muestreo opinático la realización del trabajo de campo puede simplificarse enormemente pues se puede concentrar mucho la muestra. Sin embargo, al querer concentrar la muestra, se pueden cometer errores y sesgos debidos al investigador y, al tratarse de un muestreo subjetivo (según las preferencias del investigador), los resultados de la encuesta no tienen una fiabilidad estadística exacta. 

Un muestreo no probabilístico muy utilizado hoy en día por los institutos de opinión es el de itinerarios, consistente en facilitar al entrevistador el perfil de las personas que tiene que entrevistar en cada uno de los itinerarios en que se realizan las entrevistas. 

El muestreo denominado de cuotas, utiliza en sucesivos sondeos al mismo conjunto muestral (inicialmente seleccionado de forma aleatoria) y es el empleado para medir índices de audiencia de programas televisivos. 

En muestreo se entiende por población a la totalidad del universo que interesa considerar, y que es necesario que esté bien definido para que se sepa en todo momento que elementos lo componen. 

No obstante, cuando se realiza un trabajo puntual, conviene distinguir entre población teórica: conjunto de elementos a los cuales se quieren extrapolar los resultados, y población estudiada: conjunto de elementos accesibles en nuestro estudio. 

Censo: En ocasiones resulta posible estudiar cada uno de los elementos que componen la población, realizándose lo que se denomina un censo, es decir, el estudio de todos los elementos que componen la población. 

La realización de un censo no siempre es posible, por diferentes motivos: a) economía: el estudio de todos los elementos que componen una población, sobre todo si esta es grande, suele ser un problema costoso en tiempo, dinero, etc.; b) que las pruebas a las que hay que someter a los sujetos sean destructivas; c) que la población sea infinita o tan grande que exceda las posibilidades del investigador. 

Si la numeración de elementos, se realiza sobre la población accesible o estudiada, y no sobre la población teórica, entonces el proceso recibe el nombre de marco o espacio muestral. 

Muestreo probabilístico 
Los métodos de muestreo probabilísticos son aquellos que se basan en el principio de equiprobabilidad. Es decir, aquellos en los que todos los individuos tienen la misma probabilidad de ser elegidos para formar parte de una muestra y, consiguientemente, todas las posibles muestras de tamaño n tienen la misma probabilidad de ser elegidas. Sólo estos métodos de muestreo probabilísticos nos aseguran la representatividad de la muestra extraída y son, por tanto, los más recomendables. Dentro de los métodos de muestreo probabilísticos encontramos los siguientes tipos: 

El método otorga una probabilidad conocida de integrar la muestra a cada elemento de la población, y dicha probabilidad no es nula para ningún elemento. 

Los métodos de muestreo no probabilisticos no garantizan la representatividad de la muestra y por lo tanto no permiten realizar estimaciones inferenciales sobre la población. 

(En algunas circunstancias los métodos estadísticos y epidemiológicos permiten resolver los problemas de representatividad aun en situaciones de muestreo no probabilístico, por ejemplo los estudios de caso-control, donde los casos no son seleccionados aleatoriamente de la población.) 
Entre los métodos de muestreo probabilísticos más utilizados en investigación encontramos: 

• Muestreo aleatorio simple 
• Muestreo estratificado 
• Muestreo sistemático 
• Muestreo polietápico o por conglomerados 

Muestreo aleatorio simple: 
El procedimiento empleado es el siguiente: 1) se asigna un número a cada individuo de la población y 2) a través de algún medio mecánico (bolas dentro de una bolsa, tablas de números aleatorios, números aleatorios generados con una calculadora u ordenador, etc.) se eligen tantos sujetos como sea necesario para completar el tamaño de muestra requerido. 
Este procedimiento, atractivo por su simpleza, tiene poca o nula utilidad práctica cuando la población que estamos manejando es muy grande. 

Muestreo aleatorio sistemático: 
Este procedimiento exige, como el anterior, numerar todos los elementos de la población, pero en lugar de extraer n números aleatorios sólo se extrae uno. Se parte de ese número aleatorio i, que es un número elegido al azar, y los elementos que integran la muestra son los que ocupa los lugares i, i+k, i+2k, i+3k,...,i+(n-1)k, es decir se toman los individuos de k en k, siendo k el resultado de dividir el tamaño de la población entre el tamaño de la muestra: k= N/n. El número i que empleamos como punto de partida será un número al azar entre 1 y k. 

El riesgo este tipo de muestreo está en los casos en que se dan periodicidades en la población ya que al elegir a los miembros de la muestra con una periodicidad constante (k) podemos introducir una homogeneidad que no se da en la población. Imaginemos que estamos seleccionando una muestra sobre listas de 10 individuos en los que los 5 primeros son varones y los 5 últimos mujeres, si empleamos un muestreo aleatorio sistemático con k=10 siempre seleccionaríamos o sólo hombres o sólo mujeres, no podría haber una representación de los dos sexos. 

Muestreo aleatorio estratificado: 
Trata de obviar las dificultades que presentan los anteriores ya que simplifican los procesos y suelen reducir el error muestral para un tamaño dado de la muestra. Consiste en considerar categorías típicas diferentes entre sí (estratos) que poseen gran homogeneidad respecto a alguna característica (se puede estratificar, por ejemplo, según la profesión, el municipio de residencia, el sexo, el estado civil, etc.). Lo que se pretende con este tipo de muestreo es asegurarse de que todos los estratos de interés estarán representados adecuadamente en la muestra. Cada estrato funciona independientemente, pudiendo aplicarse dentro de ellos el muestreo aleatorio simple o el estratificado para elegir los elementos concretos que formarán parte de la muestra. En ocasiones las dificultades que plantean son demasiado grandes, pues exige un conocimiento detallado de la población. (Tamaño geográfico, sexos, edades,...). 

La distribución de la muestra en función de los diferentes estratos se denomina afijación, y puede ser de diferentes tipos: 

Afijación Simple: A cada estrato le corresponde igual número de elementos muéstrales. 
Afijación Proporcional: La distribución se hace de acuerdo con el peso (tamaño) de la población en cada estrato. 
Afijación Optima: Se tiene en cuenta la previsible dispersión de los resultados, de modo que se considera la proporción y la desviación típica. Tiene poca aplicación ya que no se suele conocer la desviación. 

Muestreo aleatorio por conglomerados: 

Los métodos presentados hasta ahora están pensados para seleccionar directamente los elementos de la población, es decir, que las unidades muéstrales son los elementos de la población. 

En el muestreo por conglomerados la unidad muestral es un grupo de elementos de la población que forman una unidad, a la que llamamos conglomerado. Las unidades hospitalarias, los departamentos universitarios, una caja de determinado producto, etc., son conglomerados naturales. En otras ocasiones se pueden utilizar conglomerados no naturales como, por ejemplo, las urnas electorales. Cuando los conglomerados son áreas geográficas suele hablarse de "muestreo por áreas". 

El muestreo por conglomerados consiste en seleccionar aleatoriamente un cierto numero de conglomerados (el necesario para alcanzar el tamaño muestral establecido) y en investigar después todos los elementos pertenecientes a los conglomerados elegidos. 

Métodos de muestreo no probabilísticos 

A veces, para estudios exploratorios, el muestreo probabilístico resulta excesivamente costoso y se acude a métodos no probabilísticos, aun siendo conscientes de que no sirven para realizar generalizaciones, pues no se tiene certeza de que la muestra extraída sea representativa, ya que no todos los sujetos de la población tienen la misma probabilidad de se elegidos. En general se seleccionan a los sujetos siguiendo determinados criterios procurando que la muestra sea representativa. 

Muestreos No Probabilísticos:

• de Conveniencia 
• de Juicios 
• por Cuotas de Bola de Nieve Discrecional 

Muestreo por cuotas: 

También denominado en ocasiones "accidental". Se asienta generalmente sobre la base de un buen conocimiento de los estratos de la población y/o de los individuos más "representativos" o "adecuados" para los fines de la investigación. Mantiene, por tanto, semejanzas con el muestreo aleatorio estratificado, pero no tiene el carácter de aleatoriedad de aquél. 

En este tipo de muestreo se fijan unas "cuotas" que consisten en un número de individuos que reúnen unas determinadas condiciones, por ejemplo: 20 individuos de 25 a 40 años, de sexo femenino y residentes en Gijón. Una vez determinada la cuota se eligen los primeros que se encuentren que cumplan esas características. Este método se utiliza mucho en las encuestas de opinión. 

Muestreo opinático o intencional: 
Este tipo de muestreo se caracteriza por un esfuerzo deliberado de obtener muestras "representativas" mediante la inclusión en la muestra de grupos supuestamente típicos. Es muy frecuente su utilización en sondeos preelectorales de zonas que en anteriores votaciones han marcado tendencias de voto. 

Muestreo casual o incidental: 

Se trata de un proceso en el que el investigador selecciona directa e intencionadamente los individuos de la población. El caso más frecuente de este procedimiento el utilizar como muestra los individuos a los que se tiene fácil acceso (los profesores de universidad emplean con mucha frecuencia a sus propios alumnos). 

Bola de nieve: 

Se localiza a algunos individuos, los cuales conducen a otros, y estos a otros, y así hasta conseguir una muestra suficiente. Este tipo se emplea muy frecuentemente cuando se hacen estudios con poblaciones "marginales", delincuentes, sectas, determinados tipos de enfermos, etc. 

Muestreo Discrecional • A criterio del investigador los elementos son elegidos sobre lo que él cree que pueden aportar al estudio. • Ej. : muestreo por juicios; cajeros de un banco o un supermercado; etc. 

FÓRMULA PARA CALCULAR EL TAMAÑO DE LA MUESTRA

Para calcular el tamaño de la muestra suele utilizarse la siguiente fórmula:
Monografias.com
Donde:
n = el tamaño de la muestra.
N = tamaño de la población.
Monografias.comDesviación estándar de la población que, generalmente cuando no se tiene su valor, suele utilizarse un valor constante de 0,5.
Z = Valor obtenido mediante niveles de confianza. Es un valor constante que, si no se tiene su valor, se lo toma en relación al 95% de confianza equivale a 1,96 (como más usual) o en relación al 99% de confianza equivale 2,58, valor que queda a criterio del investigador.
e = Límite aceptable de error muestral que, generalmente cuando no se tiene su valor, suele utilizarse un valor que varía entre el 1% (0,01) y 9% (0,09), valor que queda a criterio del encuestador.
La fórmula del tamaño de la muestra se obtiene de la fórmula para calcular la estimación del intervalo de confianza para la media, la cual es:
Monografias.com
De donde el error es:
Monografias.com
De esta fórmula del error de la estimación del intervalo de confianza para la media se despeja la n, para lo cual se sigue el siguiente proceso:
Elevando al cuadrado a ambos miembros de la fórmula se obtiene:
Monografias.com
Monografias.com
Multiplicando fracciones:
Monografias.com
Eliminando denominadores:
Monografias.com
Eliminando paréntesis:
Monografias.com
Transponiendo n a la izquierda:
Monografias.com
Factor común de n:
Monografias.com
Despejando n:
Monografias.com
Ordenando se obtiene la fórmula para calcular el tamaño de la muestra:
Monografias.com



El tamaño de la muestra depende básicamente de tres aspectos:

  1. El error permitido (E).
  2. El nivel de confianza con el que se desea dicho error (1-α).
  3. El carácter finito o infinito de la población (N=nº de personas).
Las fórmulas clásicas para determinar "n", el tamaño de la muestra son las siguientes:
Para poblaciones "infinitas" (más de 100.000 personas o elementos):

Para poblaciones "finitas" (menos de 100.000 personas o elementos): 
ESTE ARTICULO FUE PUBLICADO POR EL JOVEN NOE EMIR DEL COLEGIO DE BACHILLERES PLANTEL 04 EL TULE EN EL 2015 (año en curso) LO HIZE CON MUCHO ESFUERZO, AGAN EL SUYO HUEVONES. UuUr

sábado, 31 de mayo de 2014

MEDIDAS DE TENDENCIA CENTRAL
Al describir grupos de observaciones, con frecuencia es conveniente resumir la información con un solo número. Este número que, para tal fin, suele situarse hacia el centro de la distribución de datos se denomina medida o parámetro de tendencia central o de centralización. Cuando se hace referencia únicamente a la posición de estos parámetros dentro de la distribución, independientemente de que ésta esté más o menos centrada, se habla de estas medidas como medidas de posición.1 En este caso se incluyen también los cuantiles entre estas medidas.
Entre las medidas de tendencia central tenemos:
Se debe tener en cuenta que existen variables cualitativas y variables cuantitativas, por lo que las medidas de posición o medidas de tendencia se usan de acuerdo al tipo de variable que se está observando, en este caso se observan variables cuantitativas.
La media aritmética es el valor obtenido por la suma de todos sus valores dividida entre el número de sumandos.
Por ejemplo, las notas de 5 alumnos en una prueba:
niño     nota
 1       6,0    ·Primero, se suman las notas:
 2       5,4        6,0+5,4+3,1+7,0+6,1 = 27,6
 3       3,1    ·Luego el total se divide entre la cantidad de alumnos:
 4       7,0         27,6/5=5,52
 5       6,1    
· La media aritmética en este ejemplo es 5,52
La media aritmética es, probablemente, uno de los parámetros estadísticos más extendidos.2 Se le llama también promedio o, simplemente, media.

Definición formal

Dado un conjunto numérico de datos, x1x2, ..., xn, se define su media aritmética como
 \overline{x} = \frac{x_1 + x_2 + ... + x_n}{n} = \frac{\sum_{i=1}^n x_i}{n}
Esta definición varía, aunque no sustancialmente, cuando se trata de variables continuas, esto es, también puede calcularse para variables agrupadas en intervalos.

Propiedades

Las principales propiedades de la media aritmética son:3
  • Su cálculo es muy sencillo y en él intervienen todos los datos.
  • Su valor es único para una serie de datos dada.
  • Se usa con frecuencia para comparar poblaciones, aunque es más apropiado acompañarla de una medida de dispersión.
  • Se interpreta como "punto de equilibrio" o "centro de masas" del conjunto de datos, ya que tiene la propiedad de equilibrar las desviaciones de los datos respecto de su propio valor:
 \frac{\sum_{i=1}^n (x_i-\overline{x})}{n} = \frac{\sum_{i=1}^n x_i}{n} - \frac{\sum_{i=1}^n \overline{x}}{n} = \overline{x} - \overline{x} = 0
  • Minimiza las desviaciones cuadráticas de los datos respecto de cualquier valor prefijado, esto es, el valor de  \frac{\sum_{i=1}^n (x_i-k)^2}{n} es mínimo cuando k = \overline{x}. Este resultado se conoce como Teorema de König. Esta propiedad permite interpretar uno de los parámetros de dispersión más importantes: la varianza.
x_i' = ax_i+b entonces \overline{x'} = a \overline{x} + b, donde \overline{x'} es la media aritmética de los x_i', para i = 1, ..., n y a y b números reales.

Inconvenientes de su uso

Este parámetro, aún teniendo múltiples propiedades que aconsejan su uso en situaciones muy diversas, tiene también algunos inconvenientes, como son:
  • Para datos agrupados en intervalos (variables continuas) su valor oscila en función de la cantidad y amplitud de los intervalos que se consideren.
La estatura media como resumen de una población homogénea (abajo) o heterogénea (arriba).
  • Es una medida a cuyo significado afecta sobremanera la dispersión, de modo que cuanto menos homogéneos sean los datos, menos información proporciona. Dicho de otro modo, poblaciones muy distintas en su composición pueden tener la misma media.4 Por ejemplo, un equipo de baloncesto con cinco jugadores de igual estatura, 1,95 m, evidentemente, tendría una estatura media de 1,95 m, valor que representa fielmente a esta población homogénea. Sin embargo, un equipo de jugadores de estaturas más heterogéneas, 2,20 m, 2,15 m, 1,95 m, 1,75 m y 1,70 m, por ejemplo, tendría también, como puede comprobarse, una estatura media de 1,95 m, valor que no representa a casi ninguno de sus componentes.
  • En el cálculo de la media no todos los valores contribuyen de la misma manera. Los valores altos tienen más peso que los valores cercanos a cero. Por ejemplo, en el cálculo del salario medio de un empresa, el salario de un alto directivo que gane 1.000.000 de  tiene tanto peso como el de diez empleados "normales" que ganen 1.000 €. En otras palabras, se ve muy afectada por valores extremos.
  • No se puede determinar si en una distribución de frecuencias hay intervalos de clase abiertos.

Media aritmética ponderada

A veces puede ser útil otorgar pesos o valores a los datos dependiendo de su relevancia para determinado estudio. En esos casos se puede utilizar una media ponderada.
Si x_{1},x_{2},..., x_{n} son nuestros datos y w_{1},w_{2},..., w_{n} son sus "pesos" respectivos, la media ponderada se define de la siguiente forma:
\frac{x_{1}w_{1}+x_{2}w_{2}+ ...+x_{n}w_{n}}{w_{1}+w_{2}+ ...+w_{n}}

Media muestral

Esencialmente, la media muestral es el mismo parámetro que el anterior, aunque el adjetivo "muestral" se aplica a aquellas situaciones en las que la media aritmética se calcula para un subconjunto de la población objeto de estudio.
La media muestral es un parámetro de extrema importancia en la inferencia estadística, siendo de gran utilidad para la estimación de la media poblacional, entre otros usos.

Moda

Su cálculo es extremadamente sencillo, pues sólo necesita un recuento. En variables continuas, expresadas en intervalos, existe el denominado intervalo modal o, en su defecto, si es necesario obtener un valor concreto de la variable, se recurre a la interpolación.
Por ejemplo, el número de personas en distintos vehículos en una carretera: 5-7-4-6-9-5-6-1-5-3-7. El número que más se repite es 5, entonces la moda es 5.
Hablaremos de una distribución bimodal de los datos, cuando encontremos dos modas, es decir, dos datos que tengan la misma frecuencia absoluta máxima. Cuando en una distribución de datos se encuentran tres o más modas, entonces es multimodal. Por último, si todas las variables tienen la misma frecuencia diremos que no hay moda.
Cuando tratamos con datos agrupados en intervalos, antes de calcular la moda, se ha de definir el intervalo modal. El intervalo modal es el de mayor frecuencia absoluta.
La moda, cuando los datos están agrupados, es un punto que divide el intervalo modal en dos partes de la forma p y c-p, siendo c la amplitud del intervalo, que verifiquen que:
\frac{p}{c-p}=\frac{n_i-n_{i-1} }{n_i-n_{i+1} }
Siendo n_{i} la frecuencia absoluta del intervalo modal y n_{i-1} y n_{i+1} las frecuencias absolutas de los intervalos anterior y posterior, respectivamente, al intervalo modal.
Las calificaciones en la asignatura de Matemáticas de 39 alumnos de una clase viene dada por la siguiente tabla (debajo):
Calificaciones123456789
Número de alumnos224589342

Propiedades

Sus principales propiedades son:
  • Cálculo sencillo.
  • Interpretación muy clara.
  • Al depender sólo de las frecuencias, puede calcularse para variables cualitativas. Es por ello el parámetro más utilizado cuando al resumir una población no es posible realizar otros cálculos, por ejemplo, cuando se enumeran en medios periodísticos las características más frecuentes de determinado sector social. Esto se conoce informalmente como "retrato robot".6

Inconvenientes

  • Su valor es independiente de la mayor parte de los datos, lo que la hace muy sensible a variaciones muestrales. Por otra parte, en variables agrupadas en intervalos, su valor depende excesivamente del número de intervalos y de su amplitud.
  • Usa muy pocas observaciones, de tal modo que grandes variaciones en los datos fuera de la moda, no afectan en modo alguno a su valor.
  • No siempre se sitúa hacia el centro de la distribución.
  • Puede haber más de una moda en el caso en que dos o más valores de la variable presenten la misma frecuencia (distribuciones bimodales o multimodales).

Mediana[


La mediana es un valor de la variable que deja por debajo de sí a la mitad de los datos, una vez que éstos están ordenados de menor a mayor.7 Por ejemplo, la mediana del número de hijos de un conjunto de trece familias, cuyos respectivos hijos son: 3, 4, 2, 3, 2, 1, 1, 2, 1, 1, 2, 1 y 1, es 2, puesto que, una vez ordenados los datos: 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 3, 3, 4, el que ocupa la posición central es 2:
\rm 
      \underbrace{1,\ 1,\ 1,\ 1,\ 1,\ 1, }_{Mitad \; inferior} \;
      \underbrace{\color{Red} 2, }_{Mediana \;} \;
       \underbrace{2,\ 2,\ 2,\ 3,\ 3,\ 4}_{Mitad \; superior}
En caso de un número par de datos, la mediana no correspondería a ningún valor de la variable, por lo que se conviene en tomar como mediana el valor intermedio entre los dos valores centrales. Por ejemplo, en el caso de doce datos como los siguientes:
\rm 
      \underbrace{1,\ 1,\ 1,\ 1,\ 1, }_{Valores \; inferiores} \;
      \underbrace{\color{Red} 1,\ 2, }_{Valores \; intermedios} \;
      \underbrace{2,\ 2,\ 3,\ 3,\ 4}_{Valores \; superiores}
Se toma como mediana  1,5 = \frac{{\color{Red}1}+{\color{Red}2}}{2}
Existen métodos de cálculo más rápidos para datos más númerosos (véase el artículo principal dedicado a este parámetro). Del mismo modo, para valores agrupados en intervalos, se halla el "intervalo mediano" y, dentro de éste, se obtiene un valor concreto por interpolación.

Cálculo de la mediana para datos agrupados

Primero hallamos las frecuencias absolutas acumuladas Fi (ver tabla del margen derecho).
Así, aplicando la fórmula asociada a la mediana para n impar, obtenemos X(39+1)/2 = X20 y basándonos en la fórmula que hace referencia a las frecuencias absolutas:
Ni-1< n/2 < i = N19 < 19.5 < N20
Por tanto la mediana será el valor de la variable que ocupe el vigésimo lugar. En nuestro ejemplo, 21 (frecuencia absoluta acumulada para Xi = 5) > 19.5 con lo que Me = 5 puntos (es aconsejable no olvidar las unidades; en este caso como estamos hablando de calificaciones, serán puntos)
La mitad de la clase ha obtenido un 5 o menos, y la otra mitad un 5 o más.
Ejemplo (N par)
Las calificaciones en la asignatura de Matemáticas de 38 alumnos de una clase viene dada por la siguiente tabla (debajo):
Calificaciones123456789
Número de alumnos224569442
xifiFi
122
224
348
4513
5619 = 19
6928
7432
8436
9238
Calculemos la Mediana:
Primero hallamos las frecuencias absolutas acumuladas Fi (ver tabla margen derecho).
Si volvemos a utilizar la fórmula asociada a la mediana para n par, obtenemos X(38/2) = X19 y basándonos en la fórmula que hace referencia a las frecuencias absolutas --> Ni-1< n/2 < Ni = N18 < 19 < N19
Con lo cual la mediana será la media aritmética de los valores de la variable que ocupen el decimonoveno y el vigésimo lugar.
En nuestro ejemplo, el lugar decimonoveno lo ocupa el 5 y el vigésimo el 6, (desde el vigésimo hasta el vigésimo octavo)
con lo que Me = (5+6)/2 = 5,5 puntos.

Propiedades e inconvenientes

Las principales propiedades de la mediana son:8
  • Es menos sensible que la media a oscilaciones de los valores de la variable. Un error de transcripción en la serie del ejemplo anterior en, pongamos por caso, el último número, deja a la mediana inalterada.
  • Como se ha comentado, puede calcularse para datos agrupados en intervalos, incluso cuando alguno de ellos no está acotado.
  • No se ve afectada por la dispersión. De hecho, es más representativa que la media aritmética cuando la población es bastante heterogénea. Suele darse esta circunstancia cuando se resume la información sobre los salarios de un país o una empresa. Hay unos pocos salarios muy altos que elevan la media aritmética haciendo que pierda representatividad respecto al grueso de la población. Sin embargo, alguien con el salario "mediano" sabría que hay tanta gente que gana más dinero que él, como que gana menos.
Sus principales inconvenientes son que en el caso de datos agrupados en intervalos, su valor varía en función de la amplitud de estos. Por otra parte, no se presta a cálculos algebraicos tan bien como la media aritmética.

Probabilidad

La probabilidad es un método por el cual se obtiene la frecuencia de un acontecimiento determinado mediante la realización de un experimento aleatorio, del que se conocen todos los resultados posibles, bajo condiciones suficientemente estables.
La teoría de la probabilidad se usa extensamente en áreas como la estadística, la física, la matemática, las ciencias y la filosofía para sacar conclusiones sobre la probabilidad discreta de sucesos potenciales y la mecánica subyacente discreta de sistemas complejos, por lo tanto es la rama de las matemáticas que estudia, mide o determina a los experimentos o fenómenos aleatorios.

Historia

La definición de probabilidad surge debido al deseo del ser humano por conocer con certeza los eventos que sucederán en el fúturo. Es por eso que a través de la historia se han desarrollado diferentes enfoques para tener un concepto de la probabilidad y determinar sus valores.
El diccionario de la Real Academia Española define «azar» como una casualidad, un caso fortuito, y afirma que la expresión «al azar» significa «sin orden».1 La idea de Probabilidad está íntimamente ligada a la idea de azar y nos ayuda a comprender nuestras posibilidades de ganar un juego de azar o analizar las encuestas. Pierre-Simon Laplace afirmó: "Es notable que una ciencia que comenzó con consideraciones sobre juegos de azar haya llegado a ser el objeto más importante del conocimiento humano". Comprender y estudiar el azar es indispensable, porque la probabilidad es un soporte necesario para tomar decisiones en cualquier ámbito.2
Según Amanda Dure, "Antes de la mitad del siglo XVII, el término 'probable' (en latín probable) significaba aprobable, y se aplicaba en ese sentido, unívocamente, a la opinión y a la acción. Una acción u opinión probable era una que las personas sensatas emprenderían o mantendrían, en las circunstancias."3
Aparte de algunas consideraciones elementales hechas por Girolamo Cardano en el siglo XVI, la doctrina de las probabilidades data de la correspondencia de Pierre de Fermat yBlaise Pascal (1654). Christiaan Huygens (1657) le dio el tratamiento científico conocido más temprano al concepto. Ars Conjectandi (póstumo, 1713) de Jakob Bernoulli yDoctrine of Chances (1718) de Abraham de Moivre trataron el tema como una rama de las matemáticas. Véase El surgimiento de la probabilidad (The Emergence of Probability) de Ian Hacking para una historia de los inicios del desarrollo del propio concepto de probabilidad matemática.
La teoría de errores puede trazarse atrás en el tiempo hasta Opera Miscellanea (póstumo, 1722) de Roger Cotes, pero una memoria preparada por Thomas Simpson en 1755 (impresa en 1756) aplicó por primera vez la teoría para la discusión de errores de observación. La reimpresión (1757) de esta memoria expone los axiomas de que los errores positivos y negativos son igualmente probables, y que hay ciertos límites asignables dentro de los cuales se supone que caen todos los errores; se discuten los errores continuos y se da una curva de la probabilidad.
Pierre-Simon Laplace (1774) hizo el primer intento para deducir una regla para la combinación de observaciones a partir de los principios de la teoría de las probabilidades. Representó la ley de la probabilidad de error con una curva y = \phi(x), siendo x cualquier error e y y su probabilidad, y expuso tres propiedades de esta curva:
  1. es simétrica al eje y;
  2. el eje x es una asíntota, siendo la probabilidad del error \infty igual a 0;
  3. la superficie cerrada es 1, haciendo cierta la existencia de un error.
Dedujo una fórmula para la media de tres observaciones. También obtuvo (1781) una fórmula para la ley de facilidad de error (un término debido a Lagrange, 1774), pero una que llevaba a ecuaciones inmanejables. Daniel Bernoulli (1778) introdujo el principio del máximo producto de las probabilidades de un sistema de errores concurrentes.
El método de mínimos cuadrados se debe a Adrien-Marie Legendre (1805), que lo introdujo en su Nouvelles méthodes pour la détermination des orbites des comètes (Nuevos métodos para la determinación de las órbitas de los cometas). Ignorando la contribución de Legendre, un escritor irlandés estadounidense, Robert Adrain, editor de "The Analyst" (1808), dedujo por primera vez la ley de facilidad de error,
\phi(x) = ce^{-h^2 x^2}
siendo c y h constantes que dependen de la precisión de la observación. Expuso dos demostraciones, siendo la segunda esencialmente la misma de John Herschel (1850).Gauss expuso la primera demostración que parece que se conoció en Europa (la tercera después de la de Adrain) en 1809. Demostraciones adicionales se expusieron por Laplace (1810, 1812), Gauss (1823), James Ivory (1825, 1826), Hagen (1837), Friedrich Bessel (1838), W. F. Donkin (1844, 1856) y Morgan Crofton (1870). Otros personajes que contribuyeron fueron Ellis (1844), De Morgan (1864), Glaisher (1872) y Giovanni Schiaparelli (1875). La fórmula de Peters (1856) para r, el error probable de una única observación, es bien conocida.
En el siglo XIX, los autores de la teoría general incluían a LaplaceSylvestre Lacroix (1816), Littrow (1833), Adolphe Quetelet (1853), Richard Dedekind (1860), Helmert (1872),Hermann Laurent (1873), Liagre, Didion, y Karl PearsonAugustus De Morgan y George Boole mejoraron la exposición de la teoría.
En 1930 Andréi Kolmogorov desarrolló la base axiomática de la probabilidad utilizando teoría de la medida.
En la parte geométrica (véase geometría integral) los colaboradores de The Educational Times fueron influyentes (Miller, Crofton, McColl, Wolstenholme, Watson y Artemas Martin).

Estadística

La estadística es una ciencia formal y una herramienta que estudia el uso y los análisis provenientes de una muestra representativa de datos, busca explicar las correlaciones y dependencias de un fenómeno físico o natural, de ocurrencia en forma aleatoria o condicional.
Sin embargo, la estadística es más que eso, es decir, es la herramienta fundamental que permite llevar a cabo el proceso relacionado con la investigación científica.
Es transversal a una amplia variedad de disciplinas, desde la física hasta las ciencias sociales, desde las ciencias de la salud hasta el control de calidad.
Se usa para la toma de decisiones en áreas de negocios o instituciones gubernamentales.
La estadística se divide en dos grandes áreas:
Ambas ramas (descriptiva e inferencial) comprenden la estadística aplicada.
Hay también una disciplina llamada estadística matemática, la que se refiere a las bases teóricas de la materia.
La palabra «estadísticas» también se refiere al resultado de aplicar un algoritmo estadístico a un conjunto de datos, como en estadísticas económicasestadísticas criminales, entre otros.

Estadística

La estadística es una ciencia formal y una herramienta que estudia el uso y los análisis provenientes de una muestra representativa de datos, busca explicar las correlaciones y dependencias de un fenómeno físico o natural, de ocurrencia en forma aleatoria o condicional.
Sin embargo, la estadística es más que eso, es decir, es la herramienta fundamental que permite llevar a cabo el proceso relacionado con la investigación científica.
Es transversal a una amplia variedad de disciplinas, desde la física hasta las ciencias sociales, desde las ciencias de la salud hasta el control de calidad.
Se usa para la toma de decisiones en áreas de negocios o instituciones gubernamentales.
La estadística se divide en dos grandes áreas:
Ambas ramas (descriptiva e inferencial) comprenden la estadística aplicada.
Hay también una disciplina llamada estadística matemática, la que se refiere a las bases teóricas de la materia.
La palabra «estadísticas» también se refiere al resultado de aplicar un algoritmo estadístico a un conjunto de datos, como en estadísticas económicasestadísticas criminales, entre otros.