Reactivos
Pregunta 1
El poder identificar con cierto grado de certeza lo que sucederá, involucra cierto conocimiento estadístico y de probabilidades, y puede decirse que se refiere a:
Opciones:
- Estimación.
- Pronóstico.
- Tendencia.
- Variabilidad.
Pregunta 2
La razón principal del porqué los sistemas de información requieren el manejo de los datos en formatos diversos para su almacenamiento y procesamiento es:
Opciones:
- Los datos siempre cambian de tamaño y los campos deben ajustarse para recibir la nueva información.
- El usuario puede decidir utilizar valores de texto para representar números y esto implica cambiar de formato al momento.
- Existen diferentes tipos de ellos, lo que genera restricciones de espacio en la memoria.
- Con un tipo de dato de gran capacidad, se puede almacenar desde un valor pequeño, hasta archivos adjuntos en diferentes formatos.
Pregunta 3
Un tipo de dato cualitativo se utiliza para representar características o atributos que no pueden ser cuantificados numéricamente, sino que se dividen en categorías o clases. ¿Cuál de las siguientes es un ejemplo de un tipo de dato cualitativo?
Opciones:
- Edad de los estudiantes en una clase.
- Temperatura en grados Celsius.
- Número de teléfono de una persona.
- Color de los ojos de una persona.
Pregunta 4
¿Cuál de las siguientes afirmaciones sobre la desviación estándar piensas que es acertada?
Opciones:
- La desviación estándar siempre es igual al valor máximo del conjunto de datos.
- La desviación estándar mide la dispersión de un conjunto de datos y representa la raíz cuadrada de la varianza.
- La desviación estándar es igual a la media de un conjunto de datos.
- La desviación estándar mide la tendencia central de un conjunto de datos.
Pregunta 5
Un conjunto de datos que representa las edades de un grupo de estudiantes de una escuela secundaria muestra un valor extremadamente alto, por ejemplo, una edad de 99 años, mientras que la mayoría de las edades oscilan entre 12 y 18 años.
Opciones:
- Un valor que está muy por encima o por debajo de la mayoría de las edades en el conjunto de datos.
- Un valor que representa la mediana de las edades del grupo de estudiantes.
- Un valor que representa una edad dentro del rango de 12 a 18 años.
- Un valor que representa la edad promedio del grupo de estudiantes.
Pregunta 6
Durante el proceso de visualización de datos, se dice que los científicos de datos combinan principalmente estos tres componentes:
Opciones:
- Historia, tabulares y consolidados.
- Datos, historia y tabulares.
- Tabulares, consolidados y resúmenes
- Datos, visuales e historia.
Pregunta 7
Dentro de las herramientas utilizadas para la distribución de datos, se encuentran los histogramas, que se pueden definir como:
Opciones:
- Una tabla que lista los datos en orden alfabético.
- Un gráfico que representa la distribución de frecuencia de datos numéricos agrupados en intervalos.
- Una representación gráfica de datos que muestra la relación entre dos variables.
- Un gráfico de barras que compara diferentes categorías de datos.
Pregunta 8
Como ayuda, dentro del lenguaje Python se cuenta con una librería que ayuda para visualizar datos en forma gráfica, como puede ser por medio de un histograma:
Opciones:
- Spacy
- PyTorch
- Seaborn
- Flask
Pregunta 9
¿Qué son los outliers en el análisis de datos en Python?
Opciones:
- Los outliers son valores atípicos que se encuentran en un conjunto de datos y se encuentran significativamente lejos de la mayoría de los otros puntos de datos. Estos valores inusuales pueden distorsionar las estadísticas y deben ser identificados y tratados adecuadamente.
- Los outliers son una técnica de visualización en Python que se utiliza para mostrar gráficamente la relación entre dos variables numéricas en un conjunto de datos utilizando un gráfico de barras apiladas.
- Los outliers son una técnica de regresión en Python que se utiliza para ajustar una línea recta a un conjunto de datos y predecir valores futuros basados en esa línea de regresión.
- Los outliers son un método de agrupación en Python que se utiliza para dividir un conjunto de datos en grupos homogéneos con base en la similitud de características.
Pregunta 10
Supongamos que eres un analista de datos y tienes un conjunto de datos que contiene información sobre las ventas mensuales de una tienda durante un año. Tu objetivo es crear un gráfico que muestre la evolución de las ventas a lo largo del año. ¿Qué librería básica de graficación de datos en Python deberías utilizar para este propósito?
Opciones:
- Pandas
- Numpy
- SciKit-Learn
- Matplotlib
Pregunta 11
De las siguientes definiciones, ¿cuál consideras que define mejor lo que es el análisis exploratorio de datos?
Opciones:
- Es una técnica que se utiliza exclusivamente en la etapa final del análisis de datos para generar informes visuales atractivos.
- Es un método que se utiliza para eliminar datos atípicos y valores extremos de un conjunto de datos.
- Es un enfoque que se utiliza para predecir resultados futuros sin examinar previamente los datos disponibles.
- Es una fase inicial en el proceso de análisis de datos que se centra en la exploración y comprensión de los datos antes de aplicar modelos estadísticos.
Pregunta 12
Considerando el concepto de lo que es una variable de tipo nominal, elige la representación correcta:
Opciones:
- Una variable que representa categorías o grupos sin un orden inherente, como colores de ojos.
- Una variable que mide la magnitud o cantidad de un fenómeno, como la temperatura en grados Fahrenheit.
- Una variable que registra datos en una escala numérica con un punto de inicio absoluto, como el tiempo en segundos.
- Una variable que se utiliza para medir la relación de dependencia entre dos o más variables, como la correlación entre altura y peso.
Pregunta 13
¿Cuál es el propósito principal de utilizar tablas de frecuencias en el cálculo de resúmenes de variables categóricas?
Opciones:
- Resaltar las tendencias en datos numéricos.
- Resumir y mostrar la distribución de datos cualitativos.
- Representar visualmente la distribución de datos cuantitativos.
- Organizar información sobre variables continuas.
Pregunta 14
Como analista de datos necesitas utilizar técnicas multivariantes en la toma de decisiones en un presupuesto de mercadotecnia con la ayuda de la librería Matplotlib en Python. ¿Cuál es tu propósito principal?
Opciones:
- Calcular el ROI (Return on Investment) de una única campaña de marketing.
- Identificar relaciones y patrones complejos entre diferentes variables en los datos de marketing.
- Crear gráficos de barras simples para representar los datos de ventas de productos.
- Realizar análisis de texto en comentarios de clientes en línea.
Pregunta 15
¿Por qué es crucial realizar el preprocesamiento de datos antes de su análisis en la mayoría de los casos de estudio?
Opciones:
- Porque los datos sin procesar contienen errores y ruido que pueden afectar la calidad de los resultados.
- Para ahorrar tiempo y recursos, ya que el análisis directo de datos sin procesar es más rápido.
- Para aumentar la complejidad de los datos y hacer que el análisis sea más interesante.
- Porque el preprocesamiento no es relevante en el análisis de datos.
Pregunta 16
Elige el concepto que explique mejor lo que es la correlación lineal.
Opciones:
- La correlación lineal se utiliza para medir la relación entre tres o más variables en lugar de solo dos.
- La correlación lineal se refiere a la relación entre dos variables que son completamente independientes y no tienen ningún efecto entre sí.
- La correlación lineal es una medida estadística que indica el grado de relación lineal entre dos variables. Cuando dos variables tienen una correlación lineal positiva, significa que a medida que una variable aumenta, la otra también lo hace de manera proporcional. Por ejemplo, si estudias más horas, tu calificación en un examen tiende a aumentar.
- La correlación lineal se refiere a la relación entre variables categóricas en lugar de variables numéricas.
Pregunta 17
De los ejemplos siguientes, indica cual representa con claridad lo que es una correlación negativa desde el punto de vista estadístico.
Opciones:
- Una correlación negativa es cuando dos variables están fuertemente relacionadas de manera directa, es decir, cuando una variable aumenta, la otra también aumenta. Ejemplo: A medida que la temperatura exterior aumenta, el consumo de helado aumenta.
- Una correlación negativa es cuando dos variables no están relacionadas en absoluto, es decir, no hay ninguna relación entre ellas. Ejemplo: El color de los zapatos de una persona y su capacidad para resolver acertijos matemáticos.
- Una correlación negativa es cuando dos variables están fuertemente relacionadas de manera inversa, es decir, cuando una variable aumenta, la otra disminuye. Ejemplo: A medida que la temperatura exterior disminuye, la demanda de café en una cafetería aumenta.
- Una correlación negativa es cuando dos variables están relacionadas de manera aleatoria, es decir, su relación cambia constantemente sin un patrón discernible. Ejemplo: La cantidad de pájaros en un parque y el precio de las manzanas en un mercado.
Pregunta 18
¿Cuál de los siguientes valores del coeficiente de correlación de Pearson representa una correlación negativa y qué significa una correlación negativa?
Opciones:
- 0.75
- 0.20
- -0.10
- -0.95
Pregunta 19
¿Cuál de los siguientes métodos matemáticos es el más adecuado para medir la correlación entre dos variables en un estudio de investigación económica?
Opciones:
- Coeficiente de correlación de Pearson (r).
- Media aritmética.
- Desviación estándar.
- Coeficiente de correlación de Spearman.
Pregunta 20
En una tienda de ropa, se han registrado datos de ventas mensuales de dos productos: camisetas y pantalones, durante un período de un año. La gerencia está interesada en determinar si existe una relación entre la temperatura promedio mensual y, las ventas de camisetas y pantalones. Quieren saber si las ventas de estos productos aumentan o disminuyen en función de la temperatura.
Pregunta: ¿Qué método de análisis bivariado sería más adecuado para investigar la relación entre la temperatura promedio mensual y las ventas de camisetas y pantalones en esta tienda de ropa?
Opciones:
- Regresión logística.
- Análisis de correlación de Pearson.
- Análisis de varianza (ANOVA).
- Prueba t de Student.
Pregunta 21
¿Cuál es una de las razones más importantes para llevar a cabo un muestreo como base para un análisis estadístico?
Opciones:
- Aumentar la precisión del análisis al recopilar datos de toda la población.
- Facilitar la interpretación de los resultados al reducir la cantidad de datos recopilados.
- Garantizar que los datos sean completamente aleatorios y sin sesgos.
- Reducir la variabilidad en los datos al eliminar valores atípicos.
Pregunta 22
¿Cuál de las siguientes definiciones describe con precisión el concepto de población en el contexto de la estadística?
Opciones:
- La población se limita a un grupo pequeño y específico de individuos que son seleccionados de manera aleatoria para representar a la totalidad de un conjunto mayor.
- La población se refiere al conjunto completo de elementos o individuos que comparten una característica común y son el enfoque principal de un estudio estadístico.
- La población se refiere a un grupo de individuos que participan en una encuesta o estudio de opinión y están dispuestos a responder preguntas sobre un tema específico.
- La población se compone de todos los individuos de una región geográfica determinada, independientemente de cualquier característica compartida.
Pregunta 23
¿Cuál es una consecuencia del sesgo de selección en un estudio de investigación?
Opciones:
- Aumenta la representatividad de la muestra.
- Facilita la generalización de los hallazgos.
- Disminuye la validez interna de los resultados.
- Mejora la precisión de las mediciones.
Pregunta 24
De las características que definen mejor lo que es un muestreo aleatorio se puede decir que:
Opciones:
- El muestreo aleatorio asegura que los elementos más comunes en la población tengan una mayor probabilidad de ser incluidos en la muestra.
- El muestreo aleatorio implica seleccionar elementos de la población de manera predecible y sistemática.
- En el muestreo aleatorio, los elementos de la población se eligen de forma intencional para representar las características específicas de interés.
- El muestreo aleatorio garantiza que cada elemento de la población tenga la misma probabilidad de ser seleccionado en la muestra.
Pregunta 25
El objetivo principal de entrenar un modelo de análisis es:
Opciones:
- Aprender a reconocer patrones y realizar predicciones precisas.
- Identificar patrones en datos no relacionados.
- Generar datos de entrenamiento aleatorios.
- Aumentar el tamaño de la memoria del modelo.
Pregunta 26
Una de las principales razones del porqué es útil la visualización gráfica de datos puede decirse que es:
Opciones:
- Muestra de forma atractiva los datos para presentarlos con máximo detalle.
- La visualización gráfica de datos solo es relevante para empresas de tecnología o análisis de datos, no para otros sectores.
- La visualización gráfica de datos es útil, pero se puede prescindir de ella si se cuenta con suficiente información numérica detallada.
- Facilita la comprensión de tendencias, patrones y la identificación de valores atípicos.
Pregunta 27
¿Por qué es crucial que el formato de un gráfico contribuya a la claridad de la información en lugar de ser solo un elemento decorativo?
Opciones:
- Los gráficos decorativos pueden ser útiles en presentaciones y documentos de marketing, donde la impresión visual es más importante que la información detallada.
- El formato adecuado de un gráfico es esencial para la claridad de la información, ya que facilita la comprensión de los datos y la interpretación de tendencias.
- La elección del formato de un gráfico depende principalmente de las preferencias personales del autor, ya que lo que es claro para uno puede no serlo para otro.
- El formato decorativo de un gráfico puede ser preferible en ocasiones, ya que puede hacer que la información sea más atractiva visualmente y, por lo tanto, más memorable.
Pregunta 28
¿Cuál de los siguientes no es un estilo de gráfico que ofrece la librería Seaborn en Python para la visualización de datos?
Opciones:
- Gráfico de árbol.
- Gráfico de dispersión.
- Gráfico de violín.
- Gráfico de barras.
Pregunta 29
Especifica la utilidad de los gráficos tipo treemap en el análisis de datos.
Opciones:
- Para identificar patrones de distribución y proporción en conjuntos de datos jerárquicos.
- Para representar datos en series temporales.
- Para visualizar la relación entre dos variables numéricas.
- Para mostrar la tendencia de datos categóricos en un período específico.
Pregunta 30
¿Cuál es la utilidad de los gráficos tipo scatterplot por categorías para el análisis de datos?
Opciones:
- Para representar series de tiempo y analizar tendencias a lo largo del tiempo.
- Para comparar la frecuencia de eventos en diferentes categorías de forma visual.
- Para resaltar la correlación lineal entre dos variables numéricas en un solo gráfico.
- Para resumir datos categóricos y mostrar la distribución de valores en diferentes grupos.
Pregunta 31
Explica en qué lugar requerirías realizar una prueba AB para evaluar la resistencia de materiales.
Opciones:
- En un parque de diversiones.
- En una biblioteca.
- En una planta de energía nuclear.
- En un laboratorio químico.
Pregunta 32
Define lo que es un “sujeto” en una prueba AB.
Opciones:
- El sujeto en una prueba AB se refiere a una variable independiente utilizada para manipular las condiciones de la prueba y observar su efecto en el resultado.
- El sujeto en una prueba AB se refiere a un conjunto de datos recopilados como resultado de la prueba, que luego se analizan para obtener conclusiones.
- El sujeto en una prueba AB se refiere al participante o individuo que forma parte del estudio y es sometido a las diferentes condiciones de la prueba, permitiendo la comparación de resultados.
- El sujeto en una prueba AB se refiere al investigador principal que diseña y realiza la prueba, supervisando todo el proceso.
Pregunta 33
¿Cuál de las siguientes afirmaciones describe con precisión lo que es el procesamiento del lenguaje natural (NLP)?
Opciones:
- El procesamiento del lenguaje natural se refiere a la capacidad de las computadoras para entender y generar lenguaje humano de manera automatizada.
- El procesamiento del lenguaje natural se limita a la traducción automática de un idioma a otro.
- El procesamiento del lenguaje natural se centra únicamente en el análisis de palabras individuales y no tiene en cuenta la estructura gramatical.
- El procesamiento del lenguaje natural se utiliza principalmente para el análisis de datos numéricos en textos.
Pregunta 34
¿Cuál es la mejor aproximación para comenzar el estudio del procesamiento del lenguaje natural?
Opciones:
- Iniciar con un curso de programación para comprender la implementación de algoritmos NLP.
- Comenzar con proyectos prácticos y el uso de bibliotecas NLP como NLTK o spaCy.
- Investigar la historia y evolución de la inteligencia artificial antes de explorar NLP.
- Aprender los fundamentos de la lingüística y gramática antes de abordar conceptos técnicos.
Pregunta 35
Por esta razón principalmente es que el procesamiento del lenguaje natural es uno de los retos más importantes de la inteligencia artificial:
Opciones:
- El procesamiento del lenguaje natural es un reto importante para la inteligencia artificial porque requiere una gran cantidad de recursos computacionales.
- El procesamiento del lenguaje natural es un reto importante para la inteligencia artificial debido a la falta de interés en aplicaciones prácticas.
- El procesamiento del lenguaje natural es un reto importante para la inteligencia artificial debido a la ambigüedad y complejidad inherentes al lenguaje humano, lo que dificulta la comprensión automática de textos y conversaciones.
- El procesamiento del lenguaje natural es un reto importante para la inteligencia artificial solo en entornos académicos.
Pregunta 36
Entre las siguientes afirmaciones, una describe con mayor precisión lo que es en concepto Machine Learning.
Opciones:
- Machine Learning. es un enfoque de inteligencia artificial que solo se utiliza en aplicaciones de procesamiento de texto y lenguaje natural.
- Machine Learning. se refiere a la programación manual de algoritmos complejos para que las computadoras realicen tareas específicas de manera eficiente.
- Machine Learning. se basa en reglas de programación fijas que no pueden adaptarse ni mejorar con la experiencia.
- Machine Learning. es un enfoque de inteligencia artificial que permite a las computadoras aprender y mejorar su rendimiento en tareas específicas a través de la experiencia y sin una programación explícita.
Pregunta 37
Elije un ejemplo de una actividad común que puedas realizar con ayuda de Machine Learning.
Opciones:
- Traducción de idiomas.
- Edición de imágenes.
- Gestión de bases de datos.
- Diseño gráfico.
Pregunta 38
¿Cuál de los siguientes algoritmos de aprendizaje supervisado es especialmente adecuado para la clasificación de datos en problemas con múltiples categorías?
Opciones:
- Regresión Lineal.
- SVM (Support Vector Machine).
- Redes Neuronales.
- Regresión Logística.
Pregunta 39
¿Cuál es el propósito principal de los algoritmos de aprendizaje no supervisado en el campo de la inteligencia artificial?
Opciones:
- Clasificar automáticamente datos en categorías predefinidas.
- Mejorar la precisión de los modelos de aprendizaje supervisado.
- Encontrar patrones y estructuras ocultas en datos sin etiquetar.
- Detectar errores en los conjuntos de datos etiquetados.
Pregunta 40
Imagina que estás trabajando en un proyecto de análisis de datos para una tienda en línea que vende una amplia variedad de productos. La tienda quiere segmentar a sus clientes en grupos para personalizar las ofertas y estrategias de marketing.
¿Qué enfoque de Machine Learning sería más adecuado para este caso?
Opciones:
- Aprendizaje no supervisado.
- Aprendizaje por refuerzo.
- Aprendizaje semi-supervisado.
- Aprendizaje supervisado.