Saltar al contenido

¿Cuál es la diferencia entre datos etiquetados y no etiquetados?

Posteriormente a consultar especialistas en el tema, programadores de varias ramas y profesores dimos con la solución al problema y la plasmamos en esta publicación.

Solución:

Típicamente, sin etiquetar Los datos consisten en muestras de artefactos naturales o creados por humanos que puede obtener del mundo con relativa facilidad. Algunos ejemplos de datos sin etiquetar pueden incluir fotos, grabaciones de audio, videos, artículos de noticias, tweets, radiografías (si estuviera trabajando en una aplicación médica), etc. No hay una “explicación” para cada dato sin etiquetar; solo contiene los datos, y nada más.

Etiquetado Los datos generalmente toman un conjunto de datos sin etiquetar y aumentan cada parte de esos datos sin etiquetar con algún tipo de “etiqueta”, “etiqueta” o “clase” significativa que de alguna manera es informativa o deseable de saber. Por ejemplo, las etiquetas para los tipos anteriores de datos sin etiquetar pueden ser si esta foto contiene un caballo o una vaca, qué palabras se pronunciaron en esta grabación de audio, qué tipo de acción se realiza en este video, cuál es el tema de este artículo de noticias. es, cuál es el sentimiento general de este tweet, si el punto en esta radiografía es un tumor, etc.

Las etiquetas de los datos a menudo se obtienen pidiendo a los seres humanos que emitan juicios sobre una determinada pieza de datos sin etiquetar (p. ej., “¿Esta foto contiene un caballo o una vaca?”) y son significativamente más costosas de obtener que los datos sin etiquetar sin procesar.

Después de obtener un conjunto de datos etiquetados, los modelos de aprendizaje automático se pueden aplicar a los datos para que se puedan presentar nuevos datos sin etiquetar al modelo y se pueda adivinar o predecir una etiqueta probable para esa pieza de datos sin etiquetar.

Hay muchas áreas activas de investigación en aprendizaje automático que tienen como objetivo integrar datos etiquetados y no etiquetados para construir modelos mejores y más precisos del mundo. El aprendizaje semisupervisado intenta combinar datos etiquetados y no etiquetados (o, de manera más general, conjuntos de datos no etiquetados donde solo algunos puntos de datos tienen etiquetas) en modelos integrados. Las redes neuronales profundas y el aprendizaje de características son áreas de investigación que intentan construir modelos de los datos sin etiquetar solo y luego aplicar la información de las etiquetas a las partes interesantes de los modelos.

datos etiquetadosusado por Aprendizaje supervisado agregar significativo etiquetas o etiquetas o clase a las observaciones (o filas). Estas etiquetas pueden provenir de observaciones o de preguntar a personas o especialistas sobre los datos.

Clasificación y Regresión podría aplicarse a conjuntos de datos etiquetados para el aprendizaje supervisado.

Los modelos de aprendizaje automático se pueden aplicar a los datos etiquetados para que se puedan presentar nuevos datos sin etiquetar al modelo y se pueda adivinar o predecir una etiqueta probable.
ingrese la descripción de la imagen aquí

Datos sin etiquetarusado por Aprendizaje sin supervisión sin embargo, no tiene etiquetas significativas o etiquetas asociadas.
ingrese la descripción de la imagen aquí
El aprendizaje no supervisado tiene algoritmos más difíciles que el aprendizaje supervisado, ya que sabemos poca o ninguna información sobre los datos o los resultados que se esperan.

Agrupación se considera una de las técnicas de aprendizaje automático no supervisado más populares utilizadas para agrupar puntos de datos u objetos que son de alguna manera similares.

El aprendizaje no supervisado tiene menos modelos y menos métodos de evaluación que se pueden usar para garantizar que el resultado del modelo sea preciso. Como tal, el aprendizaje no supervisado crea un entorno menos controlable ya que la máquina crea resultados para nosotros.

Imagen cortesía de Coursera: Aprendizaje automático con Python

Hay muchos problemas diferentes en el aprendizaje automático, así que elegiré clasificación como un caso en cuestión. En la clasificación, los datos etiquetados generalmente consisten en una bolsa de vectores de características multidimensionales (normalmente llamados X) y para cada vector una etiqueta, Y, que a menudo es solo un número entero correspondiente a una categoría, por ejemplo. (cara=1, no cara=-1). Los datos sin etiquetar pierden el componente Y. Hay muchos escenarios en los que los datos sin etiquetar son abundantes y fáciles de obtener, pero los datos etiquetados a menudo requieren que un ser humano o un experto los anote.

Eres capaz de añadir valor a nuestro contenido colaborando tu experiencia en las referencias.

¡Haz clic para puntuar esta entrada!
(Votos: 0 Promedio: 0)



Utiliza Nuestro Buscador

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *