{"id":1060,"date":"2021-06-14T22:04:42","date_gmt":"2021-06-15T03:04:42","guid":{"rendered":"http:\/\/virtual.cuautitlan.unam.mx\/intar\/?page_id=1060"},"modified":"2021-08-03T17:33:10","modified_gmt":"2021-08-03T22:33:10","slug":"datasets-para-entrenar-redes-neuronales","status":"publish","type":"page","link":"https:\/\/virtual.cuautitlan.unam.mx\/intar\/?page_id=1060","title":{"rendered":"Datasets para entrenar redes neuronales"},"content":{"rendered":"<h1><strong>Bases de datos para deep y machine learning<\/strong><\/h1>\n<p><a href=\"http:\/\/virtual.cuautitlan.unam.mx\/intar\/wp-content\/uploads\/2021\/06\/algorithm-3859549_1280.jpg\"><img loading=\"lazy\" decoding=\"async\" class=\"alignnone size-full wp-image-1063\" src=\"http:\/\/virtual.cuautitlan.unam.mx\/intar\/wp-content\/uploads\/2021\/06\/algorithm-3859549_1280.jpg\" alt=\"\" width=\"1280\" height=\"853\" \/><\/a><\/p>\n<p>Los sistemas inteligentes, as\u00ed como las redes neuronales, basan su efectividad en la informaci\u00f3n con la cual se les alimente, por ejemplo, un algoritmo de red neuronal, puede ser el m\u00e1s r\u00e1pido en aprender y el mejor en hacerlo, \u00a0pero si no tiene suficientes datos de entrada, este no va a tener puntos de referencia para aprender, ya sea de forma supervisada o no supervisada, y por lo tanto, el resultado de la ejecuci\u00f3n del algoritmo ser\u00e1 limitado, dicho en otras palabras, ser\u00e1 un modelo \u201c<em>tonto<\/em>\u201d.<\/p>\n<p>Es bien sabido que una rede neuronal \u201c<em>aprende<\/em>\u201d en base a los casos con los cuales se le entrena, y entre m\u00e1s casos sean introducidos en su aprendizaje, mayor ser\u00e1 la \u201c<em>inteligencia<\/em>\u201d que desarrolle; pero no s\u00f3lo el n\u00famero de casos es un factor relevante, estos casos tambi\u00e9n deben de estar colocados a lo largo de todo el universo de informaci\u00f3n relacionado al fen\u00f3meno a modelar y no s\u00f3lo en peque\u00f1as secciones de este. Es precisamente debido a estas situaciones que se tiene la necesidad de poder entrenar a nuestras redes neuronales con bases de datos apropiadas y del tama\u00f1o suficiente para poder generar un modelo apropiado del fen\u00f3meno a caracterizar.<\/p>\n<p>En internet existen una gran cantidad de bases de datos que se pueden consultar y utilizar de forma libre (Obviamente, citando la fuente) para el desarrollo de experimentos cient\u00edficos, acad\u00e9micos y de toda \u00edndole Las cuales ya han sido probadas, y son mejoradas con el paso del tiempo. Estas bases de datos son el esfuerzo de muchos individuos, grupos de personas, instituciones acad\u00e9micas, instituciones gubernamentales, e incluso instituciones privadas que las han desarrollado y las han colocado en una p\u00e1gina web, esperando que los desarrolladores las utilicen y puedan generar conocimiento de frontera y\/o que puedan generar modelos de comportamientos de cualquier fen\u00f3meno, como por ejemplo, la percepci\u00f3n popular de las diferentes vacunas contra el Covid-19 (<a href=\"https:\/\/www.kaggle.com\/datasciencetool\/covid19-vaccine-tweets-with-sentiment-annotation\">https:\/\/www.kaggle.com\/datasciencetool\/covid19-vaccine-tweets-with-sentiment-annotation<\/a> ).<\/p>\n<p>En esta secci\u00f3n, vamos a describir algunas de ellas, esperando que el alumnado, y cualquier interesado, pueda sacar provecho del conocimiento que se transmite de forma libre y gratuita por Internet.<\/p>\n<h2><strong>Kaggle<\/strong><\/h2>\n<p><a href=\"http:\/\/virtual.cuautitlan.unam.mx\/intar\/wp-content\/uploads\/2021\/06\/Kaggle.jpg\"><img loading=\"lazy\" decoding=\"async\" class=\"alignnone size-full wp-image-1072\" src=\"http:\/\/virtual.cuautitlan.unam.mx\/intar\/wp-content\/uploads\/2021\/06\/Kaggle.jpg\" alt=\"\" width=\"1067\" height=\"488\" \/><\/a><\/p>\n<p>Este sitio es un repositorio con una gran cantidad de <em>datasets<\/em> enfocados al an\u00e1lisis por medio de <em>machine learning<\/em> y <em>Deep learning<\/em>. Dentro de las descripciones de los conjuntos de datos se encuentran c\u00f3digos realizados por los usuarios para mostrar el tratamiento y diferentes aplicaciones de cada una de las bases de datos, incluyendo aplicaciones en <strong>Procesamiento de Lenguaje Natural<\/strong> (PLN), lo que dota a cada uno de estos archivos de un valor agregado para un estudiante o un cient\u00edfico del \u00e1rea. Las bases de datos, se encuentran principalmente en archivos .CSV, lo que le da dinamismo para su uso y transportaci\u00f3n. La p\u00e1gina es <a href=\"https:\/\/www.kaggle.com\/\">https:\/\/www.kaggle.com\/<\/a><\/p>\n<p>Dentro de las bases de dato de inter\u00e9s dentro de este repositorio se encuentran:<\/p>\n<ul>\n<li>Tweets sobre las opiniones de las vacunas de Covid -19, <a href=\"https:\/\/www.kaggle.com\/datasciencetool\/covid19-vaccine-tweets-with-sentiment-annotation\">https:\/\/www.kaggle.com\/datasciencetool\/covid19-vaccine-tweets-with-sentiment-annotation<\/a><\/li>\n<li>Opiniones en Amazon sobre diferentes productos, etiquetados como opiniones buenas, malas y neutrales, <a href=\"https:\/\/www.kaggle.com\/kritanjalijain\/amazon-reviews\">https:\/\/www.kaggle.com\/kritanjalijain\/amazon-reviews<\/a><\/li>\n<li>Clasificaci\u00f3n de gestos manuales por medio de movimientos musculares, <a href=\"https:\/\/www.kaggle.com\/kiatkai96\/classify-gestures-by-reading-muscle-activity\">https:\/\/www.kaggle.com\/kiatkai96\/classify-gestures-by-reading-muscle-activity<\/a><\/li>\n<\/ul>\n<h2><strong>UCI Machine Learning Repository<\/strong><\/h2>\n<p><a href=\"http:\/\/virtual.cuautitlan.unam.mx\/intar\/wp-content\/uploads\/2021\/06\/UCI.jpg\"><img loading=\"lazy\" decoding=\"async\" class=\"alignnone size-full wp-image-1071\" src=\"http:\/\/virtual.cuautitlan.unam.mx\/intar\/wp-content\/uploads\/2021\/06\/UCI.jpg\" alt=\"\" width=\"1343\" height=\"365\" \/><\/a><\/p>\n<p>Como su nombre lo indica, este es un repositorio con diferentes <em>datasets<\/em> que pueden ser utilizados de forma libre, s\u00f3lo es necesario citar la fuente. Esta p\u00e1gina cuenta en su dise\u00f1o miles de bases de datos de diferentes \u00e1reas del conocimiento, tales como ciencias de la vida, Ingenier\u00eda, Ciencias sociales, Negocios, Juegos, entre otras. Cada uno de estos archivos cuanta con una descripci\u00f3n detallada de la estructura de la base de datos, las caracter\u00edsticas de los modelos y las clases \u00a0de los mismos. Este conjunto de informaci\u00f3n lo puedes encontrar en <a href=\"https:\/\/archive.ics.uci.edu\/ml\/index.php\">https:\/\/archive.ics.uci.edu\/ml\/index.php<\/a><\/p>\n<p>Algunas bases de datos de inter\u00e9s dentro de este repositorio:<\/p>\n<ul>\n<li>Utilizaci\u00f3n de se\u00f1ales EMG para el reconocimiento de gestos manuales, <a href=\"https:\/\/archive.ics.uci.edu\/ml\/datasets\/EMG+data+for+gestures\">https:\/\/archive.ics.uci.edu\/ml\/datasets\/EMG+data+for+gestures<\/a><\/li>\n<li>Reconocimiento de actividad humana por medio del monitoreo del tel\u00e9fono celular, <a href=\"https:\/\/archive.ics.uci.edu\/ml\/datasets\/Human+Activity+Recognition+Using+Smartphones\">https:\/\/archive.ics.uci.edu\/ml\/datasets\/Human+Activity+Recognition+Using+Smartphones<\/a><\/li>\n<li>Modelado de patrones de usuario dentro dela rede social Facebook, <a href=\"https:\/\/archive.ics.uci.edu\/ml\/datasets\/Facebook+Comment+Volume+Dataset\">https:\/\/archive.ics.uci.edu\/ml\/datasets\/Facebook+Comment+Volume+Dataset<\/a><\/li>\n<li>SPAM dentro de correos electr\u00f3nicos, <a href=\"https:\/\/archive.ics.uci.edu\/ml\/datasets\/Spambase\">https:\/\/archive.ics.uci.edu\/ml\/datasets\/Spambase<\/a><\/li>\n<\/ul>\n<h2><strong>LabelMe<\/strong><\/h2>\n<p><a href=\"http:\/\/virtual.cuautitlan.unam.mx\/intar\/wp-content\/uploads\/2021\/06\/LabelMe.jpg\"><img loading=\"lazy\" decoding=\"async\" class=\"alignnone size-full wp-image-1070\" src=\"http:\/\/virtual.cuautitlan.unam.mx\/intar\/wp-content\/uploads\/2021\/06\/LabelMe.jpg\" alt=\"\" width=\"903\" height=\"559\" \/><\/a><\/p>\n<p>Este es un proyecto que permite utilizar <em>datasets<\/em> de diferentes im\u00e1genes para poder etiquetar diferentes objetos dentro de ellas. Dentro de la p\u00e1gina se encuentra el tutorial para descargar y trabajar con el<em> Toolbox<\/em> destinado a <strong>Matlab<\/strong>. EL proyecto se encuentra en <a href=\"http:\/\/labelme.csail.mit.edu\/Release3.0\/index.php?message=1\">http:\/\/labelme.csail.mit.edu\/Release3.0\/index.php?message=1<\/a><\/p>\n<h2><strong>Visual Genome<\/strong><\/h2>\n<p><a href=\"http:\/\/virtual.cuautitlan.unam.mx\/intar\/wp-content\/uploads\/2021\/06\/VisualGen.jpg\"><img loading=\"lazy\" decoding=\"async\" class=\"alignnone size-full wp-image-1069\" src=\"http:\/\/virtual.cuautitlan.unam.mx\/intar\/wp-content\/uploads\/2021\/06\/VisualGen.jpg\" alt=\"\" width=\"1337\" height=\"559\" \/><\/a><\/p>\n<p>Este proyecto esta destinado a instruir a los usuarios en el etiquetado e identificaci\u00f3n de objetos dentro de una imagen, para este fin, la p\u00e1gina permite la descarga de miles de im\u00e1genes y las descripciones de millones de descripci\u00f3n de regiones, atributos, relaciones, etc. El proyecto se puede ver en <a href=\"http:\/\/visualgenome.org\/\">http:\/\/visualgenome.org\/<\/a><\/p>\n<h2><strong>DATA.GOV<\/strong><\/h2>\n<p><a href=\"http:\/\/virtual.cuautitlan.unam.mx\/intar\/wp-content\/uploads\/2021\/06\/DataGov.jpg\"><img loading=\"lazy\" decoding=\"async\" class=\"alignnone size-full wp-image-1068\" src=\"http:\/\/virtual.cuautitlan.unam.mx\/intar\/wp-content\/uploads\/2021\/06\/DataGov.jpg\" alt=\"\" width=\"1039\" height=\"549\" \/><\/a><\/p>\n<p>Seg\u00fan la descripci\u00f3n de la mima p\u00e1gina \u201c<strong><em>El hogar de los datos abiertos de los Estados Unidos<\/em><\/strong>\u201d. Esta p\u00e1gina est\u00e1 destinada a almacenar <em>datasets<\/em> relacionadas a la vida p\u00fablica (en todos los sectores) de los Estados Unidos de Am\u00e9rica, se encuentran diferentes tem\u00e1ticas tales como salud humana, medio ambiente, agua, atmosfera, producci\u00f3n alimentaria, entre muchas otras tem\u00e1ticas. Lo interesante de esta p\u00e1gina es que son datos recabados por las agencias y departamentos gubernamentales de USA. Los archivos pueden descargarse en diferentes formatos tales como, RDF, JSON, o XML. Estos datos pueden ser consultados en: <a href=\"https:\/\/www.data.gov\/\">https:\/\/www.data.gov\/<\/a><\/p>\n<h2><strong>Berkeley DeepDrive<\/strong><\/h2>\n<p><a href=\"http:\/\/virtual.cuautitlan.unam.mx\/intar\/wp-content\/uploads\/2021\/06\/Berkeley.jpg\"><img loading=\"lazy\" decoding=\"async\" class=\"alignnone size-full wp-image-1067\" src=\"http:\/\/virtual.cuautitlan.unam.mx\/intar\/wp-content\/uploads\/2021\/06\/Berkeley.jpg\" alt=\"\" width=\"1343\" height=\"595\" \/><\/a><\/p>\n<p>Es un <em>dataset<\/em> destinado al entrenamiento de Inteligencia artificial utilizada en los veh\u00edculos \u00a0aut\u00f3nomos. Este <em>dataset<\/em> contiene alrededor de \u00a0100,000 videos de aproximadamente \u00a01,100 horas de conducci\u00f3n sobre diferentes condiciones, horarios y caracter\u00edsticas de manejo. La base de datos se puede obtener en <a href=\"https:\/\/bdd-data.berkeley.edu\/\">https:\/\/bdd-data.berkeley.edu\/<\/a><\/p>\n<h2><strong>Vissual VQA<\/strong><\/h2>\n<p><a href=\"http:\/\/virtual.cuautitlan.unam.mx\/intar\/wp-content\/uploads\/2021\/06\/VQA.jpg\"><img loading=\"lazy\" decoding=\"async\" class=\"alignnone size-full wp-image-1066\" src=\"http:\/\/virtual.cuautitlan.unam.mx\/intar\/wp-content\/uploads\/2021\/06\/VQA.jpg\" alt=\"\" width=\"1347\" height=\"443\" \/><\/a><\/p>\n<p>Este es un proyecto en demas\u00eda interesante ya que permite relacionar preguntas con im\u00e1genes, la misma p\u00e1gina menciona que las preguntas realizadas requieren un entendimiento de visi\u00f3n, lenguaje y sentido com\u00fan para poder ser contestadas.<\/p>\n<p>La p\u00e1gina contiene diferentes modeles, demos, im\u00e1genes de entrenamiento, preguntas de entrenamiento y todo lo necesario para poder echar a andar el sistema de respuestas inteligente a trav\u00e9s de im\u00e1genes. Se encuentra en <a href=\"https:\/\/visualqa.org\/\">https:\/\/visualqa.org\/<\/a><\/p>\n<h2><strong>QuickDraw<\/strong><\/h2>\n<p><a href=\"http:\/\/virtual.cuautitlan.unam.mx\/intar\/wp-content\/uploads\/2021\/06\/quick.jpg\"><img loading=\"lazy\" decoding=\"async\" class=\"alignnone size-full wp-image-1137\" src=\"http:\/\/virtual.cuautitlan.unam.mx\/intar\/wp-content\/uploads\/2021\/06\/quick.jpg\" alt=\"\" width=\"966\" height=\"586\" \/><\/a><\/p>\n<p>Esta p\u00e1gina es una divertida collecci\u00f3n de dibujos hechos a mano por diferentes ususarios, estos dibujos sirven ara entrenamiento de sistemas de redes neuronales, seg\u00fan la propia p\u00e1gina, se tiene una colecci\u00f3n de 50 millones de dibujos, que son generados por los jugadores del juego <a href=\"https:\/\/quickdraw.withgoogle.com\/\" rel=\"nofollow\">Quick, Draw!<\/a>, hay que jugarlo, altamente divertido.<\/p>\n<p>De acuerdo a los autores del proyecto, los dibujos se capturaron como vectores con marca de tiempo, etiquetados con metadatos que incluyen lo que se le pidi\u00f3 al jugador que dibujara y en qu\u00e9 pa\u00eds se encontraba el jugador.<\/p>\n<p>La p\u00e1gina de este experimento puede verse en:<\/p>\n<p><a href=\"https:\/\/quickdraw.withgoogle.com\/data\">quickdraw.withgoogle.com\/data<\/a><\/p>\n<p>Y un tutorial generado por los autores de como usar las redes neuronales convolucionales para clasificaci\u00f3n de dibujos se puede encontrar en:<\/p>\n<p><a href=\"https:\/\/github.com\/tensorflow\/docs\/blob\/master\/site\/en\/r1\/tutorials\/sequences\/recurrent_quickdraw.md\">https:\/\/github.com\/tensorflow\/docs\/blob\/master\/site\/en\/r1\/tutorials\/sequences\/recurrent_quickdraw.md<\/a><\/p>\n<p>&nbsp;<\/p>\n<h2><strong>Jeopardy<\/strong><\/h2>\n<p>Este conjunto de datos se encuentra en una entrada de la red social <em>Reddit<\/em>, y almacena miles de preguntas y respuestas del popular juego <strong>Jeopardy<\/strong>, este <em>dataset<\/em> puede ser utilizado en aplicaciones de PLN para identificar diferentes hechos. La p\u00e1gina se encuentra en:<\/p>\n<p><a href=\"https:\/\/www.reddit.com\/r\/datasets\/comments\/1uyd0t\/200000_jeopardy_questions_in_a_json_file\/\">https:\/\/www.reddit.com\/r\/datasets\/comments\/1uyd0t\/200000_jeopardy_questions_in_a_json_file\/<\/a><\/p>\n<p><strong>Awesome Public Datasets<\/strong><\/p>\n<p>Este es un repositorio almacenado en GitHub, en el cual diferentes usuarios pueden subir sus contribuciones en datasets, cuenta con conjuntos de datos relacionados a diferentes ramas del conocimiento y temas de inter\u00e9s general y particular.<\/p>\n<p><a href=\"https:\/\/github.com\/awesomedata\/awesome-public-datasets\">GitHub &#8211; awesomedata\/awesome-public-datasets: A topic-centric list of HQ open datasets.<\/a><\/p>\n<p>En internet se pueden encontrar miles de estas p\u00e1ginas enfocadas a compartir diferentes <em>datasets<\/em> para diferentes \u00e1reas tem\u00e1ticas, obviamente, aqu\u00ed solo se han descrito algunas de ellas a modo de ejemplo, sin embargo, si un usuario busca de forma r\u00e1pida \u201c<em>datasets for machine learning in Knowledge area<\/em>\u201d, donde \u201c<em>Knowledge area<\/em>\u201d es el \u00e1rea de inter\u00e9s, el buscador arrojar\u00e1 instant\u00e1neamente cientos de ellas, algunas m\u00e1s desarrolladas que otras, pero todas \u00fatiles.<\/p>\n<p>&nbsp;<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Bases de datos para deep y machine learning Los sistemas inteligentes, as\u00ed como las redes neuronales, basan su efectividad en la informaci\u00f3n con la cual se les alimente, por ejemplo, un algoritmo de red neuronal, puede ser el m\u00e1s r\u00e1pido en aprender y el mejor en hacerlo, \u00a0pero si no tiene suficientes datos de entrada, &hellip; <\/p>\n<p class=\"link-more\"><a href=\"https:\/\/virtual.cuautitlan.unam.mx\/intar\/?page_id=1060\" class=\"more-link\">Continuar leyendo<span class=\"screen-reader-text\"> &#8220;Datasets para entrenar redes neuronales&#8221;<\/span><\/a><\/p>\n","protected":false},"author":3,"featured_media":0,"parent":0,"menu_order":0,"comment_status":"closed","ping_status":"closed","template":"","meta":{"footnotes":""},"class_list":["post-1060","page","type-page","status-publish","hentry"],"_links":{"self":[{"href":"https:\/\/virtual.cuautitlan.unam.mx\/intar\/index.php?rest_route=\/wp\/v2\/pages\/1060"}],"collection":[{"href":"https:\/\/virtual.cuautitlan.unam.mx\/intar\/index.php?rest_route=\/wp\/v2\/pages"}],"about":[{"href":"https:\/\/virtual.cuautitlan.unam.mx\/intar\/index.php?rest_route=\/wp\/v2\/types\/page"}],"author":[{"embeddable":true,"href":"https:\/\/virtual.cuautitlan.unam.mx\/intar\/index.php?rest_route=\/wp\/v2\/users\/3"}],"replies":[{"embeddable":true,"href":"https:\/\/virtual.cuautitlan.unam.mx\/intar\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=1060"}],"version-history":[{"count":7,"href":"https:\/\/virtual.cuautitlan.unam.mx\/intar\/index.php?rest_route=\/wp\/v2\/pages\/1060\/revisions"}],"predecessor-version":[{"id":1264,"href":"https:\/\/virtual.cuautitlan.unam.mx\/intar\/index.php?rest_route=\/wp\/v2\/pages\/1060\/revisions\/1264"}],"wp:attachment":[{"href":"https:\/\/virtual.cuautitlan.unam.mx\/intar\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=1060"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}