The Prague Post - El riesgo de alimentar la inteligencia artificial con datos generados por el propio sistema

EUR -
AED 4.177078
AFN 81.881459
ALL 99.252011
AMD 444.591357
ANG 2.049629
AOA 1037.158997
ARS 1294.140507
AUD 1.780172
AWG 2.047025
AZN 1.931025
BAM 1.956825
BBD 2.294803
BDT 138.092365
BGN 1.957857
BHD 0.428625
BIF 3332.101328
BMD 1.137236
BND 1.492134
BOB 7.854392
BRL 6.605291
BSD 1.136596
BTN 97.022843
BWP 15.66621
BYN 3.71968
BYR 22289.824581
BZD 2.282996
CAD 1.574122
CDF 3271.828209
CHF 0.930817
CLF 0.028662
CLP 1099.889199
CNY 8.334139
CNH 8.292901
COP 4901.486936
CRC 571.199327
CUC 1.137236
CUP 30.136753
CVE 110.756779
CZK 25.063095
DJF 202.109298
DKK 7.466602
DOP 68.803544
DZD 150.758836
EGP 58.143347
ERN 17.058539
ETB 151.279275
FJD 2.597104
FKP 0.855651
GBP 0.857288
GEL 3.116365
GGP 0.855651
GHS 17.695316
GIP 0.855651
GMD 81.317949
GNF 9843.343183
GTQ 8.754588
GYD 238.429138
HKD 8.82913
HNL 29.46444
HRK 7.42285
HTG 148.317723
HUF 408.387128
IDR 19177.096068
ILS 4.192296
IMP 0.855651
INR 97.094357
IQD 1489.779092
IRR 47906.064045
ISK 145.099713
JEP 0.855651
JMD 179.644139
JOD 0.806643
JPY 161.924773
KES 147.270901
KGS 99.205069
KHR 4566.002005
KMF 492.991687
KPW 1023.512353
KRW 1613.043782
KWD 0.348711
KYD 0.947196
KZT 594.971784
LAK 24598.413271
LBP 101896.340702
LKR 339.937138
LRD 227.418725
LSL 21.444738
LTL 3.357962
LVL 0.687903
LYD 6.221206
MAD 10.547841
MDL 19.662304
MGA 5177.713287
MKD 61.514233
MMK 2387.847064
MNT 4056.884197
MOP 9.086962
MRU 44.847502
MUR 51.277867
MVR 17.458034
MWK 1974.242053
MXN 22.425622
MYR 5.012364
MZN 72.675093
NAD 21.444738
NGN 1824.922095
NIO 41.821916
NOK 11.909658
NPR 155.236349
NZD 1.90379
OMR 0.437833
PAB 1.136596
PEN 4.279352
PGK 4.700463
PHP 64.495496
PKR 319.106927
PLN 4.278742
PYG 9097.767521
QAR 4.140224
RON 4.978928
RSD 117.291464
RUB 93.451578
RWF 1609.188866
SAR 4.267179
SBD 9.516785
SCR 16.196165
SDG 682.909487
SEK 10.940517
SGD 1.490626
SHP 0.893689
SLE 25.900549
SLL 23847.250746
SOS 649.935816
SRD 42.248128
STD 23538.488054
SVC 9.945212
SYP 14786.179821
SZL 21.403088
THB 37.923405
TJS 12.206811
TMT 3.980326
TND 3.398029
TOP 2.663523
TRY 43.238624
TTD 7.712041
TWD 36.987503
TZS 3056.318533
UAH 47.101683
UGX 4166.329832
USD 1.137236
UYU 47.664978
UZS 14768.739292
VES 91.95534
VND 29420.293975
VUV 137.567238
WST 3.158108
XAF 656.312471
XAG 0.034449
XAU 0.000334
XCD 3.073437
XDR 0.816192
XOF 653.910971
XPF 119.331742
YER 278.906956
ZAR 21.40494
ZMK 10236.484753
ZMW 32.36396
ZWL 366.189511
El riesgo de alimentar la inteligencia artificial con datos generados por el propio sistema
El riesgo de alimentar la inteligencia artificial con datos generados por el propio sistema / Foto: Fabrice COFFRINI - AFP

El riesgo de alimentar la inteligencia artificial con datos generados por el propio sistema

Los modelos de inteligencia artificial (IA) se abastecen sin parar de datos generados por la propia IA, lo que desemboca en la creación de contenidos cada vez más incoherentes, un problema que ya han señalado varios estudios científicos.

Tamaño del texto:

Los modelos en los que se basan las herramientas de IA generativa, como ChatGPT, que permiten crear todo tipo de contenidos con simples preguntas, necesitan ser ejercitados con un nombre colosal de datos.

Estos datos a menudo vienen de internet, que cada vez contiene más imágenes y textos creados por la propia IA.

Esta autoalimentación de la IA lleva a un deterioro de los modelos, que producen respuestas que van siendo cada vez menos originales y pertinentes y acaban por no tener ningún sentido, según un artículo publicado a finales de julio por la revista científica Nature.

Con el uso de este tipo de datos, llamados "datos sintéticos" porque están generados artificialmente, la muestra en la que se basan los modelos de IA para dar respuestas va perdiendo calidad.

- Como las vacas locas -

Investigadores de las Universidades de Rice y de Stanford, en Estados Unidos, llegaron a la misma conclusión analizando los modelos de IA generadores de imágenes Midjourney, Dall-E y Stable Diffusion.

Los estudios mostraron que las imágenes generadas eran cada vez menos originales e iban incorporando elementos incoherentes a medida que se añadían datos "artificiales" en el modelo, y compararon este fenómeno con la enfermedad de las vacas locas.

Esta epidemia, surgida en el Reino Unido, empezó con el uso para alimentar a los bovinos de harinas animales, obtenidas a partir de partes no consumidas de restos vacunos o de cadáveres de animales contaminados.

Las empresas del sector de la IA utilizan a menudo "datos sintéticos" para alimentar a sus programas debido a su fácil acceso, su abundancia y el bajo coste, comparado con datos creados por humanos.

Estas "fuentes de datos humanos sin explotar, de alta calidad" son cada vez más minoritarias, explica a AFP Jathan Sadowski, investigador especializado en las nuevas tecnologías de la Universidad de Monash, en Australia.

"Sin ningún control durante varias generaciones", la peor hipótesis sería que la degradación de los modelos "envenene la calidad y la diversidad de los datos en todo internet", advierte Richard Baraniuk, uno de los autores del artículo de la Universidad de Rice, en un comunicado.

Así como la crisis de las vacas locas hundió la industria cárnica en los años 1990, un internet repleto de contenidos hechos con IA y de modelos descontrolados podría amenazar el futuro del sector, en pleno auge, según los científicos.

"La verdadera pregunta para los investigadores y las empresas que construyen los sistemas de IA es: ¿cuándo el uso de los datos sintéticos es demasiado?", dice Sadowski.

- "Basura" -

Para otros especialistas, no obstante, el problema es exagerado.

Anthropic y Hugging Face, dos líderes del sector que afirman tener en cuenta el lado ético de la tecnología, confirman a AFP utilizar datos generados por la IA.

El artículo de la revista Nature presenta una perspectiva teórica interesante, pero poco realista, según Anton Lozhkov, ingeniero en aprendizaje automático en Hugging Face.

"El entrenamiento [de los modelos] en varias series de datos sintéticos es algo que simplemente no se hace en realidad", asegura.

Lozhkov admite sin embargo que los expertos de la IA se sienten frustrados ante la situación en que se encuentra internet.

"Una gran parte de internet es una basura", dice, y agrega que su empresa ha hecho grandes esfuerzos para limpiar este tipo de datos, suprimiendo a veces hasta un 90% de contenido.

U.Pospisil--TPP