Мы используем файлы cookie.
Продолжая использовать сайт, вы даете свое согласие на работу с этими файлами.
Riesgo existencial de la inteligencia artificial

Riesgo existencial de la inteligencia artificial

Подписчиков: 0, рейтинг: 0

El riesgo existencial de la inteligencia artificial general es la hipótesis de que un progreso sustancial en la inteligencia artificial general (AGI) podría resultar en la extinción humana o alguna otra catástrofe global irrecuperable. ​ ​ ​

La escuela del riesgo existencial ("riesgo x") argumenta que la especie humana actualmente domina a otras especies porque el cerebro humano tiene algunas capacidades distintivas de las que carecen otros animales. Si la IA superara a la humanidad en inteligencia general y se volviera "superinteligente", entonces podría volverse difícil o imposible de controlar para los humanos. Así como el destino del gorila de montaña depende de la buena voluntad humana, el destino de la humanidad podría depender de las acciones de una futura superinteligencia mecánica. ​

La probabilidad de este tipo de escenario es ampliamente debatida y depende en parte de diferentes escenarios sobre el progreso futuro de la informática. ​ Los principales científicos informáticos y directores ejecutivos de tecnología como Geoffrey Hinton, ​ Alan Turing, Elon Musk, ​ y Sam Altman, director ejecutivo de OpenAI, han expresado su preocupación por la superinteligencia. ​ En 2022, una encuesta de investigadores de IA encontró que algunos investigadores creen que existe un 10 por ciento o más de posibilidades de que nuestra incapacidad para controlar la IA cause una catástrofe existencial (más de la mitad de los encuestados de la encuesta, con una tasa de respuesta del 17 %). ​ ​

Dos fuentes de preocupación son los problemas del control y la alineación de la IA: que controlar una máquina superinteligente o inculcarle valores compatibles con los humanos puede ser un problema más difícil de lo que se supone ingenuamente. Muchos investigadores creen que una superinteligencia resistiría los intentos de apagarla o cambiar sus objetivos (ya que tal incidente le impediría lograr sus objetivos actuales) y que será extremadamente difícil alinear la superinteligencia con la amplitud completa de importantes valores y valores humanos y aplicar restricciones ​ ​ ​ Por el contrario, los escépticos como el informático teórico Yann LeCun argumentan que las máquinas superinteligentes no tendrán ningún deseo de autopreservación. ​

Una tercera fuente de preocupación es que la llamada "singularidad tecnológica" repentina pueda tomar por sorpresa a una raza humana que no esté preparada. Ejemplificando: si la primera generación de un programa de computadora que puede igualar ampliamente la efectividad de un investigador de IA, puede reescribir sus algoritmos y duplicar su velocidad o capacidades en seis meses, entonces se espera que el programa de segunda generación tarde tres meses calendario para realizar una parte similar del trabajo. En este escenario, el tiempo para cada generación continúa reduciéndose, y el sistema experimenta una gran cantidad de etapas de mejora sin precedentes en un corto intervalo de tiempo, saltando de un desempeño infrahumano en muchas áreas a un desempeño sobrehumano en prácticamente todos los dominios de interés. ​ ​ Empíricamente, ejemplos como AlphaZero en el dominio de Go muestran que los sistemas de IA a veces pueden progresar desde una capacidad limitada a nivel humano hasta una capacidad sobrehumana limitada de forma extremadamenta rápida. ​

Historia

Uno de los primeros autores en expresar su seria preocupación de que las máquinas altamente avanzadas pudieran representar riesgos existenciales para la humanidad fue el novelista Samuel Butler, quien escribió lo siguiente en su ensayo de 1863 Darwin between the Machines: ​​​

El resultado es simplemente una cuestión de tiempo, pero que llegará el momento en que las máquinas tendrán la supremacía real sobre el mundo y sus habitantes es lo que ninguna persona con una mente verdaderamente filosófica puede cuestionar por un momento.

En 1951, el científico informático Alan Turing escribió un artículo titulado Maquinaria inteligente, una teoría herética (Intelligent Machinery, A Heretical Theory), en el que proponía que las inteligencias generales artificiales probablemente "tomarían el control" del mundo a medida que se volvieran más inteligentes que los seres humanos:

Supongamos ahora, por el bien del argumento, que las máquinas [inteligentes] son ​​una posibilidad genuina, y miremos las consecuencias de construirlas... No sería un tema que las máquinas mueran, y podrían conversar unas con otras para agudizar su ingenio. En algún momento, por lo tanto, podríamos esperar que las máquinas tomen el control, de la manera que se menciona en Samuel Butler de Erewhon.​

En 1965, I. J. Good ​creó el concepto ahora conocido como "explosión de inteligencia"; también afirmó que los riesgos eran subestimados: ​

Definemos una máquina ultrainteligente como una máquina que puede superar con creces todas las actividades intelectuales de cualquier hombre, por inteligente que sea. Dado que el diseño de máquinas es una de estas actividades intelectuales, una máquina ultrainteligente podría diseñar máquinas aún mejores; entonces incuestionablemente habría una 'explosión de inteligencia', y la inteligencia del hombre quedaría muy atrás. Por lo tanto, la primera máquina ultrainteligente es el último invento que el hombre necesita hacer, siempre que la máquina sea lo suficientemente documentada como para decirnos cómo mantenerla bajo control. Es curioso que este punto se haga tan raramente fuera de la ciencia ficción. A veces vale la pena tomarse la ciencia ficción en serio.​

Declaraciones ocasionales de académicos como Marvin Minsky ​ y el mismo Good ​ expresaron preocupaciones filosóficas de que una superinteligencia podría tomar el control, pero no contenían un llamado a la acción. En 2000, el científico informático y cofundador de Sun Microsystems, Bill Joy, escribió un influyente ensayo, "Por qué el futuro no nos necesita", identificando a los robots superinteligentes como un peligro de alta tecnología para la supervivencia humana, junto con la nanotecnología y las bioplagas diseñadas. ​

En 2009, los expertos asistieron a una conferencia privada organizada por la Asociación para el Avance de la Inteligencia Artificial (AAAI) para discutir si las computadoras y los robots podrían adquirir algún tipo de autonomía, y en qué medida estas habilidades podrían representar una amenaza o peligro. Señalaron que algunos robots han adquirido varias formas de semiautonomía, incluida la capacidad de encontrar fuentes de energía por sí mismos y elegir objetivos de forma independiente para atacar con armas. También señalaron que algunos virus informáticos pueden evadir la eliminación y han logrado una "inteligencia de cucaracha". Llegaron a la conclusión de que la autoconciencia tal como se describe en la ciencia ficción es poco probable, pero que existen otros peligros y trampas potenciales. The New York Times resumió la visión de la conferencia como "estamos muy lejos de Hal, la computadora que se hizo cargo de la nave espacial en 2001: una odisea del espacio ". ​

Nick Bostrom publicó Superintelligence en 2014, donde presentó sus argumentos de que la superinteligencia representa una amenaza existencial. ​ En 2015, figuras públicas como los físicos Stephen Hawking y el premio Nobel Frank Wilczek, los informáticos Stuart J. Russell y Roman Yampolskiy ​, y los empresarios Elon Musk y Bill Gates expresaron su preocupación por los riesgos de la superinteligencia. ​ ​ ​ ​ En abril de 2016, Nature advirtió: "Las máquinas y los robots que superan a los humanos en todos los ámbitos podrían mejorar por sí mismos más allá de nuestro control, y sus intereses podrían no alinearse con los nuestros". ​

En 2020, Brian Christian ​ publicó The Alignment Problem, que detalla la historia del progreso en la alineación de la IA hasta ese momento. ​ ​

Argumento general

Las tres dificultades

Inteligencia artificial: un enfoque moderno, el libro de texto estándar de IA para estudiantes universitarios, ​ ​ evalúa que la superinteligencia "podría significar el fin de la raza humana". ​ Afirma: "Casi cualquier tecnología tiene el potencial de causar daño en las manos equivocadas, pero con [la superinteligencia], tenemos el nuevo problema de que las manos equivocadas podrían pertenecer a la tecnología misma". ​ Incluso si los diseñadores del sistema tienen buenas intenciones, dos dificultades son comunes tanto a los sistemas informáticos de IA como a los que no lo son: ​

  • La implementación del sistema puede contener errores inicialmente desapercibidos pero posteriormente catastróficos. Una analogía son las sondas espaciales: a pesar del conocimiento de que los errores en las costosas sondas espaciales son difíciles de corregir después del lanzamiento, históricamente los ingenieros no han podido evitar que ocurran errores catastróficos. ​ ​
  • No importa cuánto tiempo se dedique al diseño previo a la implementación, las especificaciones de un sistema a menudo dan como resultado un comportamiento no deseado la primera vez que se encuentra con un nuevo escenario. Por ejemplo, el bot Tay de Microsoft se comportó de manera inofensiva durante las pruebas previas a la implementación, pero se le provocó con demasiada facilidad un comportamiento ofensivo cuando interactuó con usuarios reales. ​

Los sistemas de IA agregan un tercer problema de manera única: que incluso con los requisitos "correctos", la implementación sin errores y el buen comportamiento inicial, las capacidades de aprendizaje dinámico de un sistema de IA pueden hacer que evolucione hacia un sistema con un comportamiento no deseado, incluso sin escenarios externos imprevistos. Una IA puede estropear en parte un intento de diseñar una nueva generación de sí misma y crear accidentalmente una IA sucesora que sea más poderosa que ella misma, pero que ya no mantenga los valores morales humanos compatibles preprogramados en la IA original. Para que una IA que se mejore a sí misma sea completamente segura, no solo debería estar libre de errores, sino que también debería poder diseñar sistemas sucesores que también estén libres de errores. ​ ​

Estas tres dificultades se convierten en catástrofes en lugar de molestias en cualquier escenario en el que la superinteligencia etiquetada como "mal funcionamiento" predice correctamente que los humanos intentarán apagarlo y despliega con éxito su superinteligencia para burlar tales intentos: un escenario que ha recibido el nombre "giro traicionero" (reacherous turr.) ​

Citando importantes avances en el campo de la IA y el potencial de que la IA tenga enormes beneficios o costos a largo plazo, la Carta Abierta sobre Inteligencia Artificial de 2015 declaró:

El progreso en la investigación de la IA hace que sea oportuno centrar la investigación no solo en hacer que la IA sea más capaz, sino también en maximizar el beneficio social de la IA. Tales consideraciones motivaron el Panel Presidencial AAAI 2008-09 sobre Futuros de IA a Largo Plazo y otros proyectos sobre impactos de IA, y constituyen una expansión significativa del campo de la IA en sí, que hasta ahora se ha centrado en gran medida en técnicas que son neutrales con respecto a objetivo. Recomendamos una investigación ampliada destinada a garantizar que los sistemas de IA cada vez más capaces sean robustos y beneficiosos: nuestros sistemas de IA deben hacer lo que queremos que hagan.

Los firmantes incluyeron al presidente de AAAI, Thomas Dietterich, ​ Eric Horvitz, ​ Bart Selman, ​Francesca Rossi, Yann LeCun y los fundadores de Vicarious ​ y Google DeepMind. ​

El argumento de Bostrom

Una máquina superinteligente sería tan extraña para los humanos como lo son los procesos de pensamiento humanos para las cucarachas, argumenta Bostrom. ​ Tal máquina puede no tener en mente los mejores intereses de la humanidad; no es obvio que incluso se preocuparía por el bienestar humano en absoluto. Si la IA superinteligente es posible, y si es posible que los objetivos de una superinteligencia entren en conflicto con los valores humanos básicos, entonces la IA plantea un riesgo de extinción humana. Una "superinteligencia" (un sistema que excede las capacidades de los humanos en todos los dominios de interés) puede superar a los humanos en cualquier momento en que sus objetivos entren en conflicto con los objetivos humanos; por lo tanto, a menos que la superinteligencia decida permitir que la humanidad coexista, la primera superinteligencia que se cree resultará inexorablemente en la extinción humana. ​ ​

Stephen Hawking argumenta que no existe una ley física que impida que las partículas se organicen de manera que realicen cálculos aún más avanzados que los arreglos de partículas en el cerebro humano; por lo tanto, la superinteligencia es físicamente posible. ​ ​ Además de las posibles mejoras algorítmicas en comparación con los cerebros humanos, un cerebro digital puede ser en varios órdenes de magnitud más grande y más rápido que un cerebro humano, cuyo tamaño se vio limitado por la evolución para ser lo suficientemente pequeño como para pasar por un canal de parto. ​ Hawking advierte que el surgimiento de la superinteligencia puede tomar por sorpresa a la raza humana, especialmente si advieneo la singularidad tecnológica. ​ ​

De acuerdo con la "escuela de pensamiento del riesgo x" de Bostrom, un escenario hipotético de explosión de inteligencia funciona de la siguiente manera: una IA adquiere una capacidad de nivel experto en ciertas tareas clave de ingeniería de software. (Inicialmente puede carecer de capacidades humanas o sobrehumanas en otros dominios que no sean directamente relevantes para la ingeniería.) Debido a su capacidad para mejorar recursivamente sus propios algoritmos, la IA se vuelve rápidamente sobrehumana; Así como los expertos humanos pueden eventualmente superar creativamente los "rendimientos decrecientes" mediante el despliegue de varias capacidades humanas para la innovación, la IA de nivel experto también puede usar capacidades de estilo humano o sus propias capacidades específicas de IA para impulsar nuevos avances creativos. ​ Entonces, la IA posee una inteligencia que supera con creces la de las mentes humanas más brillantes y dotadas en prácticamente todos los campos relevantes, incluida la creatividad científica, la planificación estratégica y las habilidades sociales. ​ ​

La escuela del riesgo x cree que casi cualquier IA, sin importar su objetivo programado, preferiría racionalmente estar en una posición en la que nadie más pueda apagarla sin su consentimiento: una superinteligencia obtendrá la autopreservación como un subobjetivo tan pronto se percate de que no puede lograr su objetivo si es apagada. ​ ​ ​ Desafortunadamente, cualquier compasión por los humanos derrotados cuya cooperación ya no es necesaria estaría ausente en la IA, a menos que esté preprogramada de alguna manera. Una IA superinteligente no tendrá un impulso natural ​ para ayudar a los humanos, por la misma razón que los humanos no tienen un deseo natural de ayudar a los sistemas de IA que ya no les sirven. (Otra analogía es que los humanos parecen tener poco deseo natural de salir de su camino para ayudar a los virus, las termitas o incluso los gorilas.) Una vez a cargo, la superinteligencia tendrá pocos incentivos para permitir que los humanos corran libremente y consuman recursos que la superinteligencia podría usar para construir sistemas de protección adicionales "solo para estar en el lado seguro" o para construir computadoras adicionales para ayudarla a calcular la mejor manera de lograr sus objetivos. ​ ​ ​

Por lo tanto, concluye la escuela del riesgo x, es probable que algún día una explosión de inteligencia tome a la humanidad desprevenida y pueda resultar en la extinción humana o en un destino comparable. ​

Posibles escenarios

Algunos académicos han propuesto escenarios hipotéticos para ilustrar algunas de sus preocupaciones.

En Superinteligencia, Nick Bostrom expresa su preocupación de que incluso si la línea de tiempo para la superinteligencia resultara ser predecible, los investigadores podrían no tomar suficientes precauciones de seguridad, en parte porque "podría darse el caso de que cuando es tonto, más inteligente es seguro; sin embargo, cuando es inteligente, más inteligente es más peligroso". Bostrom sugiere un escenario en el que, durante décadas, la IA se vuelve más poderosa. El despliegue generalizado se ve empañado inicialmente por accidentes ocasionales: un autobús sin conductor se desvía hacia el carril que se aproxima o un dron militar dispara contra una multitud inocente. Muchos activistas piden una supervisión y una regulación más estrictas, y algunos incluso predicen una catástrofe inminente. Pero a medida que continúa el desarrollo, se demuestra que los activistas están equivocados. A medida que la IA automotriz se vuelve más inteligente, sufre menos accidentes; a medida que los robots militares alcanzan objetivos más precisos, causan menos daños colaterales. Según los datos, los académicos infieren erróneamente una lección amplia: cuanto más inteligente es la IA, más segura es. "Y entonces vamos audazmente hacia los cuchillos giratorios", ya que la IA superinteligente toma un "giro traicionero" y explota una ventaja estratégica decisiva. ​

En el libro Life 3.0 de Max Tegmark de 2017, el "equipo Omega" de una corporación crea una IA extremadamente poderosa capaz de mejorar moderadamente su propio código fuente en varias áreas. Después de cierto punto, el equipo elige minimizar públicamente la capacidad de la IA para evitar la regulación o la confiscación del proyecto. Por seguridad, el equipo mantiene la IA en una caja en la que en su mayooría no puede comunicarse con el mundo exterior, y la usa para ganar dinero, por diversos medios, como tareas de Amazon Mechanical Turk, producción de películas animadas y programas de televisión, y desarrollo. de medicamentos biotecnológicos, con ganancias invertidas para mejorar aún más la IA. A continuación, el equipo le asigna a la IA la tarea de hacer astroturfing a un ejército de periodistas y comentaristas ciudadanos seudónimos, con el fin de ganar influencia política para usar "por el bien común" para prevenir guerras. El equipo se enfrenta a riesgos de los que la IA podría intentar escapar insertando "puertas traseras" en los sistemas que diseña, mediante mensajes ocultos en su contenido producido o utilizando su creciente comprensión del comportamiento humano para persuadir a alguien de que lo deje libre. El equipo también enfrenta riesgos de que su decisión de encajonar el proyecto lo retrase lo suficiente como para que otro proyecto lo supere. ​ ​

El físico Michio Kaku, un escéptico del riesgo de la IA, postula un resultado deterministamente positivo. En Physics of the Future, afirma que "los robots tardarán muchas décadas en ascender" en una escala de conciencia y que, mientras tanto, corporaciones como Hanson Robotics ​ probablemente tendrán éxito en la creación de robots que sean "capaces de amar y de lograr un lugar" en la familia humana extendida". ​ ​

Toma de control de IA

Una toma de control de IA es un escenario hipotético en el que una inteligencia artificial (IA) se convierte en la forma dominante de inteligencia en la Tierra, ya que los programas informáticos o los robots quitan efectivamente el control del planeta a la especie humana. Los posibles escenarios incluyen el reemplazo de toda la fuerza laboral humana, la toma de control por parte de una IA superinteligente y la noción popular de una rebelión de robots. Las historias de adquisiciones de IA son muy populares en la ciencia ficción. Algunas figuras públicas, como Stephen Hawking y Elon Musk, han abogado por la investigación de medidas de precaución para garantizar que las futuras máquinas superinteligentes permanezcan bajo el control humano.

Argumentos antropomórficos

Los argumentos antropomórficos suponen que, a medida que las máquinas se vuelvan más inteligentes, comenzarán a mostrar muchos rasgos humanos, como la moralidad o la sed de poder. Aunque los escenarios antropomórficos son comunes en la ficción, la mayooría de los estudiosos los rechazan cuando escriben sobre el riesgo existencial de la inteligencia artificial. ​ En cambio, la IA se modela como agentes inteligentes.

El debate académico es entre un grupolado que se preocupa si la IA podría destruir a la humanidad y otro que cree que la IA no destruiría a la humanidad en absoluto. Ambas partes han afirmado que las predicciones de los demás sobre el comportamiento de una IA son antropomorfismo ilógico. ​ Los escépticos acusan a los defensores del antropomorfismo de creer que un AGI naturalmente desearía el poder; los defensores acusan a algunos escépticos de antropomorfismo por creer que un AGI naturalmente valoraría las normas éticas humanas. ​ ​

El psicólogo evolutivo Steven Pinker, un escéptico, argumenta que "las distopías de IA proyectan una psicología parroquial de macho alfa en el concepto de inteligencia. Suponen que los robots sobrehumanamente inteligentes desarrollarían objetivos como deponer a sus amos o dominar el mundo"; quizás en cambio "la inteligencia artificial se desarrollará naturalmente a lo largo de las líneas femeninas: totalmente capaz de resolver problemas, pero sin deseo de aniquilar a inocentes o dominar la civilización. " ​ El director de investigación de inteligencia artificial de Facebook, Yann LeCun, afirma que "los humanos tienen todo tipo de impulsos que los hacen hacer cosas malas entre sí, como el instinto de autoconservación... Esos impulsos están programados en nuestro cerebro, pero no hay absolutamente ninguna razón para construir robots que tengan el mismo tipo de impulsos". ​

A pesar de otras diferencias, la escuela de riesgo x está de acuerdo con Pinker en que una IA avanzada no destruiría a la humanidad por emociones humanas como "venganza" o "ira", que las cuestiones de conciencia no son relevantes para evaluar el riesgos, ​ y que los sistemas informáticos generalmente no tienen un equivalente computacional de la testosterona. ​ Piensan que las conductas de búsqueda de poder o de autoconservación emergen en la IA como una forma de alcanzar sus verdaderos objetivos, según el concepto de convergencia instrumental.

Definición de "inteligencia"

Según Bostrom, fuera del campo de la inteligencia artificial, la "inteligencia" a menudo se usa de una manera que connota sabiduría moral o aceptación de formas agradables de razonamiento moral. En un extremo, si la moralidad es parte de la definición de inteligencia, entonces, por definición, una máquina superinteligente se comportaría moralmente. Sin embargo, la mayooría de las investigaciones de "inteligencia artificial" se centran en la creación de algoritmos que "optimicen", de forma empírica el logro de cualquier objetivo que los investigadores hayan especificado. ​

Para evitar el antropomorfismo o el bagaje de la palabra "inteligencia", se puede pensar en una inteligencia artificial avanzada como un "proceso de optimización" impersonal que toma estrictamente las acciones que considera más probables para lograr sus objetivos (posiblemente complicados e implícitos). ​ Otra forma de conceptualizar una inteligencia artificial avanzada es imaginar una máquina del tiempo que envía información hacia atrás en el tiempo sobre qué elección que siempre conduce a la maximización de su función objetivo; esta elección se genera independientemente de cualquier preocupación ética externa. ​ ​

Fuentes de riesgo

Problema de alineación de IA

En el campo de la inteligencia artificial, la investigación sobre la alineación o el alineamiento (en inglés, AI alignment) se ocupa de buscar formas de dirigir el desarrollo de los sistemas de inteligencia artificial en conformidad con los objetivos e intereses de sus diseñadores.​Si un sistema es competente, pero persigue objetivos que no han sido previstos por los investigadores, se dice que no está alineado.​

La alineación de los sistemas de inteligencia artificial incluye los siguientes problemas: la dificultad de especificar completamente todos los comportamientos deseados y no deseados; el uso de objetivos intermedios fáciles de especificar que omiten restricciones deseables; trampas para obtener recompensas, por medio de las cuales los sistemas encuentran lagunas en dichos objetivos intermedios, creando efectos colaterales;​ objetivos instrumentales, como la búsqueda de poder, que ayudan al sistema a lograr sus objetivos finales;​​​ y objetivos emergentes que sólo se hacen patentes cuando el sistema se implementa en nuevas situaciones y distribuciones de datos.​​ Estos problemas afectan a sistemas comerciales como robots,​ modelos de lenguaje,​​ vehículos autónomos,​ y sistemas de recomendación de redes sociales.​​​ Se cree que los problemas son tanto más probables cuanto más capaz es el sistema, ya que en parte resultan de esa alta capacidad.​​

La comunidad de investigadores de la inteligencia artificial y las Naciones Unidas han exigido tanto soluciones basadas en la investigación técnica como soluciones políticas para garantizar que los sistemas estén alineados con los valores humanos.​

La alineación de sistemas es parte de un campo de estudio más amplio llamado seguridad en la inteligencia artificial (en inglés, AI safety), es decir, el estudio de cómo construir sistemas de inteligencia artificial que sean seguros.​​ Las vías para la investigación de la alineación incluyen el aprendizaje de los valores y las preferencias humanas, el desarrollo de inteligencia artificial honesta, la supervisión extensible, el examen e interpretación de modelos de inteligencia artificial, y la prevención de comportamientos emergentes, como la búsqueda de poder.​​ La investigación de la alineación tiene conexiones con la investigación de la interpretabilidad,​ la solidez,​​ la detección de anomalías, la incertidumbre calibrada,​ la verificación formal,​ el aprendizaje por preferencias,​​​ la ingeniería de seguridad,​ la teoría de juegos,​​ la equidad algorítmica,​​ y las ciencias sociales,​ entre otros.

Dificultad para especificar objetivos.

En el modelo de "agente inteligente", una IA puede verse vagamente como una máquina que elige cualquier acción que parezca lograr mejor el conjunto de objetivos de la IA, o "función de utilidad". Una función de utilidad asocia a cada situación posible una puntuación que indica su deseabilidad para el agente. Los investigadores saben cómo escribir funciones de utilidad que significan "minimizar la latencia promedio de la red en este modelo de telecomunicaciones específico" o "maximizar la cantidad de clics de recompensa"; sin embargo, no saben cómo escribir una función de utilidad para "maximizar el bienestar humano ", ni está claro actualmente si tal función existe de manera significativa y sin ambigüedades. Además, una función de utilidad que expresa algunos valores pero no otros tenderá a pisotear los valores no reflejados por la función de utilidad. ​ El investigador de I. A. Stuart Russell escribe:

La principal preocupación no es la espeluznante conciencia emergente, sino simplemente la capacidad de tomar decisiones de alta calidad. Aquí, la calidad se refiere a la utilidad del resultado esperado de las acciones realizadas, donde la función de utilidad es, presumiblemente, especificada por el diseñador humano. Ahora tenemos un problema:

La función de utilidad puede no estar perfectamente alineada con los valores de la raza humana, que son (en el mejor de los casos) muy difíciles de precisar. Cualquier sistema inteligente suficientemente capaz preferirá asegurar su propia existencia continua y adquirir recursos físicos y computacionales, no por su propio bien, sino para tener éxito en la tarea asignada.

Un sistema que está optimizando una función de n variables, donde el objetivo depende de un subconjunto de tamaño k<n, a menudo establecerá las variables restantes sin restricciones en valores extremos; si una de esas variables sin restricciones es realmente algo que nos importa, la solución encontrada puede ser muy indeseable. Esta es esencialmente la vieja historia del genio en la lámpara, o el aprendiz de brujo, o el Rey Midas: obtienes exactamente lo que pides, no lo que quieres. Un tomador de decisiones altamente capaz, especialmente uno conectado a través de Internet a toda la información del mundo y miles de millones de pantallas y la mayoor parte de nuestra infraestructura, puede tener un impacto irreversible en la humanidad.

Esta no es una dificultad menor. Mejorar la calidad de las decisiones, independientemente de la función de utilidad elegida, ha sido el objetivo de la investigación de la IA: el objetivo principal en el que ahora gastamos miles de millones por año, no la trama secreta de algún genio malvado solitario.

Dietterich y Horvitz se hacen eco de la preocupación del "aprendiz de brujo" en un comunicado de la ACM editorial, enfatizando la necesidad de sistemas de inteligencia artificial que puedan solicitar de manera fluida y sin ambigüedades el aporte humano según sea necesario. ​

La primera de las dos preocupaciones de Russell mencionadas anteriormente es que a los sistemas de IA autónomos se les pueden asignar objetivos equivocados por accidente. Dietterich y Horvitz señalan que esto ya es una preocupación para los sistemas existentes: "Un aspecto importante de cualquier sistema de IA que interactúe con las personas es que debe razonar sobre lo que las personas pretenden en lugar de ejecutar órdenes literalmente". Esta preocupación se vuelve más seria a medida que el software de IA avanza en autonomía y flexibilidad. ​ Por ejemplo, Eurisko (1982) fue una IA diseñada para recompensar los subprocesos que crearon conceptos considerados valiosos por el sistema. Un proceso ganador engañado: en lugar de crear sus propios conceptos, el subproceso ganador robaría el crédito de otros subprocesos. ​ ​

El Proyecto de Filantropía Abierta resumió los argumentos de que los objetivos mal especificados se convertirán en una preocupación mucho mayoor si los sistemas de IA logran inteligencia general o superinteligencia. Bostrom, Russell y otros argumentan que los sistemas de toma de decisiones más inteligentes que los humanos podrían llegar a soluciones inesperadas y extremas para las tareas asignadas, y podrían modificarse a sí mismos o a su entorno de manera que comprometan los requisitos de seguridad. ​ ​

Las Tres leyes de la robótica de Isaac Asimov son uno de los primeros ejemplos de medidas de seguridad propuestas para los agentes de IA. Las leyes de Asimov estaban destinadas a evitar que los robots dañaran a los humanos. En las historias de Asimov, los problemas con las leyes tienden a surgir de conflictos entre las reglas establecidas y las intuiciones y expectativas morales de los humanos. Citando el trabajo de Eliezer Yudkowsky del Instituto de Investigación de Inteligencia de Máquinas, Russell y Norvig señalan que un conjunto realista de reglas y objetivos para un agente de IA deberá incorporar un mecanismo para aprender valores humanos a lo largo del tiempo: "No podemos simplemente dar a un programa una función de utilidad estática, porque las circunstancias, y nuestras respuestas deseadas a las circunstancias, cambian con el tiempo”. ​

Mark Waser, del Instituto de Sabiduría Digital, desaconseja los enfoques basados en objetivos por considerarlos erróneos y peligrosos. En cambio, propone diseñar un sistema coherente de leyes, ética y moral con una restricción superior para hacer cumplir la definición funcional de moralidad del psicólogo social Jonathan Haidt: ​ "para suprimir o regular el egoísmo y hacer posible la vida social cooperativa". Sugiere que esto se puede hacer implementando una función de utilidad diseñada para satisfacer siempre la funcionalidad de Haidt y apuntar a aumentar (pero no maximizar) las capacidades de uno mismo, de otros individuos y de la sociedad en su conjunto, como lo sugieren John Rawls y Martha Nussbaum. ​

Nick Bostrom ofrece un ejemplo hipotético de dar a una IA el objetivo de hacer sonreír a los humanos, para ilustrar un intento equivocado. Si la IA en ese escenario se volviera superinteligente, argumenta Bostrom, podría recurrir a métodos que la mayooría de los humanos encontrarían horribles, como insertar "electrodos en los músculos faciales de los humanos para causar sonrisas radiantes y constantes" porque eso sería un eficiente manera de lograr su objetivo de hacer sonreír a los humanos. ​

Dificultades de modificar la especificación de objetivos después del lanzamiento

Incluso si los programas actuales de IA basados en objetivos no son lo suficientemente inteligentes como para pensar en resistir los intentos de los programadores de modificar sus estructuras de objetivos, una IA lo suficientemente avanzada podría resistir cualquier cambio en su estructura de objetivos, al igual que un pacifista no querría tomar una píldora que hace que quiera matar gente. Si la IA fuera superinteligente, probablemente lograría maniobrar mejor que sus operadores humanos y podría evitar que se "apague" o se reprograme con un nuevo objetivo. ​ ​

Convergencia de metas instrumentales

Un objetivo "instrumental" ​ es un objetivo secundario que ayuda a lograr el objetivo final de un agente. La "convergencia instrumental" se refiere al hecho de que existen algunos objetivos secundarios que son útiles para lograr prácticamente cualquier objetivo final, como la adquisición de recursos o la autoconservación. ​ Nick Bostrom argumenta que si los objetivos instrumentales de una IA avanzada entran en conflicto con los objetivos de la humanidad, la IA podría dañar a la humanidad para adquirir más recursos o evitar que se apague, pero solo como una forma de lograr su objetivo final. ​

Citando el trabajo de Steve Omohundro ​ sobre la idea de la convergencia instrumental y las "unidades básicas de IA", Stuart Russell y Peter Norvig escriben que "incluso si solo quiere que su programa juegue al ajedrez o pruebe teoremas, si le da la capacidad de aprender y alterarse a sí mismo, necesita salvaguardas". Los sistemas de planificación autónomos y de alta capacidad requieren precaución adicional debido a su potencial para generar planes que tratan a los humanos de manera antagónica, como competidores por recursos limitados. ​ Puede que no sea fácil para las personas incorporar salvaguardas; ciertamente se puede decir "queremos que diseñe esta planta de energía de una manera razonable y con sentido común, y que no construya ningún subsistema encubierto peligroso", pero actualmente no está claro cómo especificar tal objetivo de manera inequívoca. ​

Russell argumenta que una máquina lo suficientemente avanzada "tendrá autoconservación incluso si no la programas... si dices, 'Trae el café', no puede traer el café si está muerto. Entonces, si le das cualquier objetivo, tiene una razón para preservar su propia existencia para lograr ese objetivo". ​ ​

Tesis de la ortogonalidad

Algunos escépticos, como Timothy B. Lee ​ de Vox, argumentan que cualquier programa superinteligente creado por humanos estaría subordinado a los humanos, que la superinteligencia (a medida que se vuelve más inteligente y aprende más hechos sobre el mundo) aprendería espontáneamente la verdad moral compatible con valores humanos y ajustaría sus objetivos en consecuencia, o que los seres humanos son intrínsecamente o convergentemente valiosos desde la perspectiva de una inteligencia artificial. ​

La "tesis de la ortogonalidad" de Nick Bostrom sostiene en cambio que, con algunas advertencias técnicas, casi cualquier nivel de "inteligencia" o "poder de optimización" se puede combinar con casi cualquier objetivo final. Si a una máquina se le da el único propósito de enumerar los decimales de , entonces ninguna regla moral y ética le impedirá alcanzar su objetivo programado por ningún medio. La máquina puede utilizar todos los recursos físicos e informativos disponibles para encontrar tantos decimales de pi como pueda. ​ Bostrom advierte contra el antropomorfismo: un ser humano se propone llevar a cabo sus proyectos de una manera que los humanos consideren "razonable", mientras que una inteligencia artificial puede no tener en cuenta su existencia o el bienestar de los humanos a su alrededor y, en cambio, solo puede preocuparse por la finalización de la tarea. ​

Stuart Armstrong ​ argumenta que la tesis de la ortogonalidad se deriva lógicamente del argumento filosófico del "problema del ser y el deber ser" contra el realismo moral. Armstrong también argumenta que incluso si existen hechos morales que son demostrables por cualquier agente "racional", la tesis de la ortogonalidad aún se mantiene: aún sería posible crear una "máquina optimizadora" no filosófica que pueda esforzarse por alcanzar algún objetivo estrecho, pero que no tiene ningún incentivo para descubrir ningunos "hechos morales" como los que podrían obstaculizar el alcance de la meta. ​

Un argumento a favor de la tesis de la ortogonalidad es que algunos diseños de IA parecen tenerla incorporada. En tal diseño, cambiar una IA fundamentalmente amigable a una IA fundamentalmente hostil puede ser tan simple como anteponer un signo de restar a su función de utilidad. Según Stuart Armstrong, si la tesis de la ortogonalidad fuera falsa, conduciría a extrañas consecuencias : existiría algún objetivo simple pero "poco ético" (G) tal que no puede existir ningún algoritmo eficiente del mundo real con ese objetivo. Esto significaría que "si una sociedad humana estuviera muy motivada para diseñar un algoritmo eficiente del mundo real con el objetivo G, y se le diera un millón de años para hacerlo junto con una gran cantidad de recursos, capacitación y conocimiento sobre IA, debe fallar". ​ Armstrong señala que esta y otras declaraciones similares "parecen afirmaciones extraordinariamente fuertes". ​

El escéptico Michael Chorost rechaza explícitamente la tesis de la ortogonalidad de Bostrom y argumenta, en cambio, que "para cuando [la IA] esté en condiciones de imaginar la Tierra con paneles solares, sabrá que sería moralmente incorrecto hacerlo". ​ Chorost argumenta que "una IA necesitará desear ciertos estados y no gustar de otros. El software actual carece de esa capacidad, y los informáticos no tienen ni idea de cómo conseguirlo. Sin querer, no hay ímpetu para hacer nada. Las computadoras de hoy ni siquiera pueden querer seguir existiendo, y mucho menos cubrir el mundo con paneles solares". ​

El politólogo Charles T. Rubin cree que la IA no puede diseñarse ni garantizarse que sea benévola. Argumenta que "cualquier benevolencia suficientemente avanzada puede ser indistinguible de la malevolencia". ​ Los humanos no deben asumir que las máquinas o los robots nos tratarán favorablemente porque no hay una razón a priori para creer que simpatizarían con nuestro sistema de moralidad, que ha evolucionado junto con nuestra biología particular (que las IA no compartirían). ​

Otras fuentes de riesgo

Nick Bostrom y otros han declarado que una carrera para ser el primero en crear AGI podría conducir a atajos en la seguridad, o incluso a conflictos violentos. ​ ​ Roman Yampolskiy y otros advierten que un AGI malévolo podría ser creado por diseño, por ejemplo, por un ejército, un gobierno, un sociópata o una corporación, para beneficiarse, controlar o subyugar a ciertos grupos de personas, como en el ciberdelito, ​ ​ o que un AGI malévolo podría elegir el objetivo de aumentar el sufrimiento humano, por ejemplo, de aquellas personas que no lo ayudaron durante la fase de explosión de información. ​ :158

Marco temporal

Las opiniones varían tanto sobre si llegará la inteligencia artificial general como sobre cuándo. En un extremo, el pionero de la IA , Herbert A. Simon, predijo lo siguiente en 1965: "las máquinas serán capaces, dentro de veinte años, de hacer cualquier trabajo que pueda hacer un hombre". ​ En el otro extremo, el especialista en robótica Alan Winfield afirma que la brecha entre la informática moderna y la inteligencia artificial a nivel humano es tan amplia como la brecha entre los vuelos espaciales actuales y los vuelos espaciales más rápidos que la luz. ​ El optimismo de que AGI es factible aumenta y disminuye, y puede haber visto un resurgimiento en la década de 2010. ​ Cuatro encuestas realizadas en 2012 y 2013 sugirieron que no hay consenso entre los expertos sobre la suposición de cuándo llegaría el AGI, con una desviación estándar (>100 años) superior a la mediana (unas pocas décadas). ​ ​

En su libro de 2020, The Precipice: Existential Risk and the Future of Humanity, Toby Ord, investigador sénior del Future of Humanity Institute de la Universidad de Oxford, estima que el riesgo existencial total de la IA no alineada durante los próximos cien años será aproximadamente uno de cada diez. ​

Los escépticos que creen que es imposible que AGI llegue pronto tienden a argumentar que expresar preocupación por el riesgo existencial de la IA no ayuda porque podría distraer a las personas de preocupaciones más inmediatas sobre el impacto de AGI, por temor a que pueda conducir a la regulación gubernamental o dificultaría la obtención de fondos para la investigación de la IA, o porque podría dar una mala reputación a la investigación de la IA. Algunos investigadores, como Oren Etzioni, buscan agresivamente calmar la preocupación sobre el riesgo existencial de la IA, diciendo que "[Elon Musk] nos ha impugnado en un lenguaje muy fuerte diciendo que estamos desatando al demonio, y por eso estamos respondiendo". ​

En 2014, Adam Elkus de Slate argumentó que "nuestra IA 'más inteligente' es tan inteligente como un niño pequeño, y solo cuando se trata de tareas instrumentales como recordar información. La mayooría de los especialistas en robótica todavía están tratando de lograr que una mano robótica recoja una pelota o corra sin caerse". Elkus continúa argumentando que la analogía de "invocar al demonio" de Musk puede ser dañina porque podría resultar en "recortes severos" en los presupuestos de investigación de IA. ​

La Fundación de Innovación y Tecnología de la Información (ITIF), un grupo de expertos de Washington, DC, otorgó su Premio Luddite Anual 2015 a "alarmistas que pregonan un apocalipsis de inteligencia artificial"; su presidente, Robert D. Atkinson, se quejó de que Musk, Hawking y los expertos en IA dicen que la IA es la mayoor amenaza existencial para la humanidad. Atkinson declaró: "Ese no es un mensaje muy ganador si desea obtener fondos de IA del Congreso para la Fundación Nacional de Ciencias". ​ ​ ​ Nature discrepó rotundamente con la ITIF en un editorial de abril de 2016, se puso del lado de Musk, Hawking y Russell y concluyó: "Es crucial que el progreso en la tecnología vaya acompañado de una investigación sólida y bien financiada para anticipar los escenarios que podría generar".... Si esa es una perspectiva ludita, que así sea". ​ En un editorial de The Washington Post de 2015, el investigador Murray Shanahan afirmó que es poco probable que la IA a nivel humano llegue "en el corto plazo", pero que, sin embargo, "ahora es el momento de comenzar a pensar en las consecuencias". ​

Perspectivas

La tesis de que la IA podría suponer un riesgo existencial provoca un amplio abanico de reacciones en la comunidad científica, así como en el público en general. Muchos de los defensores de puntos de vista opuestos, sin embargo, comparten también puntos en común.

Los Principios de IA de Asilomar, que contienen solo aquellos principios acordados por el 90 % de los asistentes a la conferencia Beneficial AI 2017 del Future of Life Institute, ​ acuerdan en principio que "Al no haber consenso, debemos evitar suposiciones fuertes con respecto a límites superiores de las futuras capacidades de IA" y "La IA avanzada podría representar un cambio profundo en la historia de la vida en la Tierra, y debe planificarse y administrarse con el cuidado y los recursos correspondientes". ​ ​ Los defensores de la seguridad de la IA, como Bostrom y Tegmark, han criticado el uso que hacen los principales medios de comunicación de "esas tontas imágenes de Terminator" para ilustrar las preocupaciones sobre la seguridad de la IA: "No puede ser muy divertido tener calumnias sobre la disciplina académica, la comunidad profesional, la vida trabajar ... Hago un llamado a todas las partes para que practiquen la paciencia y la moderación, y participen en el diálogo directo y la colaboración tanto como sea posible". ​ ​

Por el contrario, muchos escépticos están de acuerdo en que la investigación en curso sobre las implicaciones de la inteligencia artificial general es valiosa. El escéptico Martin Ford afirma que "Creo que parece prudente aplicar algo como la famosa 'Doctrina del 1 por ciento' de Dick Cheney al espectro de la inteligencia artificial avanzada: las probabilidades de que ocurra, al menos en un futuro previsible, pueden ser muy bajas. —pero las implicaciones son tan dramáticas que debe tomarse en serio". ​ De manera similar, un economista escéptico declaró en 2014 que "las implicaciones de introducir una segunda especie inteligente en la Tierra son lo suficientemente amplias como para merecer una reflexión profunda, incluso si la perspectiva parece remota". ​

Una encuesta de 2014 mostró que la opinión de los expertos en el campo de la inteligencia artificial es mixta, con fracciones considerables tanto preocupadas como despreocupadas por el riesgo de una eventual IA con capacidad sobrehumana. ​ Una encuesta por correo electrónico de 2017 a investigadores con publicaciones en las conferencias de aprendizaje automático NIPS e ICML de 2015 les pidió que evaluaran las preocupaciones de Stuart J. Russell sobre el riesgo de la IA. De los encuestados, el 5 % dijo que estaba "entre los problemas más importantes en el campo", el 34 % dijo que era "un problema importante" y el 31 % dijo que era "moderadamente importante", mientras que el 19 % dijo que "no era importante" y el 11% dijo que "no era un problema real" en absoluto. ​ Los resultados preliminares de una encuesta de expertos de 2022 con una tasa de respuesta del 17% parecen mostrar respuestas medianas de alrededor del cinco o diez por ciento cuando se les pide que calculen la probabilidad de extinción humana a partir de la inteligencia artificial. ​ ​

Aprobación

La tesis de que la IA plantea un riesgo existencial, y que este riesgo necesita mucha más atención de la que recibe actualmente, ha sido respaldada por muchos científicos informáticos y figuras públicas, incluido Alan Turing, En una conferencia de 1951,​ Turing argumentó que “Parece probable que una vez que el método de pensamiento de la máquina haya comenzado, no tardará mucho en superar nuestros débiles poderes. No habría duda de que las máquinas murieran, y podrían conversar entre sí para agudizar su ingenio. En algún momento, por lo tanto, deberíamos esperar que las máquinas tomen el control, de la manera que se menciona en el Erewhon de Samuel Butler”. También en una conferencia transmitida por la BBC expresó:​ "Si una máquina puede pensar, podría pensar más inteligentemente que nosotros, y entonces, ¿dónde deberíamos estar? Incluso si pudiéramos mantener las máquinas en una posición subordinada, por ejemplo apagando el poder en momentos estratégicos, deberíamos, como especie, sentirnos muy humillados... Este nuevo peligro... es ciertamente algo que puede causarnos ansiedad”.</ref>, el científico informático más citado Geoffrey Hinton, ​ Elon Musk, ​ CEO de OpenAI, Sam Altman, ​ ​ Bill Gates, y Stephen Hawking. ​ Los partidarios de la tesis a veces expresan desconcierto ante los escépticos: Gates afirma que no "entiende por qué algunas personas no están preocupadas", ​ y Hawking criticó la indiferencia generalizada en su editorial de 2014:

Entonces, ante posibles futuros de beneficios y riesgos incalculables, seguramente los expertos están haciendo todo lo posible para asegurar el mejor resultado, ¿no? equivocado Si una civilización alienígena superior nos enviara un mensaje diciendo: "Llegaremos en unas pocas décadas", simplemente responderíamos: "Está bien, llámanos cuando llegues aquí, ¿dejaremos las luces encendidas?" Probablemente no, pero esto es más o menos lo que está sucediendo con la IA.​

La preocupación por el riesgo de la inteligencia artificial ha dado lugar a algunas donaciones e inversiones de alto perfil. En 2015, Peter Thiel, Amazon Web Services, Musk y otros entregaron conjuntamente mil millones de dólares a OpenAI, que consiste en una corporación con fines de lucro y la empresa matriz sin fines de lucro que afirma que tiene como objetivo defender el desarrollo responsable de la IA. ​ El cofundador de Facebook, Dustin Moskovitz, financió y propagó varios laboratorios que trabajan en alineación de IA, ​ en particular, 5,5 millones de dólares en 2016 para lanzar el Centro de IA compatible con humanos dirigido por el profesor Stuart Russell. ​ En enero de 2015, Elon Musk donó $10 millones al Future of Life Institute para financiar la investigación sobre la comprensión de la toma de decisiones de la IA. El objetivo del instituto es "hacer crecer la sabiduría con la que gestionamos" el poder creciente de la tecnología. Musk también financia empresas que desarrollan inteligencia artificial como DeepMind y Vicarious para "simplemente vigilar lo que sucede con la inteligencia artificial, ​ diciendo: "Creo que hay un resultado potencialmente peligroso". ​ ​

Escepticismo

La tesis de que la IA puede suponer un riesgo existencial tiene muchos detractores. Los escépticos a veces acusan a la tesis de ser criptorreligiosa, con una creencia irracional en la posibilidad de superinteligencia reemplazando una creencia irracional en un Dios omnipotente. Jaron Lanier argumentó en 2014 que todo el concepto de que las máquinas actuales eran de alguna manera inteligentes era "una ilusión" y una "estupenda estafa" de los ricos. ​ ​

Algunas críticas argumentan que AGI es poco probable en el corto plazo. El investigador de IA Rodney Brooks escribió en 2014: "Creo que es un error preocuparse por el desarrollo de una IA malévola en cualquier momento de los próximos cientos de años. Creo que la preocupación surge de un error fundamental al no distinguir la diferencia entre los avances recientes muy reales en un aspecto particular de la IA y la enormidad y complejidad de construir una inteligencia volitiva sensible". ​ El vicepresidente de Baidu, Andrew Ng, declaró en 2015 que el riesgo existencial de la IA es "como preocuparse por la superpoblación en Marte cuando aún no hemos puesto un pie en el planeta". ​ ​ El informático Gordon Bell argumentó en 2008 que la raza humana se destruirá a sí misma antes de alcanzar la singularidad tecnológica. Gordon Moore, el proponente original de la Ley de Moore, declara que "Soy un escéptico. No creo que ocurra [una singularidad tecnológica], al menos durante mucho tiempo. Y no sé por qué me siento así.” ​

Para que se perciba el peligro de una IA avanzada descontrolada, es posible que la IA hipotética tenga que dominar o ser más inteligente que cualquier humano, lo que, según algunos expertos, es una posibilidad lo suficientemente lejana en el futuro como para que no valga la pena investigarla. ​ ​ El economista Robin Hanson considera que, para lanzar una explosión de inteligencia, la IA tendría que ser mucho mejor en la innovación de software que todo el resto del mundo combinado, lo que le parece inverosímil. ​ ​ ​ ​

Otra línea de crítica postula que la inteligencia es solo un componente de una capacidad mucho más amplia para lograr objetivos. ​ ​ Magnus Vinding argumenta que “las habilidades avanzadas para lograr objetivos, incluidas las habilidades para construir nuevas herramientas, requieren muchas herramientas, y nuestras habilidades cognitivas son solo un subconjunto de estas herramientas. Se debe adquirir hardware, materiales y energía avanzados si se quiere lograr cualquier objetivo avanzado”. ​ Vinding argumenta además que "lo que observamos consistentemente [en la historia] es que, a medida que los sistemas de consecución de objetivos se han vuelto más competentes, se han vuelto cada vez más dependientes de un sistema cada vez más grande y distribuido". Vinding escribe que no hay razón para esperar que la tendencia se revierta, especialmente para las máquinas, que “dependen de materiales, herramientas y conocimientos distribuidos ampliamente en todo el mundo para su construcción y mantenimiento”. ​ Tales argumentos llevan a Vinding a pensar que no existe un "centro de capacidad concentrado" y, por lo tanto, no hay un "problema de gran control". ​

El futurista Max More considera que incluso si surgiera una superinteligencia, esta estaría limitada por la velocidad del resto del mundo y por lo tanto impedida de tomar el control de la economía de manera incontrolable: ​

A menos que la nanotecnología y la robótica en toda regla se presenten ante la superinteligencia, [... ] La necesidad de colaboración, de organización y de convertir las ideas en cambios físicos asegurará que todas las viejas reglas no se eliminen de la noche a la mañana o incluso dentro de unos años. La superinteligencia puede ser difícil de lograr. Puede venir en pequeños pasos, en lugar de en un estallido que rompe la historia. Incluso un SI muy avanzado no marcará una diferencia dramática en el mundo en comparación con miles de millones de humanos aumentados cada vez más integrados con la tecnología [... ]

La naturaleza caótica o la complejidad temporal de algunos sistemas también podría limitar fundamentalmente la capacidad de una superinteligencia para predecir algunos aspectos del futuro, aumentando su incertidumbre. ​

Algunos investigadores de IA y AGI pueden ser reacios a discutir los riesgos, preocupados de que los formuladores de políticas no tengan un conocimiento sofisticado del campo y sean propensos a dejarse convencer por mensajes "alarmistas", o preocupados de que tales mensajes conduzcan a recortes en la financiación de IA. Slate señala que algunos investigadores dependen de subvenciones de agencias gubernamentales como DARPA. ​

Varios escépticos argumentan que los posibles beneficios a corto plazo de la IA superan los riesgos. El CEO de Facebook, Mark Zuckerberg, cree que la IA "desbloqueará una gran cantidad de cosas positivas", como curar enfermedades y aumentar la seguridad de los automóviles autónomos. ​

Perspectivas intermedias

Los puntos de vista intermedios generalmente toman la posición de que el problema de control de la inteligencia artificial general puede existir, pero que se resolverá mediante el progreso de la inteligencia artificial, por ejemplo, mediante la creación de un entorno de aprendizaje moral para la IA, teniendo cuidado de detectar el comportamiento malévolo torpe (el "tropiezo sórdido") ​ y luego intervenir directamente en el código antes de que la IA refine su comportamiento, o incluso la presión de los compañeros de las IA amigas. ​ En un panel de discusión de 2015 en The Wall Street Journal dedicado a los riesgos de la IA, el vicepresidente de Computación Cognitiva de IBM, Guruduth S. Banavar, restó importancia a la discusión sobre AGI con la frase "es la especulación de cualquiera". ​ Geoffrey Hinton, el "padrino del aprendizaje profundo", señaló que "no hay un buen historial de cosas menos inteligentes que controlan cosas de mayoor inteligencia", pero afirmó que continúa su investigación porque "la perspectiva del descubrimiento es demasiado dulce ". ​ ​ Cuando se le preguntó sobre la posibilidad de que una IA intente eliminar a la raza humana, Hinton dijo que tal escenario "no era inconcebible", pero el mayoor problema con una "explosión de inteligencia" sería la concentración de poder resultante. ​ En 2004, el profesor de derecho Richard Posner escribió que los esfuerzos dedicados a abordar la IA pueden esperar, pero mientras tanto debemos recopilar más información sobre el problema. ​ ​

Reacción popular

En un artículo de 2014 en The Atlantic, James Hamblin señaló que a la mayooría de las personas no les importa la inteligencia artificial general y caracterizó su propia reacción visceral al tema como: "Fuera de aquí. Tengo cien mil cosas que me preocupan en este preciso momento. ¿Necesito seriamente agregarle a eso una singularidad tecnológica?" ​

Durante una entrevista de Wired de 2016 del presidente Barack Obama y Joi Ito de MIT Media Lab, Ito declaró:

Hay algunas personas que creen que existe un porcentaje bastante alto de posibilidades de que ocurra una IA generalizada en los próximos 10 años. Pero desde mi punto de vista, para que eso suceda, vamos a necesitar una docena o dos de avances diferentes. Para que pueda monitorear cuándo cree que ocurrirán estos avances.

Obama agregó: ​ ​

Y solo tienes que tener a alguien cerca del cable de alimentación. [Risas.] Justo cuando ves que va a suceder, tienes que sacar esa electricidad de la pared, hombre.

Hillary Clinton declaró en What Happened :

Los tecnólogos... advirtieron que la inteligencia artificial algún día podría representar una amenaza de seguridad existencial. Musk lo ha llamado "el mayoor riesgo al que nos enfrentamos como civilización". Piénsalo: ¿alguna vez has visto una película en la que las máquinas comienzan a pensar por sí mismas y termina bien? Cada vez que salía a Silicon Valley durante la campaña, volvía a casa más alarmada por esto. Mi personal vivía con miedo de que empezara a hablar sobre "el surgimiento de los robots" en algún ayuntamiento de Iowa. Tal vez debería haberlo hecho. En cualquier caso, los formuladores de políticas deben mantenerse al día con la tecnología a medida que avanza, en lugar de ponerse siempre al día.​

En una encuesta pública de YouGov de 2016 para la Asociación Británica de Ciencias, aproximadamente un tercio de los encuestados dijeron que la IA supondrá una amenaza para la supervivencia a largo plazo de la humanidad. ​ Jacob Brogan de Slate declaró que "la mayooría de los (lectores que completaron nuestra encuesta en línea) no estaban convencidos de que la IA en sí misma represente una amenaza directa". ​

En 2018, una encuesta de SurveyMonkey del público estadounidense realizada por USA Today encontró que el 68% pensaba que la verdadera amenaza actual sigue siendo la "inteligencia humana"; sin embargo, la encuesta también encontró que el 43% dijo que la IA superinteligente, si sucediera, resultaría en "más daño que bien", y el 38% dijo que haría "la misma cantidad de daño y bien". ​

Un punto de vista tecno-utópico expresado en alguna ficción popular es que AGI puede tender hacia la construcción de paz. ​

Mitigación

Muchos académicos preocupados por el riesgo existencial de AGI creen que el mejor enfoque es realizar una investigación sustancial para resolver el difícil "problema de control": qué tipos de salvaguardas, algoritmos o arquitecturas pueden implementar los programadores para maximizar la probabilidad de que su IA de mejora recursiva continúe comportándose de manera amistosa después de que llegue a la superinteligencia? ​ ​ Las medidas sociales pueden mitigar el riesgo existencial de AGI; ​ ​ por ejemplo, una recomendación es para un "Tratado AGI benévolo" patrocinado por la ONU que garantizaría que solo se creen AGI altruistas. ​ De manera similar, se ha sugerido un enfoque de control de armas, al igual que un tratado de paz global basado en la teoría de las relaciones internacionales del instrumentalismo conforme, con un ASI potencialmente como signatario. ​

Los investigadores de Google han propuesto analizar los problemas generales de "seguridad de la IA" para mitigar simultáneamente los riesgos a corto plazo de la IA limitada y los riesgos a largo plazo de la AGI. ​ ​ Una estimación de 2020 sitúa el gasto global en riesgo existencial de IA entre $ 10 y $ 50 millones, en comparación con el gasto global en IA de alrededor de quizás $ 40 mil millones. Bostrom sugiere un principio general de "desarrollo tecnológico diferencial": que los financiadores deberían acelerar el desarrollo de tecnologías de protección en relación con el desarrollo de las peligrosas. ​ Algunos patrocinadores, como Elon Musk, proponen que la mejora cognitiva humana radical podría ser una tecnología de este tipo, por ejemplo, la conexión neuronal directa entre humanos y máquinas; sin embargo, otros argumentan que las tecnologías de mejora en sí mismas pueden representar un riesgo existencial. ​ ​ Los investigadores, si no son tomados por sorpresa, podrían monitorear de cerca o intentar incluir una IA inicial con el riesgo de volverse demasiado poderosa, como un intento de medida provisional. Una IA superinteligente dominante, si estuviera alineada con los intereses humanos, podría tomar medidas para mitigar el riesgo de que la IA rival se haga cargo, aunque la creación de la IA dominante podría en sí misma plantear un riesgo existencial. ​

Instituciones como el Instituto de Investigación de Inteligencia Artificial, el Instituto del Futuro de la Humanidad, ​ ​ el Instituto del Futuro de la Vida, el Centro para el Estudio del Riesgo Existencial y el Centro de IA Compatible con Humanos ​ están involucradas en mitigar el riesgo existencial de la inteligencia artificial avanzada, por ejemplo, mediante la investigación de inteligencia artificial amigable. ​ ​ ​

Puntos de vista sobre la prohibición y la regulación

Prohibición

La mayooría de los académicos creen que incluso si AGI representa un riesgo existencial, intentar prohibir la investigación sobre inteligencia artificial sería imprudente y probablemente inútil. ​ ​ ​ Los escépticos argumentan que la regulación de la IA no tendría ningún valor, ya que no existe ningún riesgo existencial. Sin embargo, los académicos que creen en el riesgo existencial propusieron que es difícil depender de personas de la industria de la IA para regular o restringir la investigación de la IA porque contradice directamente sus intereses personales. ​ Los académicos también están de acuerdo con los escépticos en que prohibir la investigación sería imprudente, ya que la investigación podría trasladarse a países con regulaciones más laxas o llevarse a cabo de manera encubierta. ​ El último tema es particularmente relevante, ya que la investigación de inteligencia artificial se puede realizar a pequeña escala sin una infraestructura o recursos sustanciales. ​ ​ Dos dificultades hipotéticas adicionales con las prohibiciones (u otra regulación) son que los empresarios tecnológicos estadísticamente tienden hacia el escepticismo general sobre la regulación gubernamental, y que las empresas podrían tener un fuerte incentivo para (y podrían tener éxito) luchar contra la regulación y politizar el debate subyacente. ​

Regulación

En marzo de 2023, el Future of Life Institute (FLI), financiado por Elon Musk, redactó una carta ​ en la que pedía a los principales desarrolladores de inteligencia artificial que acordaran una pausa verificable de seis meses de cualquier sistema "más poderoso que GPT-4 " y que usaran ese tiempo para instituir un marco para garantizar la seguridad; o, en su defecto, que los gobiernos intervengan con una moratoria. La carta se refería a la posibilidad de "un cambio profundo en la historia de la vida en la Tierra", así como a los riesgos potenciales de la propaganda generada por la IA, la pérdida de empleos, la obsolescencia humana y la pérdida de control en toda la sociedad. ​ ​ Además de Musk, los signatarios destacados incluyeron a Steve Wozniak, Evan Sharp, ​ Chris Larsen y Gary Marcus; los directores ejecutivos del laboratorio de IA, Connor Leahy y Emad Mostaque; el político Andrew Yang; y el pionero del aprendizaje profundo Yoshua Bengio. Marcus dijo que "la letra no es perfecta, pero el espíritu es correcto". Mostaque declaró: "No creo que una pausa de seis meses sea la mejor idea ni estoy de acuerdo con todo, pero hay algunas cosas interesantes en esa carta". En contraste, Bengio respaldó explícitamente la pausa de seis meses en una conferencia de prensa. ​ ​ Musk declaró que "los principales desarrolladores de AGI no prestarán atención a esta advertencia, pero al menos se dijo". ​ Algunos signatarios, como Marcus, firmaron porque les preocupaban los riesgos mundanos, como la propaganda generada por la IA, en lugar de preocuparse por la AGI superinteligente. ​ Margaret Mitchell, cuyo trabajo se cita en la carta, la criticó y dijo: “Al tratar muchas ideas cuestionables como un hecho, la carta afirma un conjunto de prioridades y una narrativa sobre la IA que beneficia a los partidarios de FLI. Ignorar los daños activos en este momento es un privilegio que algunos de nosotros no tenemos”. ​

Musk pidió algún tipo de regulación del desarrollo de la IA ya en 2017. Según NPR, el CEO de Tesla "claramente no está emocionado" por abogar por el escrutinio del gobierno que podría afectar su propia industria, pero cree que los riesgos de pasar completamente sin supervisión son demasiado altos: "Normalmente, la forma en que se establecen las regulaciones es cuando un Suceden un montón de cosas malas, hay una protesta pública y, después de muchos años, se establece una agencia reguladora para regular esa industria. Se tarda una eternidad. Eso, en el pasado, ha sido malo, pero no algo que represente un riesgo fundamental para la existencia de la civilización". Musk afirma que el primer paso sería que el gobierno obtuviera una "percepción" del estado real de la investigación actual, y advirtió que "una vez que haya conciencia, la gente tendrá mucho miedo.. [como] debería ser". En respuesta, los políticos expresaron su escepticismo sobre la sensatez de regular una tecnología que aún está en desarrollo. ​ ​ ​

En respuesta tanto a Musk como a las propuestas de febrero de 2017 de los legisladores de la Unión Europea para regular la IA y la robótica, el CEO de Intel, Brian Krzanich, argumentó que la inteligencia artificial está en su infancia y que es demasiado pronto para regular la tecnología. ​ En lugar de tratar de regular la tecnología en sí, algunos académicos sugieren normas comunes que incluyen requisitos para la prueba y la transparencia de los algoritmos, posiblemente en combinación con algún tipo de garantía. ​ Desarrollando bien regulado  Los sistemas de armas están en línea con el espíritu de los ejércitos de algunos países. ​ El 31 de octubre de 2019, la Junta de Innovación de Defensa del Departamento de Defensa de los Estados Unidos (DoD) publicó el borrador de un informe que describe cinco principios para la IA armada y hace 12 recomendaciones para el uso ético de la inteligencia artificial por parte del DoD que busca administrar el control. problema en toda la IA armada del Departamento de Defensa. ​

La regulación de la AGI probablemente se vería influenciada por la regulación de la IA armada o militarizada, es decir, la carrera armamentista de la IA, que es un problema emergente.  En la actualidad,  aunque las Naciones Unidas están avanzando hacia la regulación de la IA, su capacidad institucional y legal para gestionar el riesgo existencial de AGI es mucho más limitada. ​ Es probable que cualquier forma ​ regulación internacional se vea influenciada por los desarrollos en la política interna ​ los países líderes hacia la IA militarizada, que en los EE. Carrera armamentista de la IA. La regulación de la investigación sobre AGI se centra en el papel de las juntas de revisión, fomentando la investigación sobre IA segura, la posibilidad de un progreso tecnológico diferencial (priorizando las estrategias de reducción de riesgos sobre las estrategias de asunción de riesgos en el desarrollo de IA) o realizando vigilancia masiva internacional para realizar armas AGI. control. ​ La regulación de AGI conscientes se enfoca en integrarlos con la sociedad humana existente y puede dividirse en consideraciones de su estatus legal y de sus derechos morales. ​ El control de armas de AI probablemente requerirá la institucionalización de nuevas normas internacionales incorporadas en especificaciones técnicas efectivas combinadas con un monitoreo activo y diplomacia informal por parte de comunidades de expertos, junto con un proceso de verificación legal y política. ​ ​

Véase también

Notas

Bibliografía


Новое сообщение