Show simple item record

Dynamic Normativity
Necessary and Sufficient Conditions for Value Alignment

dc.contributor.authorKluge Corrêa, Nicholas
dc.date.accessioned2024-06-11T12:54:16Z
dc.date.available2024-06-11T12:54:16Z
dc.date.issued11.06.2024
dc.identifier.urihttps://hdl.handle.net/20.500.11811/11595
dc.description.abstractThe critical inquiry pervading the realm of Philosophy, and perhaps extending its influence across all Humanities disciplines, revolves around the intricacies of morality and normativity. Surprisingly, in recent years, this thematic thread has woven its way into an unexpected domain, one not conventionally associated with pondering "what ought to be": the field of artificial intelligence (AI) research. Central to morality and AI, we find "alignment", a problem related to the challenges of expressing human goals and values in a manner that artificial systems can follow without leading to unwanted adversarial effects. More explicitly and with our current paradigm of AI development in mind, we can think of alignment as teaching human values to non-anthropomorphic entities trained through opaque, gradient-based learning techniques. This work addresses alignment as a technical-philosophical problem that requires solid philosophical foundations and practical implementations that bring normative theory to AI system development. To accomplish this, we propose two sets of necessary and sufficient conditions that, we argue, should be considered in any alignment process. While necessary conditions serve as metaphysical and metaethical roots that pertain to the permissibility of alignment, sufficient conditions establish a blueprint for aligning AI systems under a learning-based paradigm. After laying such foundations, we present implementations of this approach by using state-of-the-art techniques and methods for aligning general-purpose language systems. We call this framework Dynamic Normativity. Its central thesis is that any alignment process under a learning paradigm that cannot fulfill its necessary and sufficient conditions will fail in producing aligned systems.de
dc.description.abstractA investigação crítica que permeia o campo da filosofia, e talvez estenda sua influência a todas as disciplinas de ciências humanas, gira em torno dos meandros da moralidade e da normatividade. Surpreendentemente, nos últimos anos, esse fio temático foi inserido em um domínio inesperado, que não é convencionalmente associado à reflexão sobre "o que deve ser": o campo de pesquisa da inteligência artificial (IA). No centro da moralidade e da IA, encontramos o "alinhamento", um problema relacionado aos desafios de expressar metas e valores humanos de uma forma que os sistemas artificiais possam seguir sem causar efeitos adversos indesejados. De forma mais explícita e com nosso paradigma atual de desenvolvimento de IA em mente, podemos pensar no alinhamento como o ensino de valores humanos a entidades não antropomórficas treinadas por meio de técnicas de aprendizado opacas e baseadas em gradiente. Este trabalho aborda o alinhamento como um problema técnico-filosófico que requer fundamentos filosóficos sólidos e implementações práticas que tragam a teoria normativa para o desenvolvimento do sistema de IA. Para isso, propomos dois conjuntos de condições necessárias e suficientes que, segundo nosso argumento, devem ser consideradas em qualquer processo de alinhamento. Enquanto as condições necessárias servem como raízes metafísicas e metaéticas relacionadas à permissibilidade do alinhamento, as condições suficientes estabelecem um plano para alinhar os sistemas de IA sob um paradigma baseado em aprendizado. Depois de estabelecer essas bases, apresentamos implementações dessa abordagem usando técnicas e métodos de última geração para alinhar sistemas de linguagem de uso geral. Chamamos essa estrutura de Dinâmica Normativa. Sua tese central é que qualquer processo de alinhamento sob um paradigma de aprendizagem que não possa cumprir suas condições necessárias e suficientes falhará na produção de sistemas alinhados.de
dc.language.isoeng
dc.rightsNamensnennung-Nicht-kommerziell 4.0 International
dc.rights.urihttp://creativecommons.org/licenses/by-nc/4.0/
dc.subjectArtificial Intelligence
dc.subjectAlignment
dc.subjectValue Learning
dc.subject.ddc100 Philosophie
dc.subject.ddc004 Informatik
dc.titleDynamic Normativity
dc.title.alternativeNecessary and Sufficient Conditions for Value Alignment
dc.typeDissertation oder Habilitation
dc.publisher.nameUniversitäts- und Landesbibliothek Bonn
dc.publisher.locationBonn
dc.rights.accessRightsopenAccess
dc.identifier.urnhttps://nbn-resolving.org/urn:nbn:de:hbz:5-76519
ulbbn.pubtypeErstveröffentlichung
ulbbnediss.affiliation.nameRheinische Friedrich-Wilhelms-Universität Bonn
ulbbnediss.affiliation.locationBonn
ulbbnediss.affiliation.otherLocation1Porto Alegre
ulbbnediss.affiliation.otherName1Pontifícia Universidade Católica do Rio Grande do Sul
ulbbnediss.thesis.levelDissertation
ulbbnediss.dissID7651
ulbbnediss.date.accepted13.05.2024
ulbbnediss.dissNotes.externCotutelle doctorate (Rheinische Friedrich-Wilhelms-Universität Bonn and Pontifícia Universidade Católica do Rio Grande do Sul, Porto Alegre)
ulbbnediss.institutePhilosophische Fakultät : Institut für Philosophie
ulbbnediss.fakultaetPhilosophische Fakultät
dc.contributor.refereeSchulz, Michael
dc.contributor.refereede Oliveira, Nytharnar
dcterms.hasSupplementhttps://github.com/Nkluge-correa/Aira
dcterms.hasSupplementhttps://huggingface.co/collections/nicholasKluge/aira-657db1563c65a5be2a02f51c
ulbbnediss.contributor.orcidhttps://orcid.org/0000-0002-5633-6094


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record

The following license files are associated with this item:

Namensnennung-Nicht-kommerziell 4.0 International