首页 |  海外房源 |  资讯百科 |  帮我找房 | 

房产新闻 购房指南 移民百科 留学资讯 海外生活 国际动态

人工智能如何让我们用文字描绘图画

时间:2022-09-01 08:18 来源:海房之家

DALL-E 2, please show us an astro<em></em>naut riding a horse in a photorealistic style. Image: OpenAI

分析:新的AI应用程序可以生成图像ba基于自然语言的PROM由人类用户提供的PTS

数字图像生成可能是一个困难和耗时的过程。然而,人工智能应用程序最近在从描述生成图像方面突破了创造力的极限。人工智能背后的基本思想之一是建立可以从人类提供的例子中学习的模型,并对新实例做出直观的决定。这一想法已被应用于文本、图像和视频处理,并催生了构建更具创造性的人工智能模型。

当我们想到创造力时,我们通常会把它与艺术和写作联系在一起。已经有很多尝试让机器拥有我们人类拥有的那种创造力。一种方法是用文本告诉机器一堆例子,让它自己找出规则。这是由自然语言处理(NLP)处理的。自然语言处理(NLP)是人工智能的一个子领域,旨在赋予计算机处理人类语言的能力,就像人类写的或说的那样。

另一种让机器变得有创造力的方法是给它们看一堆图片,告诉它们在这些图片中寻找什么。这个过程被称为计算机视觉(Computer Vision),众所周知,它被应用于自动驾驶汽车、无人机监控和面部识别应用。

我们使用rte-player来管理额外的内容,可以在您的设备上设置cookie,并收集有关您的活动的数据。请检查他们的详细信息,并接受他们加载内容。管理首选项

来自RTÉ电台第一频道的Ray D'Arcy节目,苏珊·利维博士讲述了人工智能的能力

最近,我们看到了使用DALL-E、DALL-E 2、Imagen和Craiyon(以前被称为DALL-E mini)等人工智能模型的机器的创造力的进步。这些人工智能应用程序可以根据人类用户提供的自然语言提示生成图像。

所以我们能从描述中生成图像吗?”是的,这就是这些文本到图像的人工智能模型发挥作用的地方。

文本-图像模型是如何工作的?

所有的这些模型都会根据句子得出一张图片。这类模型一开始是通过从互联网上获取数百万张图片及其文字说明来训练自己的。通过这些,他们学习如何将图片中的元素、个别物体和特征与描述它们的单词或短语联系起来。

当涉及到基于新描述制作一张图片时,它会将该描述作为输入,并首先将其分解为单词或短语。通过从大量图像中学习,人工智能能够决定哪些图像与手头的任务有关。然后,它可以把这些相似的图像合并成一张,然后把它们变成另一张不同的图像。在这个过程中,它还可以从现有的图像中创建一个新的概念。

从DALL-E到Craiyon

DALL-E

这一切都始于OpenAI的DALL-E。下面是由DALL-E制作的图片说明:“牛油果形状的扶手椅”。

在这里,它从文本中识别出了“扶手椅”、“形状”和“鳄梨”等关键词,并给出了它认为可能是“牛油果形状的扶手椅”的多个版本。

DALL-E 2

继DALL-E之后,OpenAI于2022年4月发布了DALL-E 2,它可以根据文字提示创建更逼真的图像。最近,DALL-E 2被用来在短短20秒内生成《Cosmopolitan》六月杂志的封面(“满足世界上第一个人工智能杂志封面”)。

画像

与DALL-E 2相竞争,谷歌推出了名为Imagen的版本,通过从文本中学习语义信息来创建超高分辨率的图像。

Craiyon

受DALL-E的启发,机器学习工程师Boris Dayma构建了DALL-E mini,作为一个开放源码项目,对公众开放。DALL-E mini与OpenAI的模型无关,因此被重新命名为“Craiyon”。

围绕人工智能图像生成的伦理问题

他们不是真实的

诚然,这些图片的最终目标是创造出看起来真实的图片,但由于这些图片是假的,因此人们会对如何使用它们产生担忧。

有偏见的图片

这些自动化系统可以使用来自世界各地的数据进行训练,有时,它可以发现数据中存在的社会偏见。

谁是创造者?

在人工智能生成的图像中,“谁是创造者?”是人类选择词语,还是通过分析人类描述事物的方式创造图像的人工智能?这将一直是一个关注的问题,提出版权问题和创造性的主张的图像。

尽管围绕着这些图像将如何使用、创造力和版权的正确归属等伦理问题,但在几秒钟内创建高分辨率、逼真的图像的潜力带来了巨大的优势,是向将创造力编码到人工智能模型的飞跃。