分类
Stable Diffusion

openai CLIP 库实现图片搜索

在看 stable diffusion 代码的时候,发现基本上都会用一个库 CLIP,是 openai 开源出来的, openai/CLIP: Contrastive Language-Image Pretraining 可以把图像和文本转换到一个向量空间,最简单的应用是可以用文本搜索图片,像 stable diffusion 这种生成模型,其实就是好几种技术拼接在一起,才会有这样的效果。

openia

图片搜索

Search photos on Unsplash using natural language 实现了文字到图片的搜索,原理非常简单,把要搜索的图片都转换面向量,把要搜索的文字也转换成向量,直接到这些向量就相似度就可以。

讓AI幫你穿搭!用CLIP實作一個時尚穿搭資料庫 (aif.tw)

openai CLIP
分类
有意思的项目

Ray 框架推荐

在找一个框架,可以方便的训练,调优,服务化的框架,找来找去,发现 Welcome to the Ray documentation — Ray 2.1.0 这个框架基本上能满足我的需求,查了一下,发现很多大公司在用,国外的 openai,shopify 之类的。

项目地址

GitHub – ray-project/ray: Ray is a unified framework for scaling AI and Python applications. Ray consists of a core distributed runtime and a toolkit of libraries (Ray AIR) for accelerating ML workloads.

分类
有意思的项目

openai 的 token 与 temperature

openai 是一个很好的工具,用来写商品标题、商品介绍、广告文案、推广邮件,确实很方便,已经是工作之中不可缺少的一个工具,现在的竞争就是看谁的工具更加先进。

在和同事交流的时候,发现大家对 openai 这里面两个最重要的概念(token, temperatuere)理解都不一样,查了一下手册,感觉说的很清晰的。

token

openai 的 token 与 区块链上的 token 完全不一样,他应该是语义不可再分的最小单位。

I have an orange cat named Butterscotch.

Ihaveanorangecatnamed 每一个都是一个 token,这里有 6 个 token。
Butterscotch 就会拆分成 Butterscotch 四个 token。

. 标点符号也是一个 token。

也就是复杂的会拆分,简单的就不会再拆分了,文档里面也提到了,很多 token 以空格开始,如

“ hello” and “ bye”

openai token 说明

openai token 提取

分类
创意 有意思的项目

openai 开放其语音识别模型 whisper

openai 开放了其语音识别模型 GitHub – openai/whisper

hisper是一个通用的语音识别模型。它是在一个大型的多样化音频数据集上训练出来的,也是一个多任务模型,可以进行多语言语音识别,以及语音翻译和语言识别。

只是把模型公开了,但是怎么样训练的并没有开源,把训练的结果开放给大家下载使用。

openai whisper 博客简介

Whisper是一个自动语音识别(ASR)系统,它是根据从网络上收集的680,000小时的多语言和多任务监督数据进行训练的。我们表明,使用这样一个庞大而多样的数据集,可以提高对口音、背景噪音和技术语言的稳健性。此外,它还能实现多种语言的转录,以及从这些语言翻译成英语。我们正在开放模型和推理代码,作为建立有用的应用程序和进一步研究稳健语音处理的基础。

安装

在 linux 上面安装非常方便,依赖 ffmpeg,我的是 centos,直接编译 ffmpeg 是最快的。

安装 yasm

sudo yum install yasm

安装 ffmpeg

git clone https://git.ffmpeg.org/ffmpeg.git

./configure --enable-shared

make -j 4

sudo make install

修改连接依赖

在 /etc/ld.so.conf 添加如下内容

/usr/local/lib/
/usr/local/lib64/

检查连接库

sudo ldconfig -v  | grep code

安装 whisper

sudo pip3.8  install git+https://github.com/openai/whisper.git

运行语音识别

 whisper a.mp3  --language en  --model medium

我对比了几个常用的语音识别引擎,包括 azure,whisper 基本上与他们保持一致。

应用场景

语音识别的场景应该还是很多的,比如多人会议纪录,字幕生成,podcast 转文本等。

分类
创意

我与 openai 的对话

聊了一下感觉还是很有意思了,前面有文章介绍过用 openai 复活他的妻子,今天我体验了一下怎么样卖货,怎么样长高,怎么样获取财富,很难感觉到对方是一个人。

Ai 复活了我的妻子 – qishiya

我打算用 openai 来实现如下几件事情

  1. 优化商品标题。
  2. 提出内容人的 keywords 和 summary。
  3. 生成一些方案。

聊了一下怎么样卖货

20220105GedA3p
20220105XqvSZd
湘ICP备2020020034号-1