NVIDIA Chat with RTX

试了一下 NVIDIA Chat with RTX ,

下载走代理，20M/s跑满了,一共35G，不到一个小时。

安装运行，一气呵成。

看了文件，安装了一个python311，然后用MiniConda做的Venv环境，最后运行训练好的model。

比较像是Stable Diffusion一样开源模型启动器，网页的效果和Stable Diffusion是同一个库用的Gradio。

我目前能看到的模型

llama，Llama 2 13B int4 llama13_int4_engine

mistral Mistral 7B int4 mistral7b_int4_engine

运行体验，模型效果感觉不如 GPT，中文支持不友好。大概率是模型配置的问题。

本质上来说和之前的几个没什么区别，不过运行速度很快。比之前部署ChatGLM-6B的体验好，基本可以实现实施对话。

看了里面的代码，支持的模型也还不少，llama，gpt,mpt,opt, qwen,baichuan 等。

上下文的支持还没看到，感觉和百度的那个很像，不过应该可以通过配置完成才对，没看到这块的配置选项。

理论上这个应该开源才对，不过开源就不能打logo了。

本地文件的关联索引，也是试了试，没有chatpdf 这些调用api 的好用。

使用起来不太好用，但值得参考，不知道以后会不会像Stable Diffusion一样火。

代码里面所有支持的模型在utils.py中还挺多

DEFAULT_HF_MODEL_DIRS = {

'baichuan': 'baichuan-inc/Baichuan-13B-Chat',

'bloom': 'bigscience/bloom-560m',

'chatglm_6b': 'THUDM/chatglm-6b',

'chatglm2_6b': 'THUDM/chatglm2-6b',

'chatglm2_6b_32k': 'THUDM/chatglm2-6b-32k',

'chatglm3_6b': 'THUDM/chatglm3-6b',

'chatglm3_6b_base': 'THUDM/chatglm3-6b-base',

'chatglm3_6b_32k': 'THUDM/chatglm3-6b-32k',

'falcon': 'tiiuae/falcon-rw-1b',

'glm_10b': 'THUDM/glm-10b',

'gpt': 'gpt2-medium',

'gptj': 'EleutherAI/gpt-j-6b',

'gptneox': 'EleutherAI/gpt-neox-20b',

'internlm': 'internlm/internlm-chat-7b',

'llama': 'meta-llama/Llama-2-7b-hf',

'mpt': 'mosaicml/mpt-7b',

'opt': 'facebook/opt-350m',

'qwen': 'Qwen/Qwen-7B',

}

这些东西，怎么撑得起来那么高得股价得。真是可怕，想不明白。